<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 業(yè)界動態(tài) > 除了知識圖譜,圖還能做什么?

          除了知識圖譜,圖還能做什么?

          作者:TigerGraph高級解決方案顧問,鮑翰林 時間:2020-07-06 來源:電子產(chǎn)品世界 收藏

          提到圖,大家可能不怎么了解,但是提到知識圖譜(knowledge graph),絕對是當(dāng)前的熱門話題。近年來,各個行業(yè)涌現(xiàn)出大量的垂直應(yīng)用及服務(wù)提供商,各個企業(yè),從技術(shù)到業(yè)務(wù)的各個條線,紛紛學(xué)習(xí)知識圖譜的概念、技術(shù)、建設(shè)方法。知識圖譜,是對現(xiàn)實世界的抽象,通過點和邊描述實體之間的關(guān)系,構(gòu)成一個大型的語義網(wǎng)絡(luò),提供一種從關(guān)系的視角來觀察世界的方法。但究其本質(zhì),知識圖譜其實只是圖的其中一種應(yīng)用。那除了知識圖譜,圖還能做什么呢?

          本文引用地址:http://www.ex-cimer.com/article/202007/415206.htm

          image.png

          一、圖直觀體現(xiàn)了實體之間的聯(lián)系

          提到一個新的東西,首先要知道它是什么。相信之前對圖有了解的小伙伴,一下子就能說出圖的概念:圖(graph)是由一組或多組點以及點和點之間的關(guān)系(也被稱為邊)組成的。比如知識圖譜,實際上是把知識提取出來做連接,如果僅僅是把數(shù)據(jù)連接起來,那可能只是一個數(shù)據(jù)圖譜。但是在我們與客戶實際交流的過程中發(fā)現(xiàn),只知道圖的概念,是沒辦法真正切換到圖的思維方式的,而圖的思維方式,對于重新思考業(yè)務(wù),有著非常大的價值。

          什么是圖的思維方式呢?讓我舉個例子,這個場景大家一定不會陌生。白板是公司里最常使用的工具之一。當(dāng)遇到一個問題需要群策群力的時候,我們會召集一些小伙伴,到一個會議室里進(jìn)行頭腦風(fēng)暴。首先,拋出幾個議題,大家發(fā)散思維,將想到的東西盡可能多的寫在白板上。然后,將這些信息進(jìn)行分類、排序,或者繪制一些流程。當(dāng)苦苦思索,陷入僵局的時候,我們會緊盯著白板上的信息,飛快地運轉(zhuǎn)自己的大腦,期望能想出一些新的點子。忽然,靈光一現(xiàn),可能是白板上的某些東西和自己腦中的信息產(chǎn)生了碰撞,也可能是白板上某些信息之間,貌似有一些新的聯(lián)系,就這樣,一個新的點子產(chǎn)生了,我們可以就這個點子進(jìn)行新的討論,并重復(fù)這個過程。而解釋這種想法,我只需要把自己的想法寫在白板上,并重新理清關(guān)系。

          聽起來很熟悉吧?沒錯,這其實就是我們自然的思考方式,也就是圖的思維方式。這個例子中,最重要的是聯(lián)系(connection),我們需要把每個人腦中的信息聯(lián)系起來,去發(fā)現(xiàn)一些新的東西,同樣地,當(dāng)我們向別人解釋自己的想法,用圖的方式去解釋這些信息如何聯(lián)系在一起,構(gòu)成一個想法,別人也更容易接受。

          在偵探電影中,我們經(jīng)常看到偵探把案情的所有信息貼在墻上,去發(fā)現(xiàn)里面一些隱藏的關(guān)系,因為這很有可能是破案的關(guān)鍵。如果家里的實體書種類繁多,散落在各處,我們在思考的時候,很有可能偶然看到某本書,想到了其中的某些內(nèi)容,把它們和思考的內(nèi)容結(jié)合起來產(chǎn)生一些新的想法??鐚W(xué)科思維,其實也是將一些可能看起來毫不相干的內(nèi)容聯(lián)系起來,產(chǎn)生新的想法或者解決方案。

          image.png

          二、圖思維其實就是發(fā)現(xiàn)聯(lián)系的過程

          所以圖思維,核心是聯(lián)系(connection),當(dāng)我們思考的重點在于事物之間如何聯(lián)系,或者期望通過聯(lián)系事物去產(chǎn)生一些新的思考的時候,其實已經(jīng)運用了圖思維。

          而意識到這是一種圖思維,會有什么樣的意義呢?還是舉個例子,這其實會讓我們多一種解決問題的方式。

          這是斯坦福大學(xué)《數(shù)理邏輯與人工智能》中的一個問題。

          看到這個問題的第一反應(yīng),你可能會想著用純邏輯推理的方式來解決這個問題。但是如果用圖的思維方式,我們將解決問題的重點放到了情況之間的聯(lián)系上。我們可以先構(gòu)造一個認(rèn)知圖(Epistemic graph),列出所有的8種可能情況,通過不確定邊來連接可能情況,去看每個人的認(rèn)知和可能情況之間的聯(lián)系,然后根據(jù)條件結(jié)合每個結(jié)點的鄰邊,不斷縮小圖中的結(jié)點的范圍,最后推理出結(jié)論。這種方式會讓這個問題變得更加簡單。

          圖是一個高度抽象的模型,數(shù)據(jù)中的各種關(guān)系都能用圖表示。圖中的點和邊,可以非常靈活,不局限于現(xiàn)實意義的實體。最直接能想到的當(dāng)然是某個人可以是點,某個產(chǎn)品可以是點,它們之間的聯(lián)系是邊;路口是點,路口與路口連接的XX路是邊。但你完全可以把某個產(chǎn)品的某個特性抽象成點,比如顏色、重量;XX路抽象成點,路口也抽象成點,XX路和YY路的連接是邊。甚至再擴(kuò)展到一些虛擬的實體,比如可能的情況是點,某筆交易是點,某個訂單是點。甚至到某些分子是點,分子之間的連接是邊(沒錯,圖是可以用在化學(xué)/生物等學(xué)科上的)。圖由你自由定義,可以連接人,連接物,連接知識,連接數(shù)據(jù),連接規(guī)則,連接過程,連接抽象的和實際的實體。

          image.png

          三、圖在企業(yè)中的實際應(yīng)用和價值

          圖能給企業(yè)帶來什么價值呢?上述的兩個例子可能已經(jīng)給了你一些啟發(fā)。圖非常擅長通過聯(lián)系發(fā)掘數(shù)據(jù)中隱藏的價值。在國外,其實已經(jīng)有非常多行業(yè)的客戶在用圖做實際應(yīng)用,囊括了金融、電信、電商、能源、醫(yī)療、供應(yīng)鏈、制造、政府等各個行業(yè)。圖本身并不是一個垂直行業(yè)的技術(shù),而是通用的技術(shù)。

          在金融行業(yè),圖可以進(jìn)行申請反欺詐、反盜刷、信用卡追逃、洗錢團(tuán)伙發(fā)現(xiàn),事前事中發(fā)現(xiàn)潛藏風(fēng)險,事后降低損失;在電信行業(yè),圖可以和機(jī)器學(xué)習(xí)結(jié)合,幫助客戶進(jìn)行電信反欺詐,實時識別出欺詐電話、廣告電話、騷擾電話、正常電話,并及時報送公安部門;在電商行業(yè),圖可以構(gòu)建用戶360畫像,幫助客戶進(jìn)行實時個性化產(chǎn)品推薦;在能源行業(yè),可以構(gòu)建電網(wǎng)一張圖,進(jìn)行潮流分析,實現(xiàn)超實時計算;在醫(yī)療行業(yè),圖可以對用戶進(jìn)行實時護(hù)理路徑推薦;在供應(yīng)鏈行業(yè),客戶可以通過圖及時了解某項因素發(fā)生變化時,對上下游及總體成本的影響,發(fā)現(xiàn)產(chǎn)品延誤、裝運狀態(tài)及其他質(zhì)量控制和風(fēng)險問題;在制造行業(yè),圖可以找到復(fù)雜生產(chǎn)工藝的最佳路徑;在政府行業(yè),圖可以改進(jìn)社會福利服務(wù)管理。在通用行業(yè),圖可以進(jìn)行數(shù)據(jù)治理中的數(shù)據(jù)血緣分析、實體解析,網(wǎng)絡(luò)&IT資源優(yōu)化,為機(jī)器學(xué)習(xí)提供圖特征。

          國內(nèi)的應(yīng)用場景主要集中在金融行業(yè)。當(dāng)然,圖用來做反欺詐、反洗錢等,是非常適合的,這些也是很成熟的應(yīng)用。其他行業(yè)為什么沒有對圖進(jìn)行大規(guī)模的應(yīng)用呢?其實是因為,對圖有了解的人,基本集中在學(xué)術(shù)和計算機(jī)領(lǐng)域。而想要將圖的價值發(fā)揮出來,需要業(yè)務(wù)人員的參與和思考,因為業(yè)務(wù)人員是最懂業(yè)務(wù)的。 理解和使用圖的思維方式,是應(yīng)用圖解決實際問題的第一步。 

          image.png

          四、應(yīng)用圖分析的條件和工具

          我們通常把這種用圖去分析問題的方式叫做圖分析(Graph Analysis)。我們認(rèn)為,如果想要應(yīng)用圖分析給企業(yè)帶來真正的價值,需要圖的思維方式(產(chǎn)生需求&問題)+企業(yè)數(shù)據(jù)(解決問題的數(shù)據(jù)基礎(chǔ))+解決方案(解決問題的方法)+工具(選擇合適的工具解決問題)。

          image.png

          image.png

          圖的思維方式

          由于歷史原因(有興趣的小伙伴可以了解一下數(shù)據(jù)庫的歷史,導(dǎo)航數(shù)據(jù)庫-關(guān)系型數(shù)據(jù)庫-nosql數(shù)據(jù)庫-圖數(shù)據(jù)庫),當(dāng)我們思考業(yè)務(wù)和數(shù)據(jù)結(jié)合的時候,往往會考慮技術(shù)的限制,應(yīng)用關(guān)系型數(shù)據(jù)庫的方式,也就是用表的思路來思考,這會極大的限制我們的思路。而現(xiàn)在有了新的工具——圖數(shù)據(jù)庫,可以將我們的想法更直接的與工具結(jié)合,不需要再將最初的想法打碎成一個個表格,再通過表格來表示實際業(yè)務(wù)。

          舉一個企業(yè)反薅羊毛的實際場景,薅羊毛是指商家或金融機(jī)構(gòu)為了拉新會舉辦一些推廣活動,比如每邀請一個新用戶注冊,可以獲得一定的積分獎勵,這些積分可以兌換現(xiàn)金、優(yōu)惠券或者獎品?;顒由暇€會吸引黑產(chǎn)團(tuán)伙,這給推廣方造成了大量的資金浪費。薅羊毛和反薅羊毛成為了黑產(chǎn)團(tuán)伙和推廣方之間的博弈。

          針對這種推廣活動,關(guān)系型數(shù)據(jù)庫里最簡單的存儲方式是分為邀請注冊表和積分兌換表兩張表,通過統(tǒng)計的方式去識別黑產(chǎn)團(tuán)伙,比如每個獨立設(shè)備登陸的賬戶數(shù),每個IP上登陸的賬戶數(shù)等等。然而黑產(chǎn)團(tuán)伙可以通過群控設(shè)備,虛擬IP等等技術(shù)來繞開這些檢測。

          但如果轉(zhuǎn)換成圖的思維方式,著重從關(guān)系的角度去分析,會發(fā)現(xiàn)一些非常有趣的模式。用戶邀請注冊的這些新用戶,他們既沒有產(chǎn)生新的交易,也沒有邀請新的人,甚至還按時間形成非常有序的排列,這毫無疑問也是薅羊毛的一種模式,單純通過統(tǒng)計很難發(fā)現(xiàn)。

          所以第一步,需要 業(yè)務(wù)人員 切換到圖的思維來重新思考業(yè)務(wù), 找到那些以前解決困難或者解決不了的復(fù)雜業(yè)務(wù)問題,嘗試用圖的思維方式來解決,甚至找到一些新的業(yè)務(wù)價值點。 

          image.png

          企業(yè)數(shù)據(jù)

          我們的想法往往需要通過數(shù)據(jù)分析來驗證或者落地。當(dāng)我們的數(shù)據(jù)量巨大,且類型復(fù)雜的時候,單純的統(tǒng)計分析已經(jīng)沒辦法滿足我們的需求了。業(yè)務(wù)人員在進(jìn)行探索式分析時,需要多維度思考,落地到關(guān)系型數(shù)據(jù)庫里,就體現(xiàn)為多表關(guān)聯(lián),在數(shù)據(jù)量巨大的時候,這對關(guān)系型數(shù)據(jù)庫是個災(zāi)難。而采用數(shù)據(jù)倉庫和大寬表的方案也不盡如人意。本質(zhì)上是因為,這些技術(shù)的重點并不是在數(shù)據(jù)之間的關(guān)系上。應(yīng)用圖分析平臺,業(yè)務(wù)人員和數(shù)據(jù)分析人員,都可以從數(shù)據(jù)的角度出發(fā),去做一些探索,找到一些隱藏的聯(lián)系。嘗試從關(guān)系的角度,發(fā)掘出新的價值。

          image.png

          解決方案

          當(dāng)有了想要解決的問題和解決問題的數(shù)據(jù)基礎(chǔ),還需要解決問題的方法。我們可以把行業(yè)經(jīng)驗和圖算法結(jié)合起來。可以從簡單的關(guān)系查詢開始,比如看新進(jìn)客戶是否和一個已有黑點連接,基于已有的規(guī)則做更深度的探索,通過子圖判斷兩個客戶是否相似。同時,還可以利用一些圖算法做輔助,比如我們想要發(fā)現(xiàn)一些隱藏的洗錢團(tuán)伙,欺詐團(tuán)伙,可以用圖中衡量群體度的算法——魯汶算法(Louvain Modularity);我們想要找到所有客戶中最有影響力的人(KOL),可以用圖中衡量中心度的算法——頁面排名算法(PageRank)。當(dāng)找到一些模式后,可以通過圖上的模式匹配找到所有的相似客戶,并通過一些目標(biāo)值做反復(fù)的驗證和迭代。 業(yè)務(wù)人員、數(shù)據(jù)分析人員、IT人員 都可以參與到其中,包括一些經(jīng)驗豐富的解決方案提供商,都是我們有力的幫手。

          image.png

          工具

          從業(yè)務(wù)的探索到最后的落地應(yīng)用,需要一個安全易用、穩(wěn)定可靠的工具支持。更重要的是,要選擇合適的工具。

          首先,如何使用圖,是純粹的做圖的可視化?還是做圖的查詢計算?還是做圖的數(shù)據(jù)和業(yè)務(wù)探索?

          其次,是否傳統(tǒng)的關(guān)系型數(shù)據(jù)庫就能解決這個問題,或者圖數(shù)據(jù)庫才能解決這個問題,還是需要多種工具結(jié)合使用。

          最后,關(guān)于工具本身的功能。業(yè)務(wù)人員可能更加關(guān)注探索與交互的易用性;開發(fā)人員可能更加關(guān)注開發(fā)的便捷性,語言是否強(qiáng)大;運維人員可能更加關(guān)注系統(tǒng)管理、資源監(jiān)控。不同的角色有不同的關(guān)注點,這都是工具需要解決的問題。

          看完上述四個步驟,你肯定會有很多問題,比如,怎么從數(shù)據(jù)的角度在圖中做探索呢?有沒有什么已經(jīng)落地的,圖的解決方案?關(guān)于企業(yè)不同角色對于工具的關(guān)注點,TigerGraph能夠滿足嗎?由于篇幅有限,這些問題,我們會在后續(xù)的內(nèi)容中一一解答。

          總結(jié)一下,除了知識圖譜,圖還能做什么呢?



          關(guān)鍵詞:

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();