除了知識圖譜,圖還能做什么?
提到圖,大家可能不怎么了解,但是提到知識圖譜(knowledge graph),絕對是當(dāng)前的熱門話題。近年來,各個(gè)行業(yè)涌現(xiàn)出大量的垂直應(yīng)用及服務(wù)提供商,各個(gè)企業(yè),從技術(shù)到業(yè)務(wù)的各個(gè)條線,紛紛學(xué)習(xí)知識圖譜的概念、技術(shù)、建設(shè)方法。知識圖譜,是對現(xiàn)實(shí)世界的抽象,通過點(diǎn)和邊描述實(shí)體之間的關(guān)系,構(gòu)成一個(gè)大型的語義網(wǎng)絡(luò),提供一種從關(guān)系的視角來觀察世界的方法。但究其本質(zhì),知識圖譜其實(shí)只是圖的其中一種應(yīng)用。那除了知識圖譜,圖還能做什么呢?
本文引用地址:http://www.ex-cimer.com/article/202007/415206.htm一、圖直觀體現(xiàn)了實(shí)體之間的聯(lián)系
提到一個(gè)新的東西,首先要知道它是什么。相信之前對圖有了解的小伙伴,一下子就能說出圖的概念:圖(graph)是由一組或多組點(diǎn)以及點(diǎn)和點(diǎn)之間的關(guān)系(也被稱為邊)組成的。比如知識圖譜,實(shí)際上是把知識提取出來做連接,如果僅僅是把數(shù)據(jù)連接起來,那可能只是一個(gè)數(shù)據(jù)圖譜。但是在我們與客戶實(shí)際交流的過程中發(fā)現(xiàn),只知道圖的概念,是沒辦法真正切換到圖的思維方式的,而圖的思維方式,對于重新思考業(yè)務(wù),有著非常大的價(jià)值。
什么是圖的思維方式呢?讓我舉個(gè)例子,這個(gè)場景大家一定不會(huì)陌生。白板是公司里最常使用的工具之一。當(dāng)遇到一個(gè)問題需要群策群力的時(shí)候,我們會(huì)召集一些小伙伴,到一個(gè)會(huì)議室里進(jìn)行頭腦風(fēng)暴。首先,拋出幾個(gè)議題,大家發(fā)散思維,將想到的東西盡可能多的寫在白板上。然后,將這些信息進(jìn)行分類、排序,或者繪制一些流程。當(dāng)苦苦思索,陷入僵局的時(shí)候,我們會(huì)緊盯著白板上的信息,飛快地運(yùn)轉(zhuǎn)自己的大腦,期望能想出一些新的點(diǎn)子。忽然,靈光一現(xiàn),可能是白板上的某些東西和自己腦中的信息產(chǎn)生了碰撞,也可能是白板上某些信息之間,貌似有一些新的聯(lián)系,就這樣,一個(gè)新的點(diǎn)子產(chǎn)生了,我們可以就這個(gè)點(diǎn)子進(jìn)行新的討論,并重復(fù)這個(gè)過程。而解釋這種想法,我只需要把自己的想法寫在白板上,并重新理清關(guān)系。
聽起來很熟悉吧?沒錯(cuò),這其實(shí)就是我們自然的思考方式,也就是圖的思維方式。這個(gè)例子中,最重要的是聯(lián)系(connection),我們需要把每個(gè)人腦中的信息聯(lián)系起來,去發(fā)現(xiàn)一些新的東西,同樣地,當(dāng)我們向別人解釋自己的想法,用圖的方式去解釋這些信息如何聯(lián)系在一起,構(gòu)成一個(gè)想法,別人也更容易接受。
在偵探電影中,我們經(jīng)??吹絺商桨寻盖榈乃行畔①N在墻上,去發(fā)現(xiàn)里面一些隱藏的關(guān)系,因?yàn)檫@很有可能是破案的關(guān)鍵。如果家里的實(shí)體書種類繁多,散落在各處,我們在思考的時(shí)候,很有可能偶然看到某本書,想到了其中的某些內(nèi)容,把它們和思考的內(nèi)容結(jié)合起來產(chǎn)生一些新的想法??鐚W(xué)科思維,其實(shí)也是將一些可能看起來毫不相干的內(nèi)容聯(lián)系起來,產(chǎn)生新的想法或者解決方案。
二、圖思維其實(shí)就是發(fā)現(xiàn)聯(lián)系的過程
所以圖思維,核心是聯(lián)系(connection),當(dāng)我們思考的重點(diǎn)在于事物之間如何聯(lián)系,或者期望通過聯(lián)系事物去產(chǎn)生一些新的思考的時(shí)候,其實(shí)已經(jīng)運(yùn)用了圖思維。
而意識到這是一種圖思維,會(huì)有什么樣的意義呢?還是舉個(gè)例子,這其實(shí)會(huì)讓我們多一種解決問題的方式。
這是斯坦福大學(xué)《數(shù)理邏輯與人工智能》中的一個(gè)問題。
看到這個(gè)問題的第一反應(yīng),你可能會(huì)想著用純邏輯推理的方式來解決這個(gè)問題。但是如果用圖的思維方式,我們將解決問題的重點(diǎn)放到了情況之間的聯(lián)系上。我們可以先構(gòu)造一個(gè)認(rèn)知圖(Epistemic graph),列出所有的8種可能情況,通過不確定邊來連接可能情況,去看每個(gè)人的認(rèn)知和可能情況之間的聯(lián)系,然后根據(jù)條件結(jié)合每個(gè)結(jié)點(diǎn)的鄰邊,不斷縮小圖中的結(jié)點(diǎn)的范圍,最后推理出結(jié)論。這種方式會(huì)讓這個(gè)問題變得更加簡單。
圖是一個(gè)高度抽象的模型,數(shù)據(jù)中的各種關(guān)系都能用圖表示。圖中的點(diǎn)和邊,可以非常靈活,不局限于現(xiàn)實(shí)意義的實(shí)體。最直接能想到的當(dāng)然是某個(gè)人可以是點(diǎn),某個(gè)產(chǎn)品可以是點(diǎn),它們之間的聯(lián)系是邊;路口是點(diǎn),路口與路口連接的XX路是邊。但你完全可以把某個(gè)產(chǎn)品的某個(gè)特性抽象成點(diǎn),比如顏色、重量;XX路抽象成點(diǎn),路口也抽象成點(diǎn),XX路和YY路的連接是邊。甚至再擴(kuò)展到一些虛擬的實(shí)體,比如可能的情況是點(diǎn),某筆交易是點(diǎn),某個(gè)訂單是點(diǎn)。甚至到某些分子是點(diǎn),分子之間的連接是邊(沒錯(cuò),圖是可以用在化學(xué)/生物等學(xué)科上的)。圖由你自由定義,可以連接人,連接物,連接知識,連接數(shù)據(jù),連接規(guī)則,連接過程,連接抽象的和實(shí)際的實(shí)體。
三、圖在企業(yè)中的實(shí)際應(yīng)用和價(jià)值
圖能給企業(yè)帶來什么價(jià)值呢?上述的兩個(gè)例子可能已經(jīng)給了你一些啟發(fā)。圖非常擅長通過聯(lián)系發(fā)掘數(shù)據(jù)中隱藏的價(jià)值。在國外,其實(shí)已經(jīng)有非常多行業(yè)的客戶在用圖做實(shí)際應(yīng)用,囊括了金融、電信、電商、能源、醫(yī)療、供應(yīng)鏈、制造、政府等各個(gè)行業(yè)。圖本身并不是一個(gè)垂直行業(yè)的技術(shù),而是通用的技術(shù)。
在金融行業(yè),圖可以進(jìn)行申請反欺詐、反盜刷、信用卡追逃、洗錢團(tuán)伙發(fā)現(xiàn),事前事中發(fā)現(xiàn)潛藏風(fēng)險(xiǎn),事后降低損失;在電信行業(yè),圖可以和機(jī)器學(xué)習(xí)結(jié)合,幫助客戶進(jìn)行電信反欺詐,實(shí)時(shí)識別出欺詐電話、廣告電話、騷擾電話、正常電話,并及時(shí)報(bào)送公安部門;在電商行業(yè),圖可以構(gòu)建用戶360畫像,幫助客戶進(jìn)行實(shí)時(shí)個(gè)性化產(chǎn)品推薦;在能源行業(yè),可以構(gòu)建電網(wǎng)一張圖,進(jìn)行潮流分析,實(shí)現(xiàn)超實(shí)時(shí)計(jì)算;在醫(yī)療行業(yè),圖可以對用戶進(jìn)行實(shí)時(shí)護(hù)理路徑推薦;在供應(yīng)鏈行業(yè),客戶可以通過圖及時(shí)了解某項(xiàng)因素發(fā)生變化時(shí),對上下游及總體成本的影響,發(fā)現(xiàn)產(chǎn)品延誤、裝運(yùn)狀態(tài)及其他質(zhì)量控制和風(fēng)險(xiǎn)問題;在制造行業(yè),圖可以找到復(fù)雜生產(chǎn)工藝的最佳路徑;在政府行業(yè),圖可以改進(jìn)社會(huì)福利服務(wù)管理。在通用行業(yè),圖可以進(jìn)行數(shù)據(jù)治理中的數(shù)據(jù)血緣分析、實(shí)體解析,網(wǎng)絡(luò)&IT資源優(yōu)化,為機(jī)器學(xué)習(xí)提供圖特征。
國內(nèi)的應(yīng)用場景主要集中在金融行業(yè)。當(dāng)然,圖用來做反欺詐、反洗錢等,是非常適合的,這些也是很成熟的應(yīng)用。其他行業(yè)為什么沒有對圖進(jìn)行大規(guī)模的應(yīng)用呢?其實(shí)是因?yàn)?對圖有了解的人,基本集中在學(xué)術(shù)和計(jì)算機(jī)領(lǐng)域。而想要將圖的價(jià)值發(fā)揮出來,需要業(yè)務(wù)人員的參與和思考,因?yàn)闃I(yè)務(wù)人員是最懂業(yè)務(wù)的。 理解和使用圖的思維方式,是應(yīng)用圖解決實(shí)際問題的第一步。
四、應(yīng)用圖分析的條件和工具
我們通常把這種用圖去分析問題的方式叫做圖分析(Graph Analysis)。我們認(rèn)為,如果想要應(yīng)用圖分析給企業(yè)帶來真正的價(jià)值,需要圖的思維方式(產(chǎn)生需求&問題)+企業(yè)數(shù)據(jù)(解決問題的數(shù)據(jù)基礎(chǔ))+解決方案(解決問題的方法)+工具(選擇合適的工具解決問題)。
圖的思維方式
由于歷史原因(有興趣的小伙伴可以了解一下數(shù)據(jù)庫的歷史,導(dǎo)航數(shù)據(jù)庫-關(guān)系型數(shù)據(jù)庫-nosql數(shù)據(jù)庫-圖數(shù)據(jù)庫),當(dāng)我們思考業(yè)務(wù)和數(shù)據(jù)結(jié)合的時(shí)候,往往會(huì)考慮技術(shù)的限制,應(yīng)用關(guān)系型數(shù)據(jù)庫的方式,也就是用表的思路來思考,這會(huì)極大的限制我們的思路。而現(xiàn)在有了新的工具——圖數(shù)據(jù)庫,可以將我們的想法更直接的與工具結(jié)合,不需要再將最初的想法打碎成一個(gè)個(gè)表格,再通過表格來表示實(shí)際業(yè)務(wù)。
舉一個(gè)企業(yè)反薅羊毛的實(shí)際場景,薅羊毛是指商家或金融機(jī)構(gòu)為了拉新會(huì)舉辦一些推廣活動(dòng),比如每邀請一個(gè)新用戶注冊,可以獲得一定的積分獎(jiǎng)勵(lì),這些積分可以兌換現(xiàn)金、優(yōu)惠券或者獎(jiǎng)品。活動(dòng)上線會(huì)吸引黑產(chǎn)團(tuán)伙,這給推廣方造成了大量的資金浪費(fèi)。薅羊毛和反薅羊毛成為了黑產(chǎn)團(tuán)伙和推廣方之間的博弈。
針對這種推廣活動(dòng),關(guān)系型數(shù)據(jù)庫里最簡單的存儲(chǔ)方式是分為邀請注冊表和積分兌換表兩張表,通過統(tǒng)計(jì)的方式去識別黑產(chǎn)團(tuán)伙,比如每個(gè)獨(dú)立設(shè)備登陸的賬戶數(shù),每個(gè)IP上登陸的賬戶數(shù)等等。然而黑產(chǎn)團(tuán)伙可以通過群控設(shè)備,虛擬IP等等技術(shù)來繞開這些檢測。
但如果轉(zhuǎn)換成圖的思維方式,著重從關(guān)系的角度去分析,會(huì)發(fā)現(xiàn)一些非常有趣的模式。用戶邀請注冊的這些新用戶,他們既沒有產(chǎn)生新的交易,也沒有邀請新的人,甚至還按時(shí)間形成非常有序的排列,這毫無疑問也是薅羊毛的一種模式,單純通過統(tǒng)計(jì)很難發(fā)現(xiàn)。
所以第一步,需要 業(yè)務(wù)人員 切換到圖的思維來重新思考業(yè)務(wù), 找到那些以前解決困難或者解決不了的復(fù)雜業(yè)務(wù)問題,嘗試用圖的思維方式來解決,甚至找到一些新的業(yè)務(wù)價(jià)值點(diǎn)。
企業(yè)數(shù)據(jù)
我們的想法往往需要通過數(shù)據(jù)分析來驗(yàn)證或者落地。當(dāng)我們的數(shù)據(jù)量巨大,且類型復(fù)雜的時(shí)候,單純的統(tǒng)計(jì)分析已經(jīng)沒辦法滿足我們的需求了。業(yè)務(wù)人員在進(jìn)行探索式分析時(shí),需要多維度思考,落地到關(guān)系型數(shù)據(jù)庫里,就體現(xiàn)為多表關(guān)聯(lián),在數(shù)據(jù)量巨大的時(shí)候,這對關(guān)系型數(shù)據(jù)庫是個(gè)災(zāi)難。而采用數(shù)據(jù)倉庫和大寬表的方案也不盡如人意。本質(zhì)上是因?yàn)?這些技術(shù)的重點(diǎn)并不是在數(shù)據(jù)之間的關(guān)系上。應(yīng)用圖分析平臺,業(yè)務(wù)人員和數(shù)據(jù)分析人員,都可以從數(shù)據(jù)的角度出發(fā),去做一些探索,找到一些隱藏的聯(lián)系。嘗試從關(guān)系的角度,發(fā)掘出新的價(jià)值。
解決方案
當(dāng)有了想要解決的問題和解決問題的數(shù)據(jù)基礎(chǔ),還需要解決問題的方法。我們可以把行業(yè)經(jīng)驗(yàn)和圖算法結(jié)合起來??梢詮暮唵蔚年P(guān)系查詢開始,比如看新進(jìn)客戶是否和一個(gè)已有黑點(diǎn)連接,基于已有的規(guī)則做更深度的探索,通過子圖判斷兩個(gè)客戶是否相似。同時(shí),還可以利用一些圖算法做輔助,比如我們想要發(fā)現(xiàn)一些隱藏的洗錢團(tuán)伙,欺詐團(tuán)伙,可以用圖中衡量群體度的算法——魯汶算法(Louvain Modularity);我們想要找到所有客戶中最有影響力的人(KOL),可以用圖中衡量中心度的算法——頁面排名算法(PageRank)。當(dāng)找到一些模式后,可以通過圖上的模式匹配找到所有的相似客戶,并通過一些目標(biāo)值做反復(fù)的驗(yàn)證和迭代。 業(yè)務(wù)人員、數(shù)據(jù)分析人員、IT人員 都可以參與到其中,包括一些經(jīng)驗(yàn)豐富的解決方案提供商,都是我們有力的幫手。
工具
從業(yè)務(wù)的探索到最后的落地應(yīng)用,需要一個(gè)安全易用、穩(wěn)定可靠的工具支持。更重要的是,要選擇合適的工具。
首先,如何使用圖,是純粹的做圖的可視化?還是做圖的查詢計(jì)算?還是做圖的數(shù)據(jù)和業(yè)務(wù)探索?
其次,是否傳統(tǒng)的關(guān)系型數(shù)據(jù)庫就能解決這個(gè)問題,或者圖數(shù)據(jù)庫才能解決這個(gè)問題,還是需要多種工具結(jié)合使用。
最后,關(guān)于工具本身的功能。業(yè)務(wù)人員可能更加關(guān)注探索與交互的易用性;開發(fā)人員可能更加關(guān)注開發(fā)的便捷性,語言是否強(qiáng)大;運(yùn)維人員可能更加關(guān)注系統(tǒng)管理、資源監(jiān)控。不同的角色有不同的關(guān)注點(diǎn),這都是工具需要解決的問題。
看完上述四個(gè)步驟,你肯定會(huì)有很多問題,比如,怎么從數(shù)據(jù)的角度在圖中做探索呢?有沒有什么已經(jīng)落地的,圖的解決方案?關(guān)于企業(yè)不同角色對于工具的關(guān)注點(diǎn),TigerGraph能夠滿足嗎?由于篇幅有限,這些問題,我們會(huì)在后續(xù)的內(nèi)容中一一解答。
總結(jié)一下,除了知識圖譜,圖還能做什么呢?
評論