今天我要分享的主題是知識(shí)圖譜應(yīng)用關(guān)鍵技術(shù)及我們?cè)谛袠I(yè)應(yīng)用中的一些探索,其實(shí)剛剛漆老師已經(jīng)給我們分享了一個(gè)非常有趣的知識(shí)圖譜應(yīng)用,就是佛學(xué)。 那么剛剛提到的佛學(xué)考試,可能現(xiàn)在確實(shí)不多,但是最近大家應(yīng)該能夠看到,在我們的朋友圈中有一些高考機(jī)器人的文章被刷屏,也就是有很多的學(xué)霸被這些機(jī)器人所代替了,其實(shí)他們后面很大程度的用了知識(shí)圖譜相關(guān)的技術(shù)。 今天我的分享分為兩個(gè)部分:
首先我們按照慣例,看一下什么是知識(shí)圖譜,我這里引用的是語(yǔ)義網(wǎng)之父的一句話:語(yǔ)義網(wǎng)它是一個(gè)面向數(shù)據(jù)的互聯(lián)網(wǎng),從某種含義上來(lái)說(shuō),它其實(shí)就是一個(gè)全局的數(shù)據(jù)庫(kù)。 什么是一個(gè)面向數(shù)據(jù)的互聯(lián)網(wǎng)?我們都知道,現(xiàn)在我們看到的網(wǎng)站,可以說(shuō)是面向文檔和網(wǎng)頁(yè)的一個(gè)互聯(lián)網(wǎng),在這個(gè)互聯(lián)網(wǎng)中間,它的主要信息是通過(guò)網(wǎng)頁(yè)來(lái)表達(dá)的,網(wǎng)頁(yè)方便之處是易于被人類所理解,所以平時(shí)我們查閱信息還是比較方便的,但是它有一個(gè)缺點(diǎn),就是語(yǔ)義信息不足,所以機(jī)器理解起來(lái)比較困難,現(xiàn)在我們的互聯(lián)網(wǎng)正在轉(zhuǎn)變,它在轉(zhuǎn)變成為一種面向數(shù)據(jù)的互聯(lián)網(wǎng),在這種互聯(lián)網(wǎng)里面,它的信息和數(shù)據(jù)是可以被機(jī)器理解的。 我們看一下什么是面向數(shù)據(jù)的互聯(lián)網(wǎng),現(xiàn)在我們的互聯(lián)網(wǎng)中間,它不應(yīng)該只是一個(gè)個(gè)的網(wǎng)頁(yè),它應(yīng)該更多的是一個(gè)個(gè)的事物,或者說(shuō)是一個(gè)個(gè)的實(shí)體,就像我們這個(gè)圖中間看到的,互聯(lián)網(wǎng)里面包含的更多的是對(duì)這些具體事物的描述。這張圖里面包含了建筑、糖果、化學(xué)物,還有藝術(shù)作品等。 這就是面向數(shù)據(jù)的互聯(lián)網(wǎng)中具體的事物,這些事物本身并不是孤立的,它們相互關(guān)聯(lián),這就構(gòu)成了這些事物之間的各種各樣的關(guān)聯(lián)關(guān)系,這可以說(shuō)是面向數(shù)據(jù)的互聯(lián)網(wǎng)的本質(zhì):首先有各種各樣的事物,然后是這些事物之間的關(guān)聯(lián)關(guān)系。 我們?cè)賮?lái)看一下,為什么會(huì)出現(xiàn)面向數(shù)據(jù)的互聯(lián)網(wǎng)這樣一個(gè)概念,從07年左右開(kāi)始,我們可以看到,開(kāi)放鏈接數(shù)據(jù)越來(lái)越多,這個(gè)圖從07年到現(xiàn)在,正好是10年左右的時(shí)間,我們可以看到它的發(fā)展是非??斓?,這個(gè)網(wǎng)絡(luò)在不斷的增加。這些數(shù)據(jù)相對(duì)來(lái)說(shuō)都是結(jié)構(gòu)化附有語(yǔ)義的,是一個(gè)個(gè)具體的事物。 在這一背景下面,Google在12年的時(shí)候,提出了“知識(shí)圖譜”的概念,剛剛漆老師提到,Google主要用它來(lái)構(gòu)建下一代的搜索引擎,Google提出知識(shí)圖譜的時(shí)候,用了這么一個(gè)短句:
也就是說(shuō),在互聯(lián)網(wǎng)中它不是一個(gè)個(gè)字符串,而是一個(gè)個(gè)真實(shí)存在的事物,事物之間還有相應(yīng)的關(guān)聯(lián)關(guān)系,右下角圖我們可以看到,里面有人物,并且還有他們之間的關(guān)聯(lián)。 什么是知識(shí)圖譜?其實(shí)定義是非常多的,我這里提供一個(gè)我們自己的理解:知識(shí)圖譜主要的目標(biāo)是用來(lái)描述真實(shí)世界中間存在的各種實(shí)體和概念,以及它們之間的關(guān)聯(lián)關(guān)系。 我們最開(kāi)始的時(shí)候也提到了,它是一個(gè)全局的數(shù)據(jù)庫(kù),在這個(gè)全局的數(shù)據(jù)庫(kù)中間,更多的希望它所有的事物都有一個(gè)全局唯一確定的ID,就像網(wǎng)頁(yè)一樣,每個(gè)網(wǎng)頁(yè)都有一個(gè)唯一的url來(lái)標(biāo)識(shí),對(duì)每個(gè)實(shí)體和概念,我們也同樣的用這么一個(gè)ID去描述,稱之為標(biāo)識(shí)符。 同時(shí)對(duì)于這些實(shí)體,它們的屬性,我們就用“屬性–值對(duì)“來(lái)刻畫它的內(nèi)在特性,比如說(shuō)我們的人物,他有年齡、身高、體重屬性;同時(shí)我們還用關(guān)系來(lái)描述兩個(gè)實(shí)體之間的關(guān)聯(lián)。 下面這兩個(gè)圖,就體現(xiàn)了事物和它們之間的關(guān)系。 知識(shí)圖譜的概念還是比較明確的,但是有很多朋友還是會(huì)存在疑問(wèn)。 知識(shí)圖譜和本體到底有什么關(guān)系?知識(shí)圖譜并不是一個(gè)全新的東西,而是在以前的技術(shù)或理論上面,進(jìn)行的一個(gè)重新的定義,引入了一個(gè)新的概念。
這一特性很重要,會(huì)用在我們很多的地方,比如說(shuō)我們?cè)贚inked Open Data里面就用到了這種理念,同時(shí)我們提到了在后面企業(yè)大數(shù)據(jù)的應(yīng)用里面,其實(shí)也會(huì)用到這個(gè)特性,它可以支持?jǐn)?shù)據(jù)動(dòng)態(tài)變遷的能力。 知識(shí)圖譜有哪些用途?我們這里列舉了一些,主要是人工智能相關(guān)的,因?yàn)楝F(xiàn)在人工智能非?;鸨?。
以上是對(duì)知識(shí)圖譜用途的一個(gè)簡(jiǎn)單的介紹。 接下來(lái)我們來(lái)看知識(shí)圖譜的第一個(gè)應(yīng)用,也就是知識(shí)圖譜提出的初衷——用來(lái)改善搜索。 如果我們現(xiàn)在去 Google 搜北京理工大學(xué)的時(shí)候,我們可以看到右邊有一個(gè)知識(shí)卡片,它里面包含了北理工的很多基本介紹,同時(shí)還有一些基本的屬性,這是知識(shí)圖譜用在搜索里面給我們帶來(lái)的第一個(gè)變化; 如果我們?cè)儆冒俣仍囈幌?,很多人搜的時(shí)候可能會(huì)想,如果要考北京理工大學(xué),大概要多少分,正好這兩天也是高考的時(shí)間,現(xiàn)在我們搜的時(shí)候可以看到,在不同的區(qū)域,它會(huì)根據(jù)你的定位,自動(dòng)把北理工在當(dāng)前省份去年、前年和前幾年的一個(gè)分?jǐn)?shù)展示出來(lái),同時(shí)我們也可以看到一個(gè)地圖,地圖的作用是告訴你北理工在什么地方。 通過(guò)知識(shí)圖譜,我們?cè)谒阉饕胬锩婵梢钥吹截S富的結(jié)果,在右邊我們可以看到和北理工相關(guān)的高校,以及和北理工相關(guān)的其他一些事物,這就是知識(shí)圖譜給我們帶來(lái)的搜索的改變。
同時(shí)我們還可以看到,在搜索結(jié)果里面,不僅僅是一些結(jié)構(gòu)化的信息,它還有很多關(guān)聯(lián)的關(guān)系。 比如我們?nèi)ニ裇uperCell這家公司,這是一個(gè)游戲公司,我們可以看到它的很多相關(guān)聯(lián)信息,比如CEO、母公司、創(chuàng)建地址,它是被騰訊收購(gòu)的一家創(chuàng)建于荷蘭的公司。
除了在搜索引擎里面,在社交網(wǎng)絡(luò)中也用到了知識(shí)圖譜,如果用過(guò)Facebook,它就用了知識(shí)圖譜的技術(shù)去鏈接里面的人物、地點(diǎn)和事件,正如我們舉的兩個(gè)例子:如果去搜喜歡哈佛大學(xué)的人,它可以直接給你答案;第二個(gè)例子,搜去過(guò)哈佛大學(xué)的人,它同樣可以給你答案;
這就是在社交網(wǎng)絡(luò)里面的應(yīng)用。 再看另外一個(gè)例子,這個(gè)例子更加復(fù)雜。 如果你去搜喜歡哈佛大學(xué),喜歡籃球并且在Facebook工作的人,這其實(shí)是一個(gè)比較復(fù)雜的搜索,或者我們可以把它看作一個(gè)問(wèn)答,這也是知識(shí)圖譜能夠給我們帶來(lái)的改變,也就是你搜的時(shí)候直接能夠給你答案。
以上是在通用知識(shí)圖譜或者社交網(wǎng)絡(luò)中有這些應(yīng)用,在行業(yè)中也有類似的使用知識(shí)圖譜技術(shù)的產(chǎn)品。 比如金融領(lǐng)域的問(wèn)財(cái),如果在里面搜“萬(wàn)科A”,它就會(huì)很明確的告訴你,搜索的是一個(gè)股票,股票最關(guān)注的就是它最近的波動(dòng),問(wèn)財(cái)會(huì)自動(dòng)的把萬(wàn)科A最近股價(jià)波動(dòng)的曲線給展示出來(lái),同時(shí)還會(huì)告訴你萬(wàn)科A是房地產(chǎn)行業(yè)的,并且在右下方推薦房地產(chǎn)相關(guān)行業(yè)的公司。 這是知識(shí)圖譜在行業(yè)里面的一些應(yīng)用。
我們也做了一些探索,在創(chuàng)投知識(shí)圖譜,也就是對(duì)一些初創(chuàng)企業(yè)的投資信息。比如“嘀嘀打車”,它的公司名叫“北京小桔科技有限公司”,我們?nèi)ニ训臅r(shí)候,就會(huì)去猜測(cè)用戶最關(guān)心什么? 第一個(gè)關(guān)心的應(yīng)該是它的融資事件和歷史,我們會(huì)用一個(gè)時(shí)序的圖把融資的歷史給體現(xiàn)出來(lái);同時(shí)對(duì)一家初創(chuàng)企業(yè),我們還會(huì)關(guān)心它的創(chuàng)始人,創(chuàng)始人有哪些,背景如何?我們會(huì)一并展示出來(lái);同時(shí)還有一些相關(guān)的熱點(diǎn)事件新聞,這些都是知識(shí)圖譜在搜索里面給我們帶來(lái)的一些變化。
搜索如果往后再延伸一步的話,就是問(wèn)答,我們?cè)賮?lái)看知識(shí)圖譜下一個(gè)應(yīng)用場(chǎng)景: 自動(dòng)問(wèn)答 自動(dòng)問(wèn)答目前也是一個(gè)非常熱門的方向,這可能是面向應(yīng)用最直接的方式,目前不管是學(xué)術(shù)界還是工業(yè)界都在做相關(guān)的研究,這里有兩個(gè)例子,左邊是百度的度秘,右邊是蘋果的Siri,可以看到自然語(yǔ)言問(wèn)答的結(jié)果。
現(xiàn)在還有一個(gè)比較火的領(lǐng)域就是兒童機(jī)器人,這是王昊奮老師上期PPT分享中的一個(gè)圖,我們可以看到聊天機(jī)器人從10年的時(shí)候開(kāi)始流行,一直到現(xiàn)在已經(jīng)出現(xiàn)了很多具有代表性的產(chǎn)品,其中包含Siri,小冰,IBM Watson,公子小白等。
什么是智能問(wèn)答?智能問(wèn)答是指用戶以自然語(yǔ)言提問(wèn)的形式提出信息查詢需求,系統(tǒng)依據(jù)對(duì)問(wèn)題的分析,從各種數(shù)據(jù)資源中自動(dòng)找出準(zhǔn)確的答案。 這就是自動(dòng)問(wèn)答要做的事情,它的應(yīng)用可以分為以下幾類:
我們對(duì)知識(shí)圖譜問(wèn)答做一個(gè)分類可以分為:
FAQ在很多場(chǎng)景下面已經(jīng)達(dá)到了很好的效果,但是客觀的評(píng)價(jià),在開(kāi)放領(lǐng)域的自動(dòng)問(wèn)答還處于一個(gè)比較初級(jí)的階段,所以現(xiàn)在更多成功的用例是在特定領(lǐng)域里面,特定領(lǐng)域里面我們一般是基于行業(yè)去做,以上是智能問(wèn)答的一個(gè)分類。
智能問(wèn)答依賴于一些關(guān)鍵的基礎(chǔ)及技術(shù),一般需要大量高質(zhì)量的數(shù)據(jù)和知識(shí)庫(kù),這就是我們今天分享的話題,知識(shí)圖譜;同時(shí)還依賴于強(qiáng)大的NLP技術(shù)的支撐,需要NLP技術(shù)對(duì)問(wèn)題進(jìn)行解析;同時(shí)如果擁有大規(guī)模訓(xùn)練語(yǔ)料的話就更加好了,因?yàn)楝F(xiàn)在深度學(xué)習(xí)是一種趨勢(shì)。 如果你有大規(guī)模語(yǔ)料,尤其是問(wèn)答對(duì)的話,就可以利用深度學(xué)習(xí)去提供這種端到端的智能問(wèn)答。
接下來(lái)描繪一下自動(dòng)問(wèn)答的基本過(guò)程。
智能問(wèn)答現(xiàn)在的方法主要有這么幾類:
接下來(lái)對(duì)幾種方法做一個(gè)介紹。 基于信息檢索的方法 這個(gè)方法更多的還是和傳統(tǒng)的檢索技術(shù)非常相似,首先利用分詞、命名實(shí)體識(shí)別等相關(guān)NLP工具去對(duì)問(wèn)句進(jìn)行解析,得到中間的關(guān)鍵詞,進(jìn)一步得到實(shí)體,得到這些關(guān)鍵詞和實(shí)體之后,再去資源庫(kù)里進(jìn)行檢索。 它有個(gè)缺點(diǎn),如果我們做過(guò)檢索,或者在百度或Google中檢索過(guò)就會(huì)發(fā)現(xiàn)一個(gè)問(wèn)題,它要求你的答案必須至少包含問(wèn)句中的一個(gè)字或詞,所以查全率方面相對(duì)會(huì)比較低。 如果有了知識(shí)圖譜以后我們就可以進(jìn)行改進(jìn),可以基于知識(shí)圖譜對(duì)它進(jìn)行語(yǔ)義的擴(kuò)充,當(dāng)對(duì)問(wèn)句進(jìn)行分詞、命名實(shí)體識(shí)別之后,可以從知識(shí)圖譜里面去找其它的同義詞,或者實(shí)體其它的稱呼,就可以對(duì)其進(jìn)行語(yǔ)義的擴(kuò)充,去提高它的匹配率。 同時(shí)我們做搜索的朋友應(yīng)該都會(huì)遇到一個(gè)問(wèn)題就是消岐的問(wèn)題,也就是同一個(gè)詞或字符串,它代表不同的含義。我們經(jīng)常的舉的一個(gè)例子,就是“蘋果”,它可能代表很多東西,可以代表水果,也可以是代表蘋果公司,也可以代表蘋果公司的一些產(chǎn)品,如果通過(guò)關(guān)鍵字檢索的話,那么很難對(duì)這些結(jié)果進(jìn)行語(yǔ)義上的區(qū)分,所以有了知識(shí)圖譜之后,就可以從實(shí)體的角度去理解。 基于語(yǔ)義分析的方法 這個(gè)方法非常直觀,它和人的理解非常相似,就是把自然語(yǔ)言的一個(gè)問(wèn)句,按照特定的語(yǔ)法或語(yǔ)言的規(guī)則去進(jìn)行解析,形成一個(gè)語(yǔ)義的表達(dá)式,得到這個(gè)表達(dá)式以后,用這個(gè)表達(dá)式可以明確的去描繪你的意圖,然后就可以非常方便的轉(zhuǎn)換成為一種查詢語(yǔ)言,這種查詢語(yǔ)言可以是數(shù)據(jù)庫(kù)的查詢語(yǔ)言,也可以是其它的查詢語(yǔ)言。這取決于你的數(shù)據(jù),你的查詢目標(biāo)是放在什么地方。 常用的方法就是利用組合范疇語(yǔ)法(CCG)的方式,這種語(yǔ)法最核心的就是詞匯,首先我們還是離不開(kāi)自然語(yǔ)言處理去做映射得到詞匯,然后再用語(yǔ)法的規(guī)則把這些詞匯進(jìn)行語(yǔ)義上的組合,最終得到語(yǔ)義表達(dá)式。 這里面是有一個(gè)難點(diǎn)的,也就是中文的自然語(yǔ)言分析尤其是語(yǔ)義分析的準(zhǔn)確率,很難達(dá)到工業(yè)可用的級(jí)別,一般通常還是在50%以內(nèi),所以這是語(yǔ)義分析方法很難的一個(gè)問(wèn)題,所以如果我們是面向通用的問(wèn)答去做,它的準(zhǔn)確率比較低,因此通用領(lǐng)域的智能問(wèn)答還處于一個(gè)比較初級(jí)的階段。 怎么去改進(jìn)?同樣可以利用知識(shí)圖譜。但是通用的知識(shí)圖譜的質(zhì)量并不能保證,所以它很難在通用的領(lǐng)域利用知識(shí)圖譜去做很大的改善,所以通常在做的時(shí)候,包括我們自己在探索的時(shí)候,會(huì)在特定的領(lǐng)域里去做。我們會(huì)基于知識(shí)圖譜里面的實(shí)體、屬性、概念去對(duì)問(wèn)題里面的詞或?qū)嶓w進(jìn)行解析和映射,然后再基于圖結(jié)構(gòu)做一個(gè)語(yǔ)法規(guī)則的匹配,這就相當(dāng)于是圖里面的子圖查詢匹配問(wèn)題,通過(guò)這種方式,我們就可以把語(yǔ)義解析的范圍范疇進(jìn)行限定,限定范圍以后,因?yàn)槔锩嬷R(shí)足夠多,并且在領(lǐng)域里面,我們通常還是可以構(gòu)建相對(duì)可靠的知識(shí)圖譜,從而可以得到正確率比較高的解析,最后再去進(jìn)行檢索,就可以大大改善自動(dòng)問(wèn)答的準(zhǔn)確率。 基于規(guī)則的專家系統(tǒng)方法 第三種方法可以說(shuō)是比較無(wú)腦的,也就是上世紀(jì)80年代用的比較多的。 這種方法它的好處非常明顯,如果你命中的話準(zhǔn)確率非常高,基本上可以達(dá)到100%,但他的缺陷也很明顯,如果你的問(wèn)題或應(yīng)用的領(lǐng)域比較多的話,那么它肯定是不能支持的,因?yàn)閷<蚁到y(tǒng)的范圍一般比較窄,并且其可擴(kuò)展性、可復(fù)用性也是比較差的,如果要構(gòu)建一個(gè)專家系統(tǒng),需要花費(fèi)很大的精力,這種方式也通常不可復(fù)制。 所以缺點(diǎn)就是通用性比較差,不能覆蓋很多應(yīng)用場(chǎng)景。 基于深度學(xué)習(xí)的方法 這種最近幾年非常熱的。深度學(xué)習(xí),尤其是Alpha Go出來(lái)以后,把它推向了一個(gè)高峰。近幾年卷積神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)這種相關(guān)的技術(shù)在NLP領(lǐng)域也得到了比較好的應(yīng)用,并取得了比較好的成果。它主要用來(lái)做語(yǔ)言的表示,語(yǔ)言表示就可以擴(kuò)展到問(wèn)答里面,就是前面的每一個(gè)關(guān)鍵任務(wù),比如在做語(yǔ)言的語(yǔ)義解析的時(shí)候,在做問(wèn)題和答案的匹配、生成的時(shí)候,都可以用到。簡(jiǎn)單來(lái)說(shuō)就是對(duì)用戶的輸入進(jìn)行解析,對(duì)答案檢索查詢環(huán)節(jié)進(jìn)行優(yōu)化,這是目前用的較多的一種方法。 還有一種使用的方式,就是前面提到的使用深度學(xué)習(xí)去訓(xùn)練端到端的自動(dòng)問(wèn)答,把問(wèn)題和答案均使用復(fù)雜的特征向量進(jìn)行描述,然后用深度學(xué)習(xí)來(lái)計(jì)算問(wèn)題和答案之間的相似度,最終給出答案。要實(shí)現(xiàn)端到端的自動(dòng)問(wèn)答,有一個(gè)前提就是需要有大規(guī)模的語(yǔ)料。 這是自動(dòng)問(wèn)答的四種方法,知識(shí)圖譜在所有的方法里面都是有用的,我們概括一下,知識(shí)圖譜可以算是自動(dòng)問(wèn)答里面的大腦:
知識(shí)推理可以說(shuō)是問(wèn)答系統(tǒng)提高“智力”的一個(gè)核心環(huán)節(jié),怎么去提高的,等會(huì)我們會(huì)介紹知識(shí)推理相關(guān)的一些技術(shù)。 這是我們?cè)谥悄軉?wèn)答里面的一些探索,可以說(shuō)是基于語(yǔ)義解析的一種自動(dòng)問(wèn)答,我們主要還是應(yīng)用在行業(yè)里面,從用戶輸入開(kāi)始,我們會(huì)基于知識(shí)圖譜對(duì)概念、實(shí)體、屬性以及一些相關(guān)的運(yùn)算符,進(jìn)行分詞匹配,然后把它與知識(shí)圖譜里面的元素進(jìn)行映射;接下來(lái)一步就是做語(yǔ)義的解析和驗(yàn)證,知識(shí)圖譜的結(jié)構(gòu)性特別強(qiáng),所以我們?cè)谧稣Z(yǔ)義理解解析的時(shí)候,可以用知識(shí)圖譜這種圖結(jié)構(gòu)去輔助進(jìn)行理解。 在語(yǔ)義解析和驗(yàn)證這個(gè)環(huán)節(jié)里面,我們應(yīng)用了知識(shí)圖譜的結(jié)構(gòu),比如說(shuō)實(shí)體和屬性的鏈接、實(shí)體和實(shí)體之間的鏈接,都是代表語(yǔ)義上面的一些含義。 做完語(yǔ)義解析以后,接下來(lái)就是做查詢的轉(zhuǎn)換,知識(shí)圖譜是存在相應(yīng)的圖存儲(chǔ)里面,對(duì)其做相應(yīng)的查詢轉(zhuǎn)換非常方便;最后再去數(shù)據(jù)的資源里面去進(jìn)行查詢,最終返回結(jié)果。 右邊是我們?cè)诤Q笾R(shí)圖譜里面做的一個(gè)應(yīng)用的案例,這個(gè)例子是我們?cè)诓樽畲蟮娜N魚(yú),首先我們對(duì)問(wèn)題進(jìn)行實(shí)體的解析,其次再去進(jìn)行語(yǔ)義的解析,然后再去進(jìn)行查詢,最終給出答案。
以上我們自己在基于語(yǔ)義解析的自動(dòng)問(wèn)答系統(tǒng)里面做的一些探索。 剛剛把知識(shí)圖譜最常用的兩個(gè)應(yīng)用場(chǎng)景做了一個(gè)簡(jiǎn)單的描述:一個(gè)是搜索,一個(gè)是自動(dòng)問(wèn)答。 接下來(lái)我們對(duì)知識(shí)圖譜應(yīng)用相關(guān)的一些技術(shù)做一個(gè)描述。 知識(shí)圖譜的應(yīng)用技術(shù)今天主要分享三類:
知識(shí)圖譜之上的圖挖掘和計(jì)算有這么一些算法:
圖的遍歷 圖的遍歷大家都知道有兩種方法,一個(gè)是廣度優(yōu)先遍歷,一個(gè)是深度優(yōu)先遍歷,這個(gè)我們就不詳細(xì)去說(shuō)了。這里舉了一個(gè)例子,對(duì)于下面這個(gè)圖,分別用廣度優(yōu)先遍歷和深度優(yōu)先遍歷查詢的結(jié)果。
最短路徑 最短路徑分為幾個(gè)場(chǎng)景,第一個(gè)是單源最短路徑,簡(jiǎn)單的解釋下就是從一個(gè)點(diǎn)出發(fā),去求它到其他所有節(jié)點(diǎn)的最短路徑。 Dijkstra是圖論里經(jīng)典的算法,算法雖然比較經(jīng)典,但是在現(xiàn)實(shí)中間應(yīng)該說(shuō)應(yīng)用場(chǎng)景是比較少的,比如在社交網(wǎng)絡(luò)里面,我們很少去求一個(gè)人到其他所有人的最短路徑,這個(gè)應(yīng)用的含義不大。 第二個(gè)就是每對(duì)節(jié)點(diǎn)之間的最短路徑,這同樣也有一個(gè)非常經(jīng)典的Floyd算法,這個(gè)應(yīng)用場(chǎng)景也比較少,社交網(wǎng)絡(luò)中間也很少查任意兩個(gè)人之間的最短路徑。 我們舉一個(gè)最常見(jiàn)的應(yīng)用場(chǎng)景,也就是給出兩個(gè)節(jié)點(diǎn),找他們之間的最短路徑,這個(gè)應(yīng)用場(chǎng)景就比較多了,在社交網(wǎng)絡(luò)中兩個(gè)人,你可能要計(jì)算通過(guò)幾步他們之間會(huì)有關(guān)聯(lián)。 在我們的應(yīng)用場(chǎng)景中間也非常多,比如說(shuō)在我們的企業(yè)知識(shí)圖譜里面,給定兩個(gè)公司,要去查他們之間到底有沒(méi)有關(guān)系?幾步里面有關(guān)系?這就是一個(gè)典型的應(yīng)用場(chǎng)景。
路徑探尋 剛剛我們把這個(gè)圖用來(lái)做最短路徑,還可以給定兩個(gè)節(jié)點(diǎn),去看他們之間不僅僅是最短路徑,可以查兩個(gè)企業(yè)之間5步以內(nèi)到底有哪些關(guān)系,這就是路徑探尋算法,也就是給定兩個(gè)或多個(gè)節(jié)點(diǎn),探尋它們特定步驟里面到底有多少關(guān)系,有哪些路徑。 這是兩個(gè)節(jié)點(diǎn),多個(gè)節(jié)點(diǎn)也是同樣的,比如說(shuō)在我們的創(chuàng)投知識(shí)圖譜里面,我們?nèi)ゲ轵v訊、百度、阿里共同投資了哪些公司,這就可以把它轉(zhuǎn)換成一個(gè)路徑探尋的算法,也就是給定這三個(gè)公司,我們?nèi)タ纯刺囟ǖ牟襟E里面,它們有哪些路徑關(guān)系,不管是直接投資還是間接投資,到底有哪些共同的投資。
權(quán)威節(jié)點(diǎn)的分析 先看應(yīng)用場(chǎng)景,做過(guò)社交網(wǎng)絡(luò)分析的人應(yīng)該都知道,里面有個(gè)很常見(jiàn)的應(yīng)用場(chǎng)景就是社交網(wǎng)絡(luò)里的權(quán)威人物分析,也就是在社交網(wǎng)絡(luò)里面哪些人是比較有權(quán)威的,有權(quán)威并不代表說(shuō)他粉絲多就有權(quán)威,可能有些人,他在特定的領(lǐng)域里面有權(quán)威。 定義一下,在知識(shí)圖譜的網(wǎng)絡(luò)中間,怎么去分析節(jié)點(diǎn)的權(quán)威度,找到里面的權(quán)威節(jié)點(diǎn),這里面算法就比較多,經(jīng)典的算法就是我們搜索里面的Page Rank,它簡(jiǎn)單的說(shuō)就是用一種相互投票的機(jī)制,最后去決定每個(gè)節(jié)點(diǎn)的權(quán)威度。 還有一種是基于節(jié)點(diǎn)的屬性以及節(jié)點(diǎn)之間關(guān)系的一種多特征方法,知識(shí)圖譜對(duì)每個(gè)節(jié)點(diǎn)既有自己的屬性,同時(shí)還有和其他節(jié)點(diǎn)之間的關(guān)聯(lián),我們可以把節(jié)點(diǎn)屬性和關(guān)系結(jié)合起來(lái),形成一種多特征的評(píng)估方法。 在創(chuàng)投領(lǐng)域知識(shí)圖譜里面,一個(gè)應(yīng)用場(chǎng)景就是去找到里面的權(quán)威投資機(jī)構(gòu),同時(shí)還會(huì)去找到哪些是有潛力的創(chuàng)新獨(dú)角獸公司。 族群的發(fā)現(xiàn)算法 還是先看應(yīng)用場(chǎng)景,在社交網(wǎng)絡(luò)中,我們不僅僅是對(duì)個(gè)人感興趣,還會(huì)想知道在網(wǎng)絡(luò)中,有哪些小的群體。 在社交網(wǎng)絡(luò)中存在一些主題的社區(qū),存在對(duì)特定領(lǐng)域感興趣的群體,就像我們大家對(duì)知識(shí)圖譜感興趣一樣,我們要在社交網(wǎng)絡(luò)中找到對(duì)知識(shí)圖譜感興趣的這些人物,這就是族群發(fā)現(xiàn)算法的一個(gè)應(yīng)用場(chǎng)景。 簡(jiǎn)單描述一下,它就是從知識(shí)圖譜的網(wǎng)絡(luò)中間發(fā)現(xiàn)在一個(gè)或者多個(gè)角度相似節(jié)點(diǎn)的族群,做法也比較多,這里我們列出兩個(gè)算法,第一個(gè)是圖里面經(jīng)典的最大流算法,還有一個(gè)和剛剛在計(jì)算權(quán)威節(jié)點(diǎn)時(shí)使用的方法類似,就是基于節(jié)點(diǎn)的屬性和節(jié)點(diǎn)之間的關(guān)系形成多特征去進(jìn)行聚類,從而找到里面的群體。 在企業(yè)知識(shí)圖譜里面,我們可以去找到全國(guó)幾千萬(wàn)企業(yè)里面的阿里系、騰訊系,也就是哪些是阿里投資的,阿里感興趣的一些公司。 相似節(jié)點(diǎn)的發(fā)現(xiàn)算法 我們?cè)谧銎髽I(yè)知識(shí)圖譜的時(shí)候,比如一家企業(yè)他已經(jīng)有一些客戶了,他可能還希望找到相似的客戶,那么我們就可以去找到和他現(xiàn)有客戶相似的一些客戶,這就是相似節(jié)點(diǎn)發(fā)現(xiàn)的一個(gè)應(yīng)用場(chǎng)景。 從海量的知識(shí)圖譜中間去尋找和已知節(jié)點(diǎn)相似的節(jié)點(diǎn),方法有三種:
我們做的一個(gè)應(yīng)用場(chǎng)景,就是在專利知識(shí)圖譜里面去尋找相似的專利。 知識(shí)圖譜的可視化可視化應(yīng)該說(shuō)很好理解,這里我引用了維基百科里的定義:可視化是利用計(jì)算機(jī)圖形學(xué)和圖像處理的相關(guān)技術(shù),將數(shù)據(jù)知識(shí)和信息變成圖形或圖像在屏幕上展示,同時(shí)還有一個(gè)概念就是要和用戶進(jìn)行交互。 它里面包含了兩層含義,第一個(gè)就是要轉(zhuǎn)化成圖像,第二個(gè)就是交互,這個(gè)含義到現(xiàn)在說(shuō)已經(jīng)有點(diǎn)過(guò)時(shí)了,現(xiàn)在不僅僅是計(jì)算機(jī),很多其他移動(dòng)化的設(shè)備都有可視化的需求。 可視化我們看下它的三大功能:
我們知道有一個(gè)模型,叫DIKW,也就是數(shù)據(jù)、信息、知識(shí),再到智慧。這個(gè)模型我們應(yīng)該非常熟悉,從底層的數(shù)據(jù)開(kāi)始進(jìn)行一定的提煉,形成信息,然后再進(jìn)行抽取形成知識(shí),在知識(shí)上面可以做很多的應(yīng)用,比如說(shuō)推理,比如說(shuō)現(xiàn)在的人工智能,這就是智慧。 定義到可視化里面,我們也可以這樣去分類,從數(shù)據(jù)的可視化,到信息的可視化,再到知識(shí)的可視化,當(dāng)然最后面是智慧的可視化,這個(gè)就更加抽象,更加困難,這個(gè)我們今天就不去表述。
先看數(shù)據(jù)可視化,有哪些類型的數(shù)據(jù),第一個(gè)就是記錄型的數(shù)據(jù),使用過(guò)關(guān)系型數(shù)據(jù)庫(kù)就會(huì)很清楚,里面有很多記錄型的數(shù)據(jù);然后還有關(guān)系型的數(shù)據(jù),就像我們的知識(shí)圖譜,它是一種關(guān)系密集型的數(shù)據(jù);然后還有時(shí)態(tài)數(shù)據(jù)、空間數(shù)據(jù)。 什么是數(shù)據(jù)可視化,這個(gè)定義比較理論化,對(duì)于數(shù)據(jù)可視化不用我們?nèi)ミM(jìn)行解釋,大家應(yīng)該都知道,就是把數(shù)據(jù)里面的一些信息、含義,怎么去用一種形式去進(jìn)行抽象、提取,形成信息然后用相應(yīng)的屬性、變量去進(jìn)行描繪,這是數(shù)據(jù)可視化。 數(shù)據(jù)可視化里面有很多理論的研究和技術(shù),今天由于時(shí)間關(guān)系,我不去詳細(xì)的介紹,大家感興趣的話可以去看浙大陳為教授的《數(shù)據(jù)可視化》,對(duì)整個(gè)可視化做了非常詳細(xì)的剖析。 然后是信息的可視化和知識(shí)的可視化,應(yīng)該說(shuō)信息和知識(shí)的可視化在一定程度上很難去進(jìn)行直接的區(qū)分,因?yàn)樾畔⒑椭R(shí)沒(méi)有嚴(yán)格的界限。信息可視化是研究大規(guī)模非數(shù)值信息資源的呈現(xiàn),這里面主要的目標(biāo)就是幫助人去理解和分析數(shù)據(jù)。 知識(shí)可視化主要用來(lái)傳達(dá)和表示復(fù)雜知識(shí)的圖像,用圖像圖形的手段去表達(dá),其主要目標(biāo)是用來(lái)做知識(shí)的傳輸和傳遞,幫助其他人去正確的重構(gòu)、記憶和應(yīng)用知識(shí)。
接下來(lái)我們看一下在做知識(shí)可視化的時(shí)候有哪些常見(jiàn)的形式,我這里列出來(lái)的只是一部分,比如說(shuō)在知識(shí)圖譜里面我們有概念和概念的層次,一種直觀的方式就是用概念的層次圖去進(jìn)行知識(shí)的可視化,第二種就是用思維導(dǎo)圖的形式,同時(shí)我們還可以去做認(rèn)知的地圖,最后可以用語(yǔ)義網(wǎng)絡(luò)的方式,知識(shí)圖譜就是用這種原生態(tài)的語(yǔ)義網(wǎng)絡(luò)形式進(jìn)行描述的。 接下來(lái)我們看幾個(gè)簡(jiǎn)單的例子,首先在知識(shí)圖譜可視化里面常用的縮放和鉆取,因?yàn)槲覀冎R(shí)圖譜是非常大的,就像我們剛剛的視頻,最開(kāi)始的時(shí)候我們看到里面有非常多的節(jié)點(diǎn),怎么去定位到里面我們需要的節(jié)點(diǎn),就可以用知識(shí)的縮放和鉆取去找到我們關(guān)注的節(jié)點(diǎn)。 第二個(gè)可以通過(guò)不同的視圖去描述,比如說(shuō)左邊概念樹(shù)的形式,樹(shù)形結(jié)構(gòu)描述也是非常常用的方式,這種方式非常簡(jiǎn)單直觀;右邊我們還列出了一些其他的方式,比如車輪圖等。
還有很多其他的視圖,比如說(shuō)上方環(huán)狀的圖,詞云圖,以及左下角的氣泡圖等,這些都是知識(shí)圖譜可視化的一些示例。 對(duì)于可視化還有很多的工作要做,知識(shí)圖譜的應(yīng)用,是要把知識(shí)圖譜傳遞出去,可視化是一個(gè)非常直觀的手段,所以里面有非常多值得研究的地方。
知識(shí)圖譜中的推理由于知識(shí)圖譜和本體關(guān)系非常密切,所以里面最重要的就是基于本體的知識(shí)推理,即知識(shí)圖譜核心知識(shí)內(nèi)容部分的推理。 然后因?yàn)橹R(shí)圖譜在大數(shù)據(jù)應(yīng)用里面用的非常多,我們可以做知識(shí)圖譜大數(shù)據(jù)預(yù)測(cè)分析與關(guān)聯(lián)挖掘,也就是圍繞知識(shí)圖譜組織的大數(shù)據(jù),怎么去做預(yù)測(cè)分析和關(guān)聯(lián)挖掘。 這是知識(shí)圖譜推理兩個(gè)主要的方面。 知識(shí)圖譜里本體的推理 本體推理主要有兩大目標(biāo),第一個(gè)就是找到知識(shí)圖譜里面隱含的知識(shí),因?yàn)槲覀儾还苁窃跇?gòu)建知識(shí)圖譜還是在構(gòu)建本體的時(shí)候,一般都會(huì)有一個(gè)原則,就是用比較簡(jiǎn)單的機(jī)制去描述盡可能多的信息,有些東西可能就直接隱含在里面了,這些隱含的信息就必須用知識(shí)推理的方式把它表達(dá)出來(lái)。 還有一個(gè)就是在知識(shí)圖譜構(gòu)建的時(shí)候經(jīng)常用到的,做不一致性檢測(cè)。不管是手動(dòng)構(gòu)建,還是自動(dòng)構(gòu)建知識(shí)圖譜,都會(huì)碰到一個(gè)問(wèn)題,或者你的數(shù)據(jù)來(lái)源不同,或者你的構(gòu)建的人員不同、方法不同,就會(huì)不可避免的導(dǎo)致一些沖突,這些沖突自身很難直觀的去發(fā)現(xiàn),但是可以利用知識(shí)圖譜里面的不一致性檢測(cè)去發(fā)現(xiàn)存在的有矛盾的、有沖突的知識(shí)。 這是基于本體的知識(shí)推理的兩大目的。 OWL推理的方法有以下幾類:
今天著重講的是用于知識(shí)圖譜里面組織大數(shù)據(jù)做分析,怎么去做規(guī)律發(fā)現(xiàn),怎么做預(yù)測(cè)。 我們都知道知識(shí)圖譜在大數(shù)據(jù)的組織方面有很多的應(yīng)用場(chǎng)景,這也是我們下半場(chǎng)要重點(diǎn)講的一個(gè)主題。 現(xiàn)在大數(shù)據(jù)我們用它來(lái)做什么?第一個(gè)是我們用來(lái)做決策或輔助決策,有時(shí)是用即時(shí)數(shù)據(jù),有時(shí)候用統(tǒng)計(jì)方法,同時(shí)也可以在數(shù)據(jù)中歸納一些新的數(shù)據(jù)模型,還可以從數(shù)據(jù)里面得到新的知識(shí)。 大數(shù)據(jù)預(yù)測(cè) 預(yù)測(cè)可以說(shuō)是大數(shù)據(jù)的核心價(jià)值,可能經(jīng)常會(huì)聽(tīng)說(shuō)要用大數(shù)據(jù)去做股市的預(yù)測(cè),去做疾病的預(yù)測(cè),去做消費(fèi)行為的預(yù)測(cè),這些都是大數(shù)據(jù)核心應(yīng)用的價(jià)值。即從已經(jīng)發(fā)生的過(guò)去慢慢轉(zhuǎn)變到面向即將發(fā)生的未來(lái)。 從過(guò)去到預(yù)測(cè)未來(lái),本身是有個(gè)邏輯基礎(chǔ)的,我們認(rèn)為它帶有一定的推理的含義,即事物在變化之前一定有征兆,突變是很少的,所以所有的事情都是有跡可循的,如果找到了這種征兆規(guī)律,你就可以去進(jìn)行預(yù)測(cè),這是大數(shù)據(jù)進(jìn)行邏輯預(yù)測(cè)的一個(gè)基礎(chǔ)。 預(yù)測(cè)通常是用一個(gè)預(yù)測(cè)模型,預(yù)測(cè)模型主要需要基于歷史的數(shù)據(jù),歷史的數(shù)據(jù)決定未來(lái)事情發(fā)生的一個(gè)概率,因?yàn)榇髷?shù)據(jù)做預(yù)測(cè)的時(shí)候,一般不會(huì)去說(shuō)我直接給你一個(gè)確定的答案,因?yàn)槲粗氖澜缍际菐в幸欢ǖ目勺冃缘?,所以大?shù)據(jù)在做預(yù)測(cè)的時(shí)候,通常給你一個(gè)事情發(fā)生的概率。 關(guān)聯(lián)規(guī)則的挖掘 就是去找事物和事物時(shí)間的關(guān)聯(lián)關(guān)系,做數(shù)據(jù)挖掘的朋友應(yīng)該都聽(tīng)說(shuō)過(guò)啤酒和尿布的故事,這就是一個(gè)非常典型的關(guān)聯(lián)規(guī)則挖掘的場(chǎng)景。要做關(guān)聯(lián)規(guī)則的挖掘,通常需要經(jīng)歷兩個(gè)階段。 第一個(gè)就是從大數(shù)據(jù)的集合里面找到所有高頻的關(guān)聯(lián)項(xiàng)目組,然后再由這些高頻的項(xiàng)目組通過(guò)一些算法去進(jìn)行過(guò)濾分析,最終找到關(guān)聯(lián)規(guī)則,這是做關(guān)聯(lián)規(guī)則最重要的兩個(gè)階段。 在做關(guān)聯(lián)規(guī)則挖掘的時(shí)候,有四個(gè)關(guān)鍵的指標(biāo),第一個(gè)是可信度,第二個(gè)是支持度,第三個(gè)是期望可信度,然后是作用度。 把這兩個(gè)推理總結(jié)起來(lái):知識(shí)圖譜其實(shí)回答了“為什么”,它可以告訴你明確的原因,并且給出來(lái)的一般都是比較肯定的答案,可以讓你了解世界運(yùn)作方式背后的深層原因;大數(shù)據(jù)更多的回答“是什么”,但是它很難告訴你為什么會(huì)是這樣?所以它主要強(qiáng)調(diào)的是現(xiàn)象之間的聯(lián)系,從而解決現(xiàn)實(shí)中的問(wèn)題。 有沒(méi)有辦法把它們結(jié)合起來(lái):首先通過(guò)大數(shù)據(jù)去發(fā)現(xiàn)是什么,然后利用知識(shí)圖譜知識(shí)推理方式去尋找背后真實(shí)的原因,這就是現(xiàn)在用的比較多的一個(gè)智能決策系統(tǒng)。 在這種智能決策系統(tǒng)里面,其實(shí)把大數(shù)據(jù)的預(yù)測(cè)和挖掘,以及知識(shí)圖譜支持的推理結(jié)合起來(lái),同時(shí)還把數(shù)據(jù)分析的一些模型也結(jié)合起來(lái)。 我們看圖下方的模型庫(kù)、知識(shí)庫(kù)和數(shù)據(jù)庫(kù),把它們結(jié)合起來(lái)。 對(duì)于數(shù)據(jù)庫(kù)利用數(shù)據(jù)庫(kù)管理系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘系統(tǒng);對(duì)于知識(shí)庫(kù),利用知識(shí)庫(kù)管理系統(tǒng)及相應(yīng)的推理機(jī);對(duì)于模型庫(kù),用相應(yīng)的模型庫(kù)管理系統(tǒng)、模型計(jì)算。 從用戶的角度,需要對(duì)三種機(jī)制的結(jié)果進(jìn)行統(tǒng)一,最終把統(tǒng)一的結(jié)果返回給用戶,形成一個(gè)基于大數(shù)據(jù)挖掘和知識(shí)推理的智能決策系統(tǒng)。 這張圖是一個(gè)基本的架構(gòu)。
下半場(chǎng)主要講知識(shí)圖譜用來(lái)做大數(shù)據(jù)的分析和挖掘,也就是現(xiàn)在企業(yè)面臨的大數(shù)據(jù)背景下面怎么去使用知識(shí)圖譜技術(shù),幫助他們做數(shù)據(jù)的分析、融合以及決策。 下面這張圖是上次分享過(guò)的一張圖,從數(shù)據(jù)庫(kù)時(shí)代到大數(shù)據(jù)時(shí)代,當(dāng)時(shí)我們借鑒了一個(gè)非常形象的比喻,池塘捕魚(yú)到大海捕魚(yú)。 在數(shù)據(jù)庫(kù)時(shí)代,從數(shù)據(jù)規(guī)模的角度來(lái)說(shuō)相對(duì)是比較小的,在GB的級(jí)別;在大數(shù)據(jù)時(shí)代,很多企業(yè)數(shù)據(jù)已經(jīng)超過(guò)了TB,甚至有些達(dá)到了ZB的級(jí)別。這是從數(shù)據(jù)規(guī)模的角度來(lái)說(shuō),大數(shù)據(jù)時(shí)代與傳統(tǒng)的數(shù)據(jù)庫(kù)時(shí)代的一個(gè)典型的區(qū)別。 從數(shù)據(jù)類型的角度來(lái)看,以前主要以結(jié)構(gòu)化的數(shù)據(jù)為主,數(shù)據(jù)通常是存在關(guān)系數(shù)據(jù)庫(kù)里面的,這些數(shù)據(jù)通常是結(jié)構(gòu)化的,但在大數(shù)據(jù)時(shí)代,我們會(huì)看到它的數(shù)據(jù)類型會(huì)非常多,不僅僅有結(jié)構(gòu)化的數(shù)據(jù),還有半結(jié)構(gòu)化的,甚至非結(jié)構(gòu)化的數(shù)據(jù),并且還有個(gè)趨勢(shì),后兩者越來(lái)越多。 再?gòu)臄?shù)據(jù)模式的角度來(lái)看,以前在傳統(tǒng)的數(shù)據(jù)庫(kù)時(shí)代,我們通常是先構(gòu)建關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)模式,然后再去存儲(chǔ)數(shù)據(jù),查詢、使用數(shù)據(jù),這要求你對(duì)自己的數(shù)據(jù)有非常好的把握,數(shù)據(jù)模式要先固定,之后也不要有太多的變化,做關(guān)系數(shù)據(jù)庫(kù)應(yīng)用的朋友知道,如果關(guān)系數(shù)據(jù)庫(kù)要變動(dòng),對(duì)系統(tǒng)帶來(lái)的變化后果,有時(shí)候甚至是災(zāi)難性的;在大數(shù)據(jù)時(shí)代,數(shù)據(jù)大部分都是未知的,對(duì)于數(shù)據(jù)的數(shù)量、形態(tài)、作用都在不斷探索,數(shù)據(jù)的模式通常都是在數(shù)據(jù)出現(xiàn)以后才能去確定,數(shù)據(jù)模式也是隨著數(shù)據(jù)增長(zhǎng)在不斷演變的。 最后從數(shù)據(jù)處理的方式來(lái)看,以前通過(guò)一種方式或者一種工具就可以去解決大部分所有的問(wèn)題,但大數(shù)據(jù)時(shí)代很難用一種通用的工具方法去解決所有的問(wèn)題,不管是數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)分析的算法還是從應(yīng)用的角度,都是多種多樣的,在不同的應(yīng)用場(chǎng)景下面,需要不同的技術(shù)方法。
在大數(shù)據(jù)的背景下面,企業(yè)如果要應(yīng)用這些大數(shù)據(jù),通常會(huì)有哪些挑戰(zhàn)? 第一個(gè)就是多源異構(gòu)的數(shù)據(jù)很難融合,企業(yè)包括不僅內(nèi)部的數(shù)據(jù),還有從第三方接入的數(shù)據(jù)以及互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù),甚至是采購(gòu)的數(shù)據(jù)。這些數(shù)據(jù)很多,可能描述同一個(gè)事物有很多的數(shù)據(jù)源,它們分散在不同的地方,怎么去把它們?nèi)诤掀饋?lái)?這里舉了一個(gè)人物的例子,他在企業(yè)內(nèi)部不同的系統(tǒng)里面,互聯(lián)網(wǎng)里面都有他的信息,怎么去進(jìn)行融合這是我們企業(yè)在面向大數(shù)據(jù)的時(shí)候會(huì)碰到的第一個(gè)挑戰(zhàn)。
第二個(gè)挑戰(zhàn),大數(shù)據(jù)時(shí)代,數(shù)據(jù)模式在不斷變化的場(chǎng)景下,需要有一種可自有擴(kuò)展的數(shù)據(jù)模式,細(xì)心的朋友已經(jīng)聽(tīng)到,知識(shí)圖譜是基于本體來(lái)構(gòu)建的,所以本體的動(dòng)態(tài)特性,就賦予了知識(shí)圖譜支持大數(shù)據(jù)動(dòng)態(tài)變化的能力。
第三個(gè)挑戰(zhàn)就是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)如何理解使用,非結(jié)構(gòu)化的數(shù)據(jù)簡(jiǎn)單來(lái)說(shuō)就是文本,對(duì)于文本數(shù)據(jù)如何處理,傳統(tǒng)的方式依賴于NLP的方式,但是NLP本身的效果還未達(dá)到工業(yè)可用的級(jí)別,怎么對(duì)非結(jié)構(gòu)化的數(shù)據(jù)去進(jìn)行應(yīng)用?
第四個(gè),傳統(tǒng)數(shù)據(jù)在使用的時(shí)候需要專業(yè)的程序員去編寫程序去進(jìn)行查詢使用,普通的應(yīng)用分析人員很難對(duì)數(shù)據(jù)去進(jìn)行探索,我們要有一種快速的方式去對(duì)數(shù)據(jù)進(jìn)行探索和使用。
第五個(gè)挑戰(zhàn),在傳統(tǒng)的數(shù)據(jù)庫(kù)時(shí)代,構(gòu)建的不同系統(tǒng)使用方式不一樣,數(shù)據(jù)集成的時(shí)候會(huì)非?;靵y,我們更多的期待這些分散的數(shù)據(jù)如何把它們?nèi)诤掀饋?lái),形成一個(gè)統(tǒng)一的消費(fèi)利用的入口,工作人員可以從統(tǒng)一的入口進(jìn)行數(shù)據(jù)的消費(fèi)。
接下來(lái)看下知識(shí)圖譜如何解決以上五個(gè)問(wèn)題。下圖是我們做的探索,知識(shí)圖譜如何助力數(shù)據(jù)分析實(shí)現(xiàn)商業(yè)智能:
使用這種技術(shù),就可以把原來(lái)分散在各個(gè)地方的數(shù)據(jù)經(jīng)過(guò)抽取、融合、鏈接形成知識(shí)圖譜,接下來(lái)在這之上可以為業(yè)務(wù)層提供統(tǒng)一的消費(fèi)入口,包括以下方式,比如說(shuō)進(jìn)行語(yǔ)義的分析、理解、查詢,然后可以做數(shù)據(jù)關(guān)聯(lián)的探索,即知識(shí)圖譜圖探索,對(duì)于業(yè)務(wù)的拓展可以動(dòng)態(tài)的去定義擴(kuò)充,同時(shí)可以進(jìn)行智能的檢索和問(wèn)答,從而為用戶提供統(tǒng)一的入口。
接下來(lái)我們?cè)敿?xì)分析如何使用知識(shí)圖譜里面相關(guān)技術(shù)做這件事情:
怎么使用知識(shí)圖譜去對(duì)數(shù)據(jù)進(jìn)行建模 知識(shí)圖譜里面有兩個(gè)基本元素,一個(gè)是實(shí)體,一個(gè)是概念。 我們可以以實(shí)體為主體目標(biāo),實(shí)現(xiàn)對(duì)不同來(lái)源的數(shù)據(jù)進(jìn)行映射與合并,因?yàn)槠髽I(yè)碰到的數(shù)據(jù)很大的一個(gè)應(yīng)用場(chǎng)景就是數(shù)據(jù)在不同的系統(tǒng)里面,但是描述的是同一個(gè)事物,怎么去把他們合并起來(lái)?可以用實(shí)體的機(jī)制進(jìn)行建模,然后通過(guò)實(shí)體合并相關(guān)的技術(shù),把不同數(shù)據(jù)里描述同一個(gè)實(shí)體的數(shù)據(jù)進(jìn)行融合; 融合后可以利用實(shí)體的屬性來(lái)表示不同數(shù)據(jù)源中針對(duì)實(shí)體的描述,即A處過(guò)來(lái)的數(shù)據(jù)可以用一部分屬性進(jìn)行描述,B處來(lái)的也可以用一些屬性進(jìn)行描述,用屬性進(jìn)行統(tǒng)一描述之后,就會(huì)形成對(duì)實(shí)體全方位的描述,這里面用到屬性的映射和歸并,因?yàn)閺牟煌瑪?shù)據(jù)源中來(lái)的,可能有些屬性是重復(fù)的,甚至是沖突的,需要考慮怎么去合并; 其次就是利用知識(shí)圖譜里面的關(guān)聯(lián)關(guān)系去描述各種數(shù)據(jù)源之間數(shù)據(jù)的關(guān)系,知識(shí)圖譜里面這種關(guān)系是非常靈活的,所以數(shù)據(jù)間的關(guān)系可以很容易的轉(zhuǎn)換成為知識(shí)圖譜來(lái)進(jìn)行描述,從而支持關(guān)聯(lián)分析,這里面主要用到的就是關(guān)系抽取的一個(gè)技術(shù); 剩余的數(shù)據(jù)可能信息抽取也比較難解決,可以通過(guò)實(shí)體鏈接的技術(shù),并不一定要把所有文本都轉(zhuǎn)換成為結(jié)構(gòu)化的數(shù)據(jù),可以把它們進(jìn)行鏈接,比如在做企業(yè)知識(shí)圖譜的時(shí)候,可以把企業(yè)相關(guān)的新聞,不用把新聞的時(shí)間、地點(diǎn)、人物都抽取,這塊難度較高,但是可以把新聞和實(shí)體做關(guān)聯(lián),即通過(guò)實(shí)體鏈接技術(shù),實(shí)現(xiàn)圍繞實(shí)體的多種類型數(shù)據(jù)的關(guān)聯(lián)存儲(chǔ); 然后還有一個(gè)動(dòng)態(tài)的數(shù)據(jù),因?yàn)楝F(xiàn)實(shí)中間,數(shù)據(jù)都是在不斷動(dòng)態(tài)變化的,這主要通過(guò)事件的機(jī)制來(lái)進(jìn)行描述,體現(xiàn)事件與實(shí)體間的關(guān)聯(lián),并利用時(shí)序的概念來(lái)描述事件的發(fā)展?fàn)顩r,把歷史的事件和當(dāng)前事件聯(lián)系起來(lái),有了動(dòng)態(tài)變化之后,可以做時(shí)序的預(yù)測(cè),這里涉及的技術(shù)主要是動(dòng)態(tài)事件的提取相關(guān)技術(shù)。 怎么支持大數(shù)據(jù)和數(shù)據(jù)模式的動(dòng)態(tài)變化 剛剛提到就是用基于圖的數(shù)據(jù)存儲(chǔ),知識(shí)圖譜的數(shù)據(jù)模式動(dòng)態(tài)變化特性支持按需修改數(shù)據(jù)模式,底層用圖存儲(chǔ)的機(jī)制進(jìn)行支撐,這部分詳細(xì)參見(jiàn)《大規(guī)模知識(shí)圖譜數(shù)據(jù)存儲(chǔ)實(shí)戰(zhàn)解析》。 怎么去處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù) 我們可以用信息抽取相關(guān)的技術(shù),實(shí)現(xiàn)從非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行信息抽取,轉(zhuǎn)換成知識(shí)圖譜里的知識(shí);剛剛提到對(duì)于新聞這種數(shù)據(jù),可能很難把它完全結(jié)構(gòu)化,可以通過(guò)實(shí)體鏈接的方式,結(jié)合知識(shí)圖譜,實(shí)現(xiàn)對(duì)目標(biāo)數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)標(biāo)注,包括消岐、聚合,增強(qiáng)對(duì)數(shù)據(jù)的語(yǔ)義理解,數(shù)據(jù)和知識(shí)圖譜關(guān)聯(lián)以后,即可把知識(shí)圖譜里語(yǔ)義的特性關(guān)聯(lián)到非結(jié)構(gòu)化數(shù)據(jù)里去;還有可以通過(guò)搜索的技術(shù),去對(duì)非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)一檢索和利用,這是搜索引擎普遍使用技術(shù),對(duì)文本的數(shù)據(jù)、非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行統(tǒng)一的檢索,用了知識(shí)圖譜之后可以做一定的語(yǔ)義檢索。 最后是提供一個(gè)統(tǒng)一的分析利用的平臺(tái)。這個(gè)平臺(tái)提供用戶消費(fèi)數(shù)據(jù)不同的方式,比如說(shuō)可視化、統(tǒng)一檢索、統(tǒng)一數(shù)據(jù)查詢、數(shù)據(jù)分析與挖掘和深度推理。 通過(guò)知識(shí)圖譜去解決大數(shù)據(jù)并不是我們單獨(dú)提出的,應(yīng)該說(shuō)現(xiàn)在有很多成熟的方案,國(guó)外知名公司Palantir即利用了知識(shí)圖譜相關(guān)技術(shù),中間黃色的框內(nèi)描述的就是動(dòng)態(tài)本體論相關(guān)的技術(shù),對(duì)數(shù)據(jù)進(jìn)行建模融合,底層數(shù)據(jù)抽取集成,上面提供一個(gè)統(tǒng)一的數(shù)據(jù)分析、利用、查詢的方案。
這個(gè)方案和我們的PlantData平臺(tái)非常的相似,底層我們進(jìn)行數(shù)據(jù)的采集,采集即運(yùn)用信息抽取相關(guān)的技術(shù)對(duì)數(shù)據(jù)尤其是非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,然后形成結(jié)構(gòu)化的知識(shí),再往上進(jìn)行數(shù)據(jù)的融合與合并,形成知識(shí)圖譜形式的知識(shí),存儲(chǔ)在右邊大規(guī)模知識(shí)圖譜數(shù)據(jù)存儲(chǔ)引擎中,最上面是一個(gè)統(tǒng)一的消費(fèi)平臺(tái),通過(guò)數(shù)據(jù)可視化,動(dòng)態(tài)網(wǎng)絡(luò)分析,語(yǔ)義檢索,智能語(yǔ)義問(wèn)答,以及與數(shù)據(jù)分析挖掘相關(guān)的一些方法去提供給用戶,這是我們的PlantData平臺(tái)針對(duì)大數(shù)據(jù)應(yīng)用的一個(gè)解決方案。
總結(jié)一下,有了平臺(tái)以后可以做什么?中間核心部分就是我們的平臺(tái),有了平臺(tái)以后相當(dāng)于我們具備了很多知識(shí)圖譜上面的能力,比如可視化、網(wǎng)絡(luò)分析、模型計(jì)算、數(shù)據(jù)智能等;同時(shí)PlantData平臺(tái)還提供多種對(duì)外的接入方法,SDK等,在上面可以構(gòu)建很多的應(yīng)用,比如智能檢索、智能推薦等,最終落地到不同的行業(yè)中,這里僅列舉了我們探索過(guò)的一些利用知識(shí)圖譜解決行業(yè)大數(shù)據(jù)問(wèn)題的行業(yè),PlantData大數(shù)據(jù)知識(shí)圖譜智能平臺(tái),可以賦能各行業(yè)應(yīng)用。
接下來(lái)我們對(duì)各行業(yè)中應(yīng)用做一些簡(jiǎn)單的描述。 金融行業(yè) 金融行業(yè)數(shù)據(jù)相對(duì)來(lái)說(shuō)比較全面,在這里面已經(jīng)探索出很多的應(yīng)用,比如智能投顧,即通過(guò)數(shù)據(jù)分析的方式,智能的去進(jìn)行投資,這個(gè)聽(tīng)起來(lái)非常漂亮,但是目前為止,還很少有成熟的產(chǎn)品出來(lái)。國(guó)外的kensho做了一些探索,經(jīng)過(guò)我們的分析和學(xué)習(xí),應(yīng)該還遠(yuǎn)遠(yuǎn)未達(dá)到智能投顧的級(jí)別。 但在現(xiàn)在一些具體的場(chǎng)景里面,有很多落地的應(yīng)用,比如反欺詐,知識(shí)圖譜可以將用戶所有的行為關(guān)聯(lián)起來(lái),實(shí)現(xiàn)反欺詐的功能;同時(shí)可以做異常分析、組圖欺詐的檢測(cè)、精準(zhǔn)營(yíng)銷、失聯(lián)客戶管理等。 生物醫(yī)學(xué)領(lǐng)域 應(yīng)用也非常多。比如在歐盟的第7框架下面,做了一個(gè)開(kāi)放的藥品平臺(tái)Open Phacts,這是在藥物發(fā)現(xiàn)里的一個(gè)應(yīng)用;還可以做輔助診療,即前面提到的IBM Watson,我們也做了一些探索,比如中醫(yī)開(kāi)方輔助,即根據(jù)癥狀智能開(kāi)方,同時(shí)也可以做相似病例的發(fā)現(xiàn),目前醫(yī)生在診斷的時(shí)候很大程度也是根據(jù)歷史病例進(jìn)行參考,因此我們可以利用知識(shí)圖譜實(shí)現(xiàn)相似病例發(fā)現(xiàn)。 圖書(shū)館情報(bào)行業(yè) 我們也做了一些探索,比如在特定學(xué)科知識(shí)領(lǐng)域知識(shí)圖譜的建設(shè),基于知識(shí)圖譜做一些知識(shí)的管理,同時(shí)我們還做了專利分析以及情報(bào)分析。 還有一些其他的應(yīng)用,比如政府行業(yè),政府大數(shù)據(jù);農(nóng)業(yè)領(lǐng)域的化肥本體知識(shí)庫(kù);還有就是客服系統(tǒng),這是基于知識(shí)圖譜的智能客服系統(tǒng)。
接下來(lái)是一個(gè)實(shí)戰(zhàn)演示,在《大規(guī)模知識(shí)圖譜數(shù)據(jù)存儲(chǔ)實(shí)戰(zhàn)解析》中我們以《人民的名義》為例制作了一個(gè)知識(shí)圖譜,有了這個(gè)知識(shí)圖譜之后到底可以用它來(lái)做什么?通過(guò)視頻我們可以更加清楚的了解今天知識(shí)圖譜應(yīng)用的技術(shù)。 |
|
|
來(lái)自: 遠(yuǎn)志a1wu9ydemi > 《知識(shí)圖譜》