电竞比分网-中国电竞赛事及体育赛事平台

分享

知識圖譜構(gòu)建流程詳解

 geoallan 2023-09-17

引言

知識圖譜是結(jié)構(gòu)化的語義知識庫,用于迅速描述物理世界中的概念及其相互關(guān)系,通過將數(shù)據(jù)粒度從document級別降到data級別,聚合大量知識,從而實現(xiàn)知識的快速響應(yīng)和推理。

當下知識圖譜的應(yīng)用主要分為用于構(gòu)建結(jié)構(gòu)化的百科知識的“通用知識圖譜”和基于行業(yè)數(shù)據(jù)構(gòu)建和應(yīng)用的“領(lǐng)域知識圖譜”。

在AI與行業(yè)結(jié)合應(yīng)用中,因行業(yè)領(lǐng)域的差異,存在大量數(shù)據(jù)模式不同,應(yīng)用需求不同等現(xiàn)實,“領(lǐng)域知識圖譜”以其更加符合實際應(yīng)用需求的特性在工業(yè)領(lǐng)域得到了廣泛應(yīng)用。其中最為熟知的有Google搜索、百度搜索、天眼查企業(yè)圖譜等。

據(jù)此【華來知識】將在本篇針對“領(lǐng)域知識圖譜”所采用的自底向上知識圖譜的構(gòu)建技術(shù)進行全面的介紹。

自底向上(Bottom-UP)的方法,即首先對實體進行歸納組織,形成底層概念,再逐步向上抽象,形成上層概念。該方法可基于行業(yè)現(xiàn)有標準轉(zhuǎn)換成數(shù)據(jù)可模式,也可基于高質(zhì)量行業(yè)數(shù)據(jù)源映射生成。

領(lǐng)域知識圖譜的構(gòu)建流程主要包括6個環(huán)節(jié):知識建模、知識存儲、知識抽取、知識融合、知識計算以及知識應(yīng)用。

知識圖譜構(gòu)建流程詳解

知識圖譜的基本定義

知識圖譜的基本單位,是“實體(Entity)-關(guān)系(Relationship)-實體(Entity)”構(gòu)成的三元組,這也是知識圖譜的核心。

知識圖譜構(gòu)建流程詳解

如圖所示,若兩個節(jié)點之間存在關(guān)系,他們就會被一條無向邊連接在一起,那么這個節(jié)點,我們就稱為實體(Entity),它們之間的這條邊,我們就稱為關(guān)系(Relationship)。

在邏輯上,我們通常將知識圖譜劃分為兩個層次:數(shù)據(jù)層和模式層。

· 數(shù)據(jù)層:存儲真實的數(shù)據(jù)。如 C羅-足球運動員-皇家馬德里;C羅-金靴獎-世界杯。

· 模式層:在數(shù)據(jù)層之上,是知識圖譜的核心,存儲經(jīng)過提煉的知識,通常通過本體庫來管理。即實體-關(guān)系-實體,實體-屬性-性值。

在了解了知識圖譜的基本概念后,知識圖譜的整體架構(gòu)就不難理解了。如下圖所示,其中虛線框內(nèi)的部分為知識圖譜的構(gòu)建過程,同時也是知識建立和更新的主要流程。

知識圖譜構(gòu)建流程詳解

首先是原始數(shù)據(jù)處理,數(shù)據(jù)源可能是結(jié)構(gòu)化的、非結(jié)構(gòu)化的以及半結(jié)構(gòu)化的,然后通過一系列自動化或半自動化的技術(shù)手段,來從原始數(shù)據(jù)中提取出知識要素,即一堆實體關(guān)系,并將其存入我們的知識庫的模式層和數(shù)據(jù)層。

構(gòu)建知識圖譜是一個迭代更新的過程,根據(jù)知識獲取的邏輯,每一輪迭代包含:知識儲存、信息抽取、知識融合、知識計算,四個階段。

1、知識存儲:針對構(gòu)建知識圖譜設(shè)計底層的存儲方式,完成各類知識的存儲,包括基本屬性知識、關(guān)聯(lián)知識、事件知識、時序知識、資源類知識等。存儲方式的憂慮將直接導(dǎo)致查詢效率和應(yīng)用效果。

2、 信息抽?。簭母鞣N類型的數(shù)據(jù)源中提取出實體、屬性以及實體間的相互關(guān)系,在此基礎(chǔ)上形成本體化的知識表達。

3、知識融合:在獲得新知識之后,需要對其進行整合,以消除矛盾和歧義,比如某些實體可能有多種表達,某個特定稱謂也許對應(yīng)于多個不同的實體等;

4、知識計算:對于經(jīng)過融合的新知識,需要經(jīng)過質(zhì)量評估之后(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質(zhì)量。

一、知識建模

知識建模就是基于行業(yè)的應(yīng)用屬性、知識特點、實際需求,依據(jù)知識圖譜的模式進行業(yè)務(wù)抽象和業(yè)務(wù)建模,主要是實體定義、關(guān)系定義、屬性定義。

為保證知識圖譜質(zhì)量,通常在建模時需考慮如下幾個關(guān)鍵問題:

1、概念劃分的合理性,如何描述知識體系和知識點之間的關(guān)聯(lián)關(guān)系;

2、屬性定義方式,如何在冗余度最低的條件下滿足應(yīng)用和可視化展示;

3、時間、時序等復(fù)雜知識標示,通過匿名節(jié)點的方式還是邊屬性的方式進行描述,有何優(yōu)缺點?

4、后續(xù)的知識擴展難度,是否支持概念體系的變更和屬性調(diào)整?

二、知識存儲

知識圖譜的原始數(shù)據(jù)類型一般來說有三類:

· 結(jié)構(gòu)化數(shù)據(jù)(Structed Data),如關(guān)系數(shù)據(jù)庫

· 非結(jié)構(gòu)化數(shù)據(jù),如圖片、音頻、視頻

· 半結(jié)構(gòu)化數(shù)據(jù),如XML、JSON、百科

目前,主流的的知識存儲解決方案包含單一式和混合式存儲兩種。其存儲方式一般有兩種選擇,一個是通過RDF(資源描述框架)這樣的規(guī)范存儲格式來進行存儲,比較常用的有Jena等。

還有一種方法,就是使用圖數(shù)據(jù)庫來進行存儲,常用的如Neo4j等。

知識圖譜構(gòu)建流程詳解

相較而言圖數(shù)據(jù)庫在關(guān)聯(lián)查詢的效率上會比傳統(tǒng)的關(guān)系數(shù)據(jù)存儲方式有顯著的提高。當我們涉及到2,3度的關(guān)聯(lián)查詢,基于知識圖譜的查詢效率會高出幾千倍甚至幾百萬倍。

除此之外,基于圖的存儲在設(shè)計上會非常靈活,一般只需要局部的改動即可。因此對大數(shù)據(jù)量的情況,更應(yīng)用圖數(shù)據(jù)庫來進行存儲的。

三、 信息抽取

信息抽取(infromation extraction)信息抽取是一種自動化地從半結(jié)構(gòu)化和無結(jié)構(gòu)數(shù)據(jù)中抽取實體、關(guān)系以及實體屬性等結(jié)構(gòu)化信息的技術(shù)。關(guān)鍵技術(shù)包括:實體抽取、關(guān)系抽取和屬性抽取。

1、實體抽取,也稱為命名實體識別(named entity recognition,NER),是指從文本數(shù)據(jù)集中自動識別出命名實體。

當前主流技術(shù)為面向開放域(open domain)的實體抽取。

2、關(guān)系抽取,為了得到語義信息,從相關(guān)語料中提取出實體之間的關(guān)聯(lián)關(guān)系,通過關(guān)系將實體聯(lián)系起來,才能夠形成網(wǎng)狀的知識結(jié)構(gòu)。其技術(shù)研究已經(jīng)從早期的“人工構(gòu)造語法和語義規(guī)則”(模式匹配),“統(tǒng)計機器學(xué)習(xí)”發(fā)展到“面向開放域的信息抽取方法”與“面向封閉領(lǐng)域的方法”相結(jié)合。

3、屬性抽取,目標是從不同信息源中采集特定實體的屬性信息,如針對某個公眾人物,可以從網(wǎng)絡(luò)公開信息中得到其昵稱、生日、國籍、教育背景等信息。采用數(shù)據(jù)挖掘的方法直接從文本中挖掘?qū)嶓w屬性和屬性值之間的關(guān)系模式,據(jù)此實現(xiàn)對屬性名和屬性值在文本中的定位。

四、 知識融合

通過信息抽取,實現(xiàn)從原始數(shù)據(jù)中獲取到了實體、關(guān)系以及實體的屬性信息后,就需要通過知識融合對數(shù)據(jù)進行邏輯歸屬和冗雜/錯誤過濾。即需要實體鏈接和知識合并兩個流程實現(xiàn)。

1、對非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù)處理:實體鏈接(entity linking)的流程是通過給定的實體指稱項,通過相似度計算進行實體消歧和共指消解,確認正確實體對象后,再將該實體指稱項鏈接到知識庫中對應(yīng)實體。其中實體消歧解決同名實體產(chǎn)生歧義問題,共指消解解決多個指稱對應(yīng)同一實體對象的問題。

2、對結(jié)構(gòu)化數(shù)據(jù)處理:知識合并主要涉及“合并外部知識庫”,處理數(shù)據(jù)層和模式層的沖突;以及用RDB2RDF等方法“合并關(guān)系數(shù)據(jù)庫”

五、知識計算

在通過信息抽取,和知識融合后已經(jīng)實現(xiàn)從原始雜亂數(shù)據(jù)中獲得到一系列基本的事實表達。之后一步就是通過知識計算獲得結(jié)構(gòu)化,網(wǎng)絡(luò)化的知識體系以及更新機制。其主要包括4方面內(nèi)容:本體構(gòu)建、知識推理、質(zhì)量評估和知識更新。

1、本體構(gòu)建:即通過實體并列關(guān)系相似度計算、實體上下位關(guān)系抽取、本體的生成,完成自動化的本體構(gòu)建,實現(xiàn)將數(shù)據(jù)歸類成人工的概念集合/概念框架,如“人”、“事”、“物”等。

2、知識推理:通過基于邏輯的推理、基于圖的推理和基于深度學(xué)習(xí)的推理,處理知識圖譜之間關(guān)系值缺失,完成進一步的知識發(fā)現(xiàn)。

知識圖譜構(gòu)建流程詳解

3、質(zhì)量評估:可以對知識的可信度進行量化,通過舍棄置信度較低的知識來保障知識庫的質(zhì)量。

4、 知識更新:在知識圖譜實際應(yīng)用后,將有大量數(shù)據(jù)涌入和更新,因此知識的更新流程是必須搭建的。更新包括概念層的更新和數(shù)據(jù)層的更新。

概念層的更新是指新增數(shù)據(jù)后獲得了新的概念,需要自動將新的概念添加到知識庫的概念層中。數(shù)據(jù)層的更新主要是新增或更新實體、關(guān)系、屬性值,對數(shù)據(jù)層進行更新需要考慮數(shù)據(jù)源的可靠性、數(shù)據(jù)的一致性(是否存在矛盾或冗雜等問題)等可靠數(shù)據(jù)源,并選擇在各數(shù)據(jù)源中高頻出現(xiàn)的事實和屬性加入知識庫。

至此經(jīng)過上述流程的處理,知識圖譜的初始化已經(jīng)構(gòu)建成功了。

六、知識圖譜的應(yīng)用

經(jīng)過上述5個環(huán)節(jié),專項領(lǐng)域的知識圖譜已經(jīng)構(gòu)建完成,在其具備的特有應(yīng)用形態(tài),與領(lǐng)域數(shù)據(jù)和業(yè)務(wù)場景相結(jié)合后,將實際助力企業(yè)在該領(lǐng)域取得實際的商業(yè)價值。現(xiàn)今知識圖譜在很多行業(yè)中都有了成功的應(yīng)用。例如:

- 信息檢索:搜索引擎中對實體信息的精準聚合和匹配、對關(guān)鍵詞的理解以及對搜索意圖的語義分析等;

- 自然語言理解:知識圖譜中的知識作為理解自然語言中實體和關(guān)系的背景信息;

- 問答系統(tǒng):匹配問答模式和知識圖譜中知識子圖之間的映射;

- 推薦系統(tǒng):將知識圖譜作為一種輔助信息集成到推薦系統(tǒng)中以提供更加精準的推薦選項;

- 電子商務(wù):構(gòu)建商品知識圖譜來精準地匹配用戶的購買意愿和商品候選集合;

- 金融風(fēng)控:利用實體之間的關(guān)系來分析金融活動的風(fēng)險以提供在風(fēng)險觸發(fā)后的補救措施(如聯(lián)系人等);

- 公安刑偵:分析實體和實體之間的關(guān)系以獲得線索等;

- 司法輔助:法律條文的結(jié)構(gòu)化表示和查詢來輔助案件的判決等;

- 教育醫(yī)療:提供可視化的知識表示,用于藥物分析、疾病診斷等;

... ...

事實上,知識圖譜的應(yīng)用遠不止于此。這個世界就是一張巨大的知識圖譜,是無數(shù)個實體關(guān)系對,在未來工業(yè)界對圖數(shù)據(jù)庫、知識圖譜將展現(xiàn)出巨大需求和應(yīng)用契機!

    本站是提供個人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊一鍵舉報。
    轉(zhuǎn)藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多