电竞比分网-中国电竞赛事及体育赛事平台

分享

知識(shí)圖譜技術(shù)——知識(shí)圖譜構(gòu)建

 湖經(jīng)松哥 2024-08-19 發(fā)布于湖北

知識(shí)圖譜按照邏輯結(jié)構(gòu)可以劃分為數(shù)據(jù)層模式層兩部分。數(shù)據(jù)層包含的是大量由基本事實(shí)組成的信息,這些事實(shí)通常以三元組的形式存在,例如'實(shí)體-關(guān)系-實(shí)體'或'實(shí)體-屬性-屬性值',這樣的數(shù)據(jù)結(jié)構(gòu)一般以圖數(shù)據(jù)庫的形式存儲(chǔ)。模式層則進(jìn)一步抽象,它代表著數(shù)據(jù)組織的模式,是在數(shù)據(jù)層之上對(duì)知識(shí)進(jìn)行提煉和概括的層面,通常通過本體庫來管理和組織這些數(shù)據(jù)。

知識(shí)圖譜的構(gòu)建通常采用自動(dòng)化技術(shù),從結(jié)構(gòu)化、半結(jié)構(gòu)化到非結(jié)構(gòu)化數(shù)據(jù)中提取知識(shí),并將這些知識(shí)分別存儲(chǔ)在模式層和數(shù)據(jù)層。構(gòu)建過程主要分為兩種方法:自頂向下和自底向上。

自頂向下方法首先構(gòu)建模式層,然后基于此模式層構(gòu)建數(shù)據(jù)層。模式層的創(chuàng)建通常依賴于從人工整理的高質(zhì)量數(shù)據(jù)中提取本體和模式信息。隨后,利用這些已建立的模式,從更廣泛的數(shù)據(jù)源中抽取信息,以形成數(shù)據(jù)層。歷史上,許多早期的知識(shí)庫和知識(shí)圖譜都是采用這種自頂向下的方式構(gòu)建的。

自底向上方法則是先構(gòu)建數(shù)據(jù)層,隨后再構(gòu)建模式層。這種方法通常首先通過自動(dòng)化或半自動(dòng)化技術(shù),在海量數(shù)據(jù)中識(shí)別實(shí)體、關(guān)系和屬性,以此構(gòu)建知識(shí)圖譜的數(shù)據(jù)層。之后,再根據(jù)數(shù)據(jù)層的內(nèi)容來組織和構(gòu)建模式層。自底向上的方法更適合處理超大規(guī)模的數(shù)據(jù)集,并且由于其能夠處理更大的數(shù)據(jù)量并采用更自動(dòng)化的方法,當(dāng)前大多數(shù)知識(shí)圖譜的構(gòu)建都傾向于使用這種方法。

知識(shí)圖譜的構(gòu)建流程以自底向上的構(gòu)建方式為例,系統(tǒng)接收各種類型的輸入數(shù)據(jù),并經(jīng)過信息抽取、知識(shí)融合和知識(shí)加工三個(gè)關(guān)鍵步驟,最終輸出一個(gè)完整的知識(shí)圖譜。

Image

1.信息提取

信息抽取是一個(gè)多維度的過程,它根據(jù)任務(wù)需求的不同而有所區(qū)別。例如,在情感和輿論分析任務(wù)中,重點(diǎn)在于抽取事件和情感信息,而在知識(shí)圖譜的應(yīng)用中,則更側(cè)重于實(shí)體、關(guān)系和屬性等信息的抽取。在知識(shí)圖譜中,實(shí)體的屬性,比如城市的人口數(shù)量和地理位置,是其固有屬性的一部分。無論是實(shí)體、關(guān)系的抽取還是屬性的抽取,都可以采用監(jiān)督、半監(jiān)督或無監(jiān)督的方法進(jìn)行。信息抽取主要處理的是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),通過這一過程,原本非結(jié)構(gòu)化的數(shù)據(jù)可以轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),為知識(shí)圖譜系統(tǒng)所用。

2.知識(shí)融合

知識(shí)融合是一個(gè)關(guān)鍵過程,它涉及將不同來源的數(shù)據(jù)進(jìn)行整合和提煉,以構(gòu)建知識(shí)圖譜。在這一過程中,系統(tǒng)會(huì)處理多種類型的輸入數(shù)據(jù),包括:

直接可用的結(jié)構(gòu)化數(shù)據(jù):這些數(shù)據(jù)已經(jīng)符合系統(tǒng)的標(biāo)準(zhǔn),可以被程序直接讀取和分析。
需要轉(zhuǎn)換的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù):通過信息抽取技術(shù),這些數(shù)據(jù)將被轉(zhuǎn)化為結(jié)構(gòu)化形式,以便進(jìn)一步處理。
第三方知識(shí)庫提供的數(shù)據(jù):這些數(shù)據(jù)來源于外部知識(shí)庫,為系統(tǒng)提供額外的信息資源。
在處理這些數(shù)據(jù)時(shí),會(huì)遇到信息冗余的問題。知識(shí)融合的目的是識(shí)別并整理這些冗余信息,消除重復(fù)和不一致,最終形成一個(gè)統(tǒng)一、連貫的知識(shí)體系。實(shí)現(xiàn)這一目標(biāo)的核心技術(shù)包括實(shí)體消歧,即區(qū)分具有相同名稱但代表不同實(shí)體的情況,以及指代消解,即確定文本中代詞或短語所指的具體實(shí)體。'

3.知識(shí)加工

在知識(shí)抽取的過程中,我們生成了三元組數(shù)據(jù),這些數(shù)據(jù)是構(gòu)建知識(shí)圖譜的基礎(chǔ)。然而,盡管通過知識(shí)融合的步驟可以解決一些歧義問題,這些數(shù)據(jù)仍然沒有形成深層的邏輯結(jié)構(gòu)。因此,目前構(gòu)建的知識(shí)圖譜在質(zhì)量上還需要進(jìn)一步驗(yàn)證。為了提高知識(shí)圖譜的質(zhì)量,我們需要在知識(shí)融合的基礎(chǔ)上進(jìn)行知識(shí)加工。這一步驟包括本體構(gòu)建質(zhì)量評(píng)估,目的是完善知識(shí)圖譜的邏輯結(jié)構(gòu),從而提升其整體質(zhì)量。通過這樣的加工過程,知識(shí)圖譜將更加精確和有用。

本體構(gòu)建:是知識(shí)圖譜模式層構(gòu)建的關(guān)鍵技術(shù),主要任務(wù)是創(chuàng)建本體庫。本體庫通過公理、規(guī)則和約束來定義實(shí)體、關(guān)系、屬性之間的聯(lián)系。本體的構(gòu)成要素主要包括以下幾點(diǎn):

(1)類或概念:這些是本體中的基本單元,可以是對(duì)象、任務(wù)、功能或行為等。它們包含定義和描述,以明確其內(nèi)涵和外延。
(2)關(guān)系:關(guān)系描述了不同概念之間的聯(lián)系。這些聯(lián)系是多樣的,例如:
    • 整體-部分關(guān)系,通過'Part-of'來表達(dá)。

    • 概念間的繼承關(guān)系,通過'Kind-of'來表達(dá)。

    • 概念和實(shí)例之間的關(guān)系,通過'Instance-of'來表達(dá)。

(3)函數(shù):函數(shù)是關(guān)系的一種特殊形式,用于定義兩個(gè)概念之間的特定聯(lián)系。
(4)公理:公理是一些在所有情況下都成立的描述,它們是本體中的基礎(chǔ)性陳述。
(5)實(shí)例:實(shí)例是概念在現(xiàn)實(shí)世界中的具體表現(xiàn),是概念的一個(gè)實(shí)際應(yīng)用對(duì)象。

質(zhì)量評(píng)估:知識(shí)圖譜的構(gòu)建依賴于準(zhǔn)確可靠的信息抽取。然而,信息源可能存在錯(cuò)誤,這將直接影響知識(shí)圖譜的質(zhì)量。為了提升知識(shí)圖譜的質(zhì)量,必須對(duì)信息的可信度進(jìn)行評(píng)估,只保留那些具有高置信度的知識(shí)。

(1)數(shù)據(jù)來源評(píng)估:評(píng)估數(shù)據(jù)來源的可信度是關(guān)鍵??梢酝ㄟ^分析用戶在特定領(lǐng)域的歷史貢獻(xiàn)和專業(yè)背景來評(píng)估其知識(shí)貢獻(xiàn)的可靠性。
(2)信息重復(fù)性評(píng)分:在信息抽取過程中,某條信息出現(xiàn)的頻率可以作為其可信度的一個(gè)指標(biāo)。出現(xiàn)次數(shù)越多,可能意味著信息越可靠。
(3)可信知識(shí)庫校正:利用已有的可信知識(shí)庫對(duì)抽取的信息進(jìn)行校正,以確保其準(zhǔn)確性。



    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請遵守用戶 評(píng)論公約

    類似文章 更多