|
知識(shí)圖譜按照邏輯結(jié)構(gòu)可以劃分為數(shù)據(jù)層和模式層兩部分。數(shù)據(jù)層包含的是大量由基本事實(shí)組成的信息,這些事實(shí)通常以三元組的形式存在,例如'實(shí)體-關(guān)系-實(shí)體'或'實(shí)體-屬性-屬性值',這樣的數(shù)據(jù)結(jié)構(gòu)一般以圖數(shù)據(jù)庫的形式存儲(chǔ)。模式層則進(jìn)一步抽象,它代表著數(shù)據(jù)組織的模式,是在數(shù)據(jù)層之上對(duì)知識(shí)進(jìn)行提煉和概括的層面,通常通過本體庫來管理和組織這些數(shù)據(jù)。 知識(shí)圖譜的構(gòu)建通常采用自動(dòng)化技術(shù),從結(jié)構(gòu)化、半結(jié)構(gòu)化到非結(jié)構(gòu)化數(shù)據(jù)中提取知識(shí),并將這些知識(shí)分別存儲(chǔ)在模式層和數(shù)據(jù)層。構(gòu)建過程主要分為兩種方法:自頂向下和自底向上。 自頂向下方法首先構(gòu)建模式層,然后基于此模式層構(gòu)建數(shù)據(jù)層。模式層的創(chuàng)建通常依賴于從人工整理的高質(zhì)量數(shù)據(jù)中提取本體和模式信息。隨后,利用這些已建立的模式,從更廣泛的數(shù)據(jù)源中抽取信息,以形成數(shù)據(jù)層。歷史上,許多早期的知識(shí)庫和知識(shí)圖譜都是采用這種自頂向下的方式構(gòu)建的。 自底向上方法則是先構(gòu)建數(shù)據(jù)層,隨后再構(gòu)建模式層。這種方法通常首先通過自動(dòng)化或半自動(dòng)化技術(shù),在海量數(shù)據(jù)中識(shí)別實(shí)體、關(guān)系和屬性,以此構(gòu)建知識(shí)圖譜的數(shù)據(jù)層。之后,再根據(jù)數(shù)據(jù)層的內(nèi)容來組織和構(gòu)建模式層。自底向上的方法更適合處理超大規(guī)模的數(shù)據(jù)集,并且由于其能夠處理更大的數(shù)據(jù)量并采用更自動(dòng)化的方法,當(dāng)前大多數(shù)知識(shí)圖譜的構(gòu)建都傾向于使用這種方法。 知識(shí)圖譜的構(gòu)建流程以自底向上的構(gòu)建方式為例,系統(tǒng)接收各種類型的輸入數(shù)據(jù),并經(jīng)過信息抽取、知識(shí)融合和知識(shí)加工三個(gè)關(guān)鍵步驟,最終輸出一個(gè)完整的知識(shí)圖譜。
1.信息提取 信息抽取是一個(gè)多維度的過程,它根據(jù)任務(wù)需求的不同而有所區(qū)別。例如,在情感和輿論分析任務(wù)中,重點(diǎn)在于抽取事件和情感信息,而在知識(shí)圖譜的應(yīng)用中,則更側(cè)重于實(shí)體、關(guān)系和屬性等信息的抽取。在知識(shí)圖譜中,實(shí)體的屬性,比如城市的人口數(shù)量和地理位置,是其固有屬性的一部分。無論是實(shí)體、關(guān)系的抽取還是屬性的抽取,都可以采用監(jiān)督、半監(jiān)督或無監(jiān)督的方法進(jìn)行。信息抽取主要處理的是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),通過這一過程,原本非結(jié)構(gòu)化的數(shù)據(jù)可以轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),為知識(shí)圖譜系統(tǒng)所用。 2.知識(shí)融合 知識(shí)融合是一個(gè)關(guān)鍵過程,它涉及將不同來源的數(shù)據(jù)進(jìn)行整合和提煉,以構(gòu)建知識(shí)圖譜。在這一過程中,系統(tǒng)會(huì)處理多種類型的輸入數(shù)據(jù),包括: 在知識(shí)抽取的過程中,我們生成了三元組數(shù)據(jù),這些數(shù)據(jù)是構(gòu)建知識(shí)圖譜的基礎(chǔ)。然而,盡管通過知識(shí)融合的步驟可以解決一些歧義問題,這些數(shù)據(jù)仍然沒有形成深層的邏輯結(jié)構(gòu)。因此,目前構(gòu)建的知識(shí)圖譜在質(zhì)量上還需要進(jìn)一步地驗(yàn)證。為了提高知識(shí)圖譜的質(zhì)量,我們需要在知識(shí)融合的基礎(chǔ)上進(jìn)行知識(shí)加工。這一步驟包括本體構(gòu)建和質(zhì)量評(píng)估,目的是完善知識(shí)圖譜的邏輯結(jié)構(gòu),從而提升其整體質(zhì)量。通過這樣的加工過程,知識(shí)圖譜將更加精確和有用。 本體構(gòu)建:是知識(shí)圖譜模式層構(gòu)建的關(guān)鍵技術(shù),主要任務(wù)是創(chuàng)建本體庫。本體庫通過公理、規(guī)則和約束來定義實(shí)體、關(guān)系、屬性之間的聯(lián)系。本體的構(gòu)成要素主要包括以下幾點(diǎn):
質(zhì)量評(píng)估:知識(shí)圖譜的構(gòu)建依賴于準(zhǔn)確可靠的信息抽取。然而,信息源可能存在錯(cuò)誤,這將直接影響知識(shí)圖譜的質(zhì)量。為了提升知識(shí)圖譜的質(zhì)量,必須對(duì)信息的可信度進(jìn)行評(píng)估,只保留那些具有高置信度的知識(shí)。 |
|
|