中文字幕无码日韩视频无码三区

基于用戶定制的本體匹配系統及方法

文(wen)檔序號(hao):6653969閱(yue)讀:657來源:國知局
專利名稱:基于用戶定制的本體匹配系統及方法
技術領域
本發明涉及語義萬維網技術領域,特別涉及一種基于用戶定制的本體匹配系統及 方法。
背景技術
語義Wfeb由萬維網的創始人Tim Berners-Lee提出,是探索新一代互聯網發展的 重要技術。語義Web的目標在于通過相應技術使得當前萬維網上的信息中的語義能夠被機 器理解,從而使得網絡上的數據能夠被機器直接或間接地處理。目前語義Web技術已經得 到了廣泛的發展,并涌現出大量的實際應用,如LinkedData、語義維基等。本體為用戶描述 特定領域的萬維網數據語義提供了基本的概念模型和共享詞匯。它作為語義Web中的語義 表示形式,是語義Web體系結構中的核心元素,是實現知識共享、協同工作的關鍵。但是由 于現實世界中本體自身與生俱來的分布性和異構性,又極大地限制了數據的共享與集成。 為了實現異構本體中的語義互操作,需要在異構本體間建立實體對應關系,這就是本體匹 配。目前國內外已有很多關于本體匹配方法的研究,并且有不少的本體匹配系統被開 發出來并得到應用,比較著名的系統包括COMA++,ASMOV, Falcon, Lily, Η-Match, CIDER等 等,這些系統采用了不同的本體匹配方法或方法組合來發現異構本體匹配中的實體對應關 系。但是這些系統并不能在所有的本體匹配任務中都獲得令人滿意的匹配結果。首先是這 些方法和系統往往利用了本體的一部分信息,并不能實現對本體信息的充分探索;其次這 些系統的匹配流程一般都是固定的,對于特定的本體并不能進行適當的調整,例如大多數 系統都采用了基于實體名稱的字符串匹配方法,但是如果本體中的實體名稱并沒有實際意 義,那么再利用這種方法可能對最終結果造成干擾。

發明內容
(一 )要解決的技術問題本發明要解決的技術問題是如何實現對本體信息的充分探索,并根據需求對匹 配流程進行組裝,以獲得精確地匹配結果。( 二 )技術方案為解決上述技術問題,本發明提供了一種基于用戶定制的本體匹配系統,包括本體模塊,包括原子組件本體操作接口子模塊和本體API子模塊;與所述本體模塊連接的原子組件模塊,用于通過原子組件本體操作接口子模塊調 用本體API子模塊的本體API實現原子組件;與所述原子組件模塊連接的用戶接口模塊,用于接收用戶上傳的待匹配本體和用 戶自行實現的原子組件;與所述原子組件模塊和用戶接口模塊連接的匹配執行模塊,用于根據所述待匹配 本體生成匹配任務描述文件,并根據所述匹配任務描述文件選擇所述原子組件或所述自行
4實現的原子組件來執行匹配任務,生成匹配結果,所述匹配任務描述文件包括待匹配本體 O1和A的URI位置、匹配參數和匹配流程。其中,所述原子組件模塊包括的組件類型為預處理器,用于在完成實際的匹配操作執行前初始化匹配任務,包括,解析本體、 規范化本體中術語、去噪音以及具體的匹配器中所用到的數據結構的建立;匹配器,用于實現具體的本體匹配方法包括基于編輯距離相似度的匹配器、基于 WordNet相似度的匹配器、基于向量空間的匹配器及基于相似度傳播的匹配器;匹配結果聚合器,用于對多個本體匹配方法獲得的匹配結果進行聚合;后處理器,用于對初始匹配結果進行處理,從初始結果中提取最終的匹配和對匹 配結果進行優化;匹配結果評估器,用于依據指定的評價指標對優化后的本體匹配結果進行評估。其中,所述原子組件模塊包括描述文件生成子模塊,用于生成并存儲所述原子組 件的描述文件。 其中,所述匹配任務描述文件還包括參考匹配參數。 本發明還提供了一種基于用戶定制的本體匹配方法,包括以下步驟 Sl 接收用戶上傳的待匹配本體,并根據所述待匹配本體生成匹配任務描述文件;S2:解析所述匹配任務描述文件,并根據匹配任務描述文件執行匹配,所述匹配任 務描述文件包括待匹配本體O1和A的URI位置、匹配參數和匹配流程。其中,所述步驟S2具體包括S21 解析待匹配本體O1和O2的序列化文件,為本體中的每個實體生成描述,計算 兩個本體的名稱相似度因子和結構相似度因子;S22 通過所述名稱相似度因子和結構相似度因子選擇匹配方法進行匹配,并將匹 配結果進行聚合;S23 對所述聚合的匹配結果進行相似度傳播;S24 對相似度傳播后的匹配結果進行選擇優化。其中,所述步驟S21中計算兩個本體的名稱相似度因子和結構相似度因子的方式 為
權利要求
1.一種基于用戶定制的本體匹配系統,其特征在于,包括本體模塊,包括原子組件本體操作接口子模塊和本體API子模塊;與所述本體模塊連接的原子組件模塊,用于通過原子組件本體操作接口子模塊調用本 體API子模塊的本體API實現原子組件;與所述原子組件模塊連接的用戶接口模塊,用于接收用戶上傳的待匹配本體和用戶自 行實現的原子組件;與所述原子組件模塊和用戶接口模塊連接的匹配執行模塊,用于根據所述待匹配本體 生成匹配任務描述文件,并根據所述匹配任務描述文件選擇所述原子組件或所述自行實現 的原子組件來執行匹配任務,生成匹配結果,所述匹配任務描述文件包括待匹配本體01 和02的URI位置、匹配參數和匹配流程。
2.如權利要求1所述的基于用戶定制的本體匹配系統,其特征在于,所述原子組件模 塊包括的組件類型為預處理器,用于在完成實際的匹配操作執行前初始化匹配任務,包括,解析本體、規范 化本體中術語、去噪音以及具體的匹配器中所用到的數據結構的建立;匹配器,用于實現具體的本體匹配方法包括基于編輯距離相似度的匹配器、基于 WordNet相似度的匹配器、基于向量空間的匹配器及基于相似度傳播的匹配器;匹配結果聚合器,用于對多個本體匹配方法獲得的匹配結果進行聚合;后處理器,用于對初始匹配結果進行處理,從初始結果中提取最終的匹配和對匹配結 果進行優化;匹配結果評估器,用于依據指定的評價指標對優化后的本體匹配結果進行評估。
3.如權利要求1所述的基于用戶定制的本體匹配系統,其特征在于,所述原子組件模 塊包括描述文件生成子模塊,用于生成并存儲所述原子組件的描述文件。
4.如權利要求1所述的基于用戶定制的本體匹配系統,其特征在于,所述匹配任務描 述文件還包括參考匹配參數。
5.一種基于用戶定制的本體匹配方法,其特征在于,包括以下步驟S1接收用戶上傳的待匹配本體,并根據所述待匹配本體生成匹配任務描述文件;S2解析所述匹配任務描述文件,并根據匹配任務描述文件執行匹配,所述匹配任務描 述文件包括待匹配本體O1和A的URI位置、匹配參數和匹配流程。
6.如權利要求5所述的基于用戶定制的本體匹配方法,其特征在于,所述步驟S2具體 包括S21解析待匹配本體O1和O2的序列化文件,為本體中的每個實體生成描述,計算兩個 本體的名稱相似度因子和結構相似度因子;S22通過所述名稱相似度因子和結構相似度因子選擇匹配方法進行匹配,并將匹配結 果進行聚合;S23對所述聚合的匹配結果進行相似度傳播;S24對相似度傳播后的匹配結果進行選擇優化。
7.如權利要求6所述的基于用戶定制的本體匹配方法,其特征在于,所述步驟S21中計 算兩個本體的名稱相似度因子和結構相似度因子的方式為i7 (O O ) - Num(Common(cy) + Num(Common、p)) k ” 2 Num(Cl) + Num(J)l) + Num(C2) + Numip2)F (O O ) ^um(Common(cs)) + Num{Common{ps)) ss ” 2 ~ Numicsl ) + Num(p;) + Num(cs2) + Num(ps2)'其中,c、C1和ρ、P1分別表示本體中的概念和屬性;Common (c)和Common(P)分別表是 兩個本體中名稱相同的概念和實例;分子中Num(Common(C))和Num(Common(ρ))的和表示 名稱相同的概念和屬性的總數;分母是兩個本體中所有概念和屬性的總數,Cs和ps表示本 體中非葉子結點的概念和屬性;Common(Cs)和Common(ps)分別表是兩個本體中子結點數目 相同的非葉子結點的概念和實例;分子表示所述相同概念和實例的數目總數,分母則表示 兩個本體中所有非葉子結點的概念和屬性的總數。
8.如權利要求6所述的基于用戶定制的本體匹配方法,其特征在于,所述步驟S22中選 擇匹配方法時,若選擇多個匹配方法,則選擇的多個匹配方法并行執行。
9.如權利要求8所述的基于用戶定制的本體匹配方法,其特征在于,所述匹配方法包 括基于編輯距離的匹配方法、基于向量空間的匹配方法、基于WordNet的匹配方法及基于 機器學習的匹配方法。
全文摘要
本發明公開了一種基于用戶定制的本體匹配系統,涉及語義萬維網技術領域,包括本體模塊,包括原子組件本體操作接口子模塊和本體API子模塊;原子組件模塊,用于通過原子組件本體操作接口子模塊調用本體API子模塊的本體API實現原子組件;用戶接口模塊,用于接收用戶上傳的待匹配本體和自行實現的原子組件;匹配執行模塊,用于根據待匹配本體生成匹配任務描述文件,并根據匹配任務描述文件選擇原子組件或自行實現的原子組件來執行匹配任務,生成匹配結果。本發明使用戶能夠根據匹配本體的特征,對這些原子組件進行定制和組裝來設計自己需要的本體匹配流程,生成合適的匹配任務并得到精確地匹配結果。
文檔編號G06F9/46GK102135905SQ20111006482
公開日2011年7月27日 申請日期2011年3月17日 優先權日2011年3月17日
發明者侯磊, 唐杰, 張嘯, 李涓子, 李虎, 王志春 申請人:清華大學
網(wang)友詢問(wen)留言(yan) 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1