中文字幕无码日韩视频无码三区

一種知識庫構建方法、控制器的制造方法

文檔序號(hao):9818307閱讀(du):432來源:國知局
一種知識庫構建方法、控制器的制造方法
【技術領域】
[0001] 本發明涉及互聯網技術領域,尤其涉及一種知識庫構建方法、控制器。
【背景技術】
[0002] 隨著互聯網的發展,互聯網中信息在急劇增長,為了確保計算機應用可以與時倶 進地理解并智能處理目標事物,構建和使用一個盡可能豐富、準確且及時的領域知識庫是 非常有必要的。目前,對于領域知識庫的構建多采用自動或半自動知識抽取方法,如:通過 定制爬蟲對百科類站點、垂直網站進行抓取,獲取網頁(WEB)詳情頁面的對象屬性、表格等 半結構化信息來構建領域知識庫。
[0003] 但是,在實現本發明的過程中,本發明技術人員發現:這類通過抽取WEB詳情頁面 的數據信息構建起來的領域知識庫,其所填充的領域對象知識屬性的完整性往往受限于 WEB詳情頁面信息的豐富程度,當WEB詳情頁面信息不夠豐富時,容易導致從該WEB詳情頁面 信息抽取得到的領域對象知識屬性不足,無法完整描述領域對象,比如:在一具體音樂的詳 情頁面中,往往只包括與本首音樂相關的歌手、專輯、少量標簽等少量信息,而該音樂所歸 屬的風格、分類、場景等信息通過該詳情頁面都是無法獲取到的,影響該音樂知識庫的完整 性。

【發明內容】

[0004] 本發明的主要目的,在于提供一種知識庫構建方法、控制器,以解決現有受限于 WEB詳情頁面信息的豐富程度,導致構建的領域知識不夠完整的問題。
[0005] 為達到上述目的,本發明的實施例采用如下技術方案:
[0006] 第一方面,本發明實施例提供一種知識庫構建方法,應用于控制器,所述方法可以 包括:
[0007] 接收知識庫構建任務;所述知識庫構建任務包含標識待構建知識庫的任務名稱;
[0008] 查詢與所述任務名稱相對應的任務配置;所述任務配置包含:至少兩個子任務,每 個子任務對應設置有:目標網站、抽取模板以及網頁類型;每個子任務用于:指示抓取器根 據所述抽取模板,在所述目標網站中與所述網頁類型對應的頁面上進行結構化數據抽取;
[0009] 將所述至少兩個子任務發送給所述抓取器,觸發所述抓取器執行所述至少兩個子 任務,得到至少兩個結構化數據;
[0010] 接收所述抓取器返回的所述至少兩個結構化數據;
[0011] 合并所述至少兩個結構化數據,將合并后的結構化數據存入與所述任務名稱對應 的知識庫。
[0012] 可選的,根據目前已知的網頁類型,所述至少兩個子任務可以包含:第一子任務和 第二子任務,其中,所述第一子任務的網頁類型為詳情頁,第二子任務的網頁類型為索引導 航頁。
[0013] 其中,為了使控制器方便地查詢到與任務名稱對應的任務配置,在第一方面的一 種可實現方式中,在接收知識庫構建任務之前,所述方法還可以包括:
[0014] 接收創建請求;所述創建請求包含:所述任務名稱以及任務屬性;存儲所述任務名 稱與所述任務屬性的對應關系。
[0015] 進一步的,為了方便用戶進行知識信息查詢,在第一方面的另一種可實現方式中, 所述方法還可以包括:
[0016] 接收用戶發送的查詢請求;所述查詢請求包含:所述任務名稱;
[0017] 查詢與所述任務名稱相對應的知識庫,將所述知識庫中的結構化數據反饋給所述 用戶。
[0018] 進一步的,由于領域知識信息在不斷的進行更新,為了使構建的知識庫中的知識 信息為當前最新知識信息,在第一方面的再一種可實現方式中,所述接收知識庫構建任務 可以包括:
[0019] 定期接收知識庫構建任務;
[0020] 所述將合并后的結構化數據存入與所述任務名稱對應的知識庫具體可以包括:
[0021] 刪除所述知識庫中已有的結構化數據,將當前合并后的結構化數據存入知識庫。
[0022] 如此,通過對多種類型的網頁的知識抽取實現知識庫的構建,由于不同類型的網 頁包含不同屬性的知識信息,此時,將不同網頁抽取到的知識信息進行合并匯總,可以很大 程度的豐富知識信息的種類,實現豐富完善領域知識庫的目的,避免了現有僅對單一類型 的頁面(如:詳情頁面)的內容進行抽取,導致獲取到的知識信息不夠充分,進而使構建的領 域知識庫不夠豐富的問題。
[0023] 第二方面,本發明實施例提供一種控制器,可以包括:
[0024] 接口單元,用于接收知識庫構建任務;所述知識庫構建任務包含標識待構建知識 庫的任務名稱;
[0025] 任務調度單元,用于查詢與所述接口單元接收到的任務名稱相對應的任務配置; 所述任務配置包含:至少兩個子任務,每個子任務對應設置有:目標網站、抽取模板以及網 頁類型;每個子任務用于:指示抓取器根據所述抽取模板,在所述目標網站中與所述網頁類 型對應的頁面上進行結構化數據抽取;
[0026] 以及,將所述至少兩個子任務發送給所述抓取器,觸發所述抓取器執行所述至少 兩個子任務,得到至少兩個結構化數據;
[0027] 接收所述抓取器返回的所述至少兩個結構化數據,并合并所述至少兩個結構化數 據;
[0028] 任務存儲單元,用于將任務調度單元合并后的結構化數據存入與所述任務名稱對 應的知識庫。
[0029]可選的,根據目前已知的網頁類型,所述至少兩個子任務可以包含:第一子任務和 第二子任務,其中,所述第一子任務的網頁類型為詳情頁,第二子任務的網頁類型為索引導 航頁。
[0030] 其中,為了使控制器方便地查詢到與任務名稱對應的任務配置,在第二方面的一 種可實現方式中,所述接口單元還可以用于:
[0031] 在接收知識庫構建任務之前,接收創建請求;所述創建請求包含:所述任務名稱以 及任務屬性;
[0032] 所述控制器,還可以包括:任務管理單元;
[0033] 所述任務管理單元,用于在接口單元接收到創建請求后,存儲所述任務名稱與所 述任務屬性的對應關系。
[0034] 進一步的,為了方便用戶進行知識信息查詢,在第二方面的另一種可實現方式中, 所述接口單元,還可以用于:
[0035] 接收用戶發送的查詢請求;所述查詢請求包含:所述任務名稱;
[0036] 所述任務調度單元,還可以用于查詢與所述任務名稱相對應的知識庫,將所述知 識庫中的結構化數據反饋給所述用戶。
[0037] 進一步的,由于領域知識信息在不斷的進行更新,為了使構建的知識庫中的知識 信息為當前最新知識信息,在第二方面的再一種可實現方式中,所述接口單元,具體用于: [0038]定期接收知識庫構建任務;
[0039] 所述任務存儲單元,具體用于刪除所述知識庫中已有的結構化數據,將當前合并 后的結構化數據存入知識庫。
[0040] 第三方面,本發明實施例提供一種控制器,可以包括:
[0041] 通信單元,用于接收知識庫構建任務;所述知識庫構建任務包含標識待構建知識 庫的任務名稱;
[0042]處理器,用于查詢與所述通信單元接收到的任務名稱相對應的任務配置;所述任 務配置包含:至少兩個子任務,每個子任務對應設置有:目標網站、抽取模板以及網頁類型; 每個子任務用于:指示抓取器根據所述抽取模板,在所述目標網站中與所述網頁類型對應 的頁面上進行結構化數據抽取;
[0043] 以及,將所述至少兩個子任務發送給所述抓取器,觸發所述抓取器執行所述至少 兩個子任務,得到至少兩個結構化數據;
[0044] 接收所述抓取器返回的所述至少兩個結構化數據,并合并所述至少兩個結構化數 據;
[0045] 存儲器,用于將處理器合并后的結構化數據存入與所述任務名稱對應的知識庫。
[0046] 可選的,根據目前已知的網頁類型,所述至少兩個子任務可以包含:第一子任務和 第二子任務,其中,所述第一子任務的網頁類型為詳情頁,第二子任務的網頁類型為索引導 航頁。
[0047]其中,為了使控制器方便地查詢到與任務名稱對應的任務配置,在第三方面的一 種可實現方式中,所述通信單元還可以用于:
[0048] 在接收知識庫構建任務之前,接收創建請求;所述創建請求包含:所述任務名稱以 及任務屬性;
[0049] 所述處理器,還可以用于在通信單元接收到創建請求后,存儲所述任務名稱與所 述任務屬性的對應關系。
[0050] 進一步的,為了方便用戶進行知識信息查詢,在第三方面的另一種可實現方式中, 所述通信單元,還可以用于:
[0051] 接收用戶發送的查詢請求;所述查詢請求包含:所述任務名稱;
[0052]所述處理器,還可以用于查詢與所述任務名稱相對應的知識庫,將所述知識庫中 的結構化數據反饋給所述用戶。
[0053]進一步的,由于領域知識信息在不斷的進行更新,為了使構建的知識庫中的知識 信息為當前最新知識信息,在第三方面的再一種可實現方式中,所述通信單元,具體用于: [0054]定期接收知識庫構建任務;
[0055]所述存儲器,具體用于刪除所述知識庫中已有的結構化數據,將當前合并后的結 構化數據存入知識庫。
[0056]由上可知,本發明實施例
當前第1頁1 2 3 4 
網友詢問留(liu)言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1