對互聯網非結構化數據字段的人工智能萃取方法
【技術領域】
[0001]本發明涉及互聯網信息采集的技術領域,具體說是一種對互聯網非結構化數據字段的人工智能萃取方法。
【背景技術】
[0002]隨著電子商務日益普及,消費者在商品交易前的貨比三家、交易后的商品評價以及與商鋪的交互等網購行為,對商品交易相關的產品信息、客戶評價、電子商鋪等關聯訊息的獲取需求日益旺盛。電子商務網站功能日趨完善,新的電商網站也不斷涌現,電商類似的旅游網站以及其他提供各種各樣的信息的網站,擁有海量的數據,這些數據的準確獲取,需將網頁中非結構化的數據轉為結構化數據,以便于程序自動處理,完整準確地獲取數據并轉化為可利用的信息。
[0003]但是現有的智能算法無法快速響應以下情況:電商網站的頁面頻繁改版,且種類多樣;政府、企業類網站,其網站設計各不相同,頁面也不一致;包含Ajax的頁面;需要靈活增刪字段的情況。
【發明內容】
[0004]本發明要解決的技術問題是提供一種對互聯網非結構化數據字段的人工智能萃取方法。
[0005]本發明為解決公知技術中存在的技術問題所采取的技術方案是:
本發明的對互聯網非結構化數據字段的人工智能萃取方法,包括以下步驟:
A、創建知識庫;
B、接收并解析萃取請求;
C、與知識庫中的知識進行匹配并提取對應的知識內容;
D、從頁面源碼中萃取出簡單字段數據;
E、根據知識定義的分組規則,對頁面源碼中數據進行分組,即拆分出多組數據;然后對每組數據分別萃取出字段數據;
F、萃取字段數據,即對網頁數據拆分獲取有用數據;根據定義字段萃取流程,調用相應的萃取方式,取得字段結果;
G、對字段結果的相應數據進行歸一化和組合;
H、按照字段映射關系生成存儲數據并存儲。
[0006]本發明還可以采用以下技術措施:
步驟E中,分組規則為正則分組、DOM分組和JSON分組中的任一種規則。
[0007]步驟F中,根據需求選擇單頁面數據或多頁面數據進行萃取。
[0008]進行數據萃取時選擇正則解析、DOM解析和JSON解析中的任一種萃取方式。
[0009]進行數據萃取時選擇正則解析、DOM解析和JSON解析中多種萃取方式的組合。
[0010]步驟H中,存儲數據存儲至Mysql服務器和Hbase服務器。[0011 ]本發明具有的優點和積極效果是:
本發明的對互聯網非結構化數據字段的人工智能萃取方法中,通過創建知識庫,合理地引入了人工智能;可組合多種的數據萃取方式獲取字段數據、對頁面數據進行分組;并且能夠對提取數據的進行后加工,從而能靈活的滿足字段的定制需求。本發明能夠提升對頁面數據提取的精準度,并且可以靈活應對多種復雜的數據,包括電商網站、微博、旅游、政府部門、企業等的網站的數據,可支持Ajax嵌入頁,可支持網頁特征改版監控。
【附圖說明】
[0012]圖1是本發明的對互聯網非結構化數據字段的人工智能萃取方法所依據的系統信息架構;
圖2是本發明的對互聯網非結構化數據字段的人工智能萃取方法的流程圖。
【具體實施方式】
[0013]以下通過具體實施例對本發明進行詳細說明。
[0014]如圖1和圖2所示,本發明的對互聯網非結構化數據字段的人工智能萃取方法,包括以下步驟:
A、創建知識庫;
B、接收并解析萃取請求;
C、與知識庫中的知識進行匹配并提取對應的知識內容;找到相應的知識時則進行后續步驟,如未找到相應的知識則返回FALSE
D、從頁面源碼中萃取出簡單字段數據,此步驟中一個頁面對應只生成一組數據;
E、根據知識定義的分組規則,對頁面源碼中數據進行分組(分組規則包括正則分組、DOM分組和JSON分組),即拆分出多組數據;然后對每組數據分別萃取出字段數據,此步驟中一個頁面可生成多組數據;
F、萃取字段數據,即對網頁數據拆分獲取有用數據;根據定義字段萃取流程,調用相應的萃取方式,取得字段結果;
G、對字段結果的相應數據進行歸一化和組合;
H、按照字段映射關系生成存儲數據并通過存儲插件進行存儲。
[0015]本系統底層平臺采用了 ICE網絡通信引擎(Internet Communicat1ns Engine ,Ice)和Gearman是分發任務的程序框架,對任務請求進行處理;應用正則/D0M/XML/JS0N技術等開發相應的數據萃取插件,添加了分組策略解析多組近似數據(如商品評論),內嵌了JS引擎,方便系統的擴展。從系統架構上看,本發明的對互聯網非結構化數據字段的人工智能萃取方法中需要涵蓋萃取引擎、存儲引擎、知識庫和運營平臺幾大部分,其中知識庫通過運營平臺構建,而運營平臺向萃取引擎請求萃取結果,同時萃取引擎將萃取處理后的數據通過存儲引擎存儲至Mysql和Hbase服務器。
[0016]步驟F中,根據需求選擇單頁面數據或多頁面數據進行萃取。
[0017]根據輸入數據的類別:冊1^、^(^、乂1^^」&1以及字段提取的需求,定義字段萃取流程,即選取不同的萃取方式或幾種萃取方式組合:正則解析、JSON解析、DOM解析。
[0018]作為萃取結果的存儲數據存儲至Mysql服務器和Hbase服務器。
[0019]以上所述,僅是本發明的較佳實施例而已,并非對本發明作任何形式上的限制,雖然本發明已以較佳實施例公開如上,然而,并非用以限定本發明,任何熟悉本專業的技術人員,在不脫離本發明技術方案范圍內,當然會利用揭示的技術內容作出些許更動或修飾,成為等同變化的等效實施例,但凡是未脫離本發明技術方案的內容,依據本發明的技術實質對以上實施例所作的任何簡單修改、等同變化與修飾,均屬于本發明技術方案的范圍內。
【主權項】
1.一種對互聯網非結構化數據字段的人工智能萃取方法,包括以下步驟: A、創建知識庫; B、接收并解析萃取請求; C、與知識庫中的知識進行比對,用匹配的知識提取對應的內容; D、從頁面源碼中萃取出簡單字段數據; E、根據知識定義的分組規則,對頁面源碼中數據進行分組,即拆分出多組數據;然后對每組數據分別萃取出字段數據; F、萃取字段數據,即對網頁數據拆分獲取有用數據;根據定義字段萃取流程,調用相應的萃取方式,取得字段結果; G、對字段結果的相應數據進行歸一化和組合; H、按照字段映射關系生成存儲數據并存儲。2.根據權利要求1所述的對互聯網非結構化數據字段的人工智能萃取方法,其特征在于:步驟E中,分組規則為正則分組、DOM分組和JSON分組中的任一種規則。3.根據權利要求1或2所述的對互聯網非結構化數據字段的人工智能萃取方法,其特征在于:步驟F中,根據需求選擇單頁面數據或多頁面數據進行萃取。4.根據權利要求3所述的對互聯網非結構化數據字段的人工智能萃取方法,其特征在于:進行數據萃取時選擇正則解析、DOM解析和JSON解析中的任一種萃取方式。5.根據權利要求3所述的對互聯網非結構化數據字段的人工智能萃取方法,其特征在于:進行數據萃取時選擇正則解析、DOM解析和JSON解析中多種萃取方式的組合。6.根據權利要求1所述的對互聯網非結構化數據字段的人工智能萃取方法,其特征在于:步驟H中,存儲數據存儲至Mysql服務器和Hbase服務器。
【專利摘要】一種對互聯網非結構化數據字段的人工智能萃取方法,通過創建知識庫,合理地引入了人工智能;可組合正則、DOM、JSON等多種數據萃取方式獲取字段數據、對頁面數據進行分組;并且能夠對提取數據的進行后加工,從而能靈活的滿足字段的定制需求。本發明能夠提升對頁面數據提取的精準度,并且可以靈活應對多種復雜的數據,包括電商網站、微博、旅游、政府部門、企業等的網站的數據,可支持Ajax嵌入頁,可支持網頁特征改版監控。
【IPC分類】G06F17/30
【公開號】CN105574086
【申請號】CN201510910408
【發明人】張寶洪, 張作職
【申請人】天津海量信息技術有限公司
【公開日】2016年5月11日
【申請日】2015年12月10日