<bdo id='IF2BO'><sup id='8GpdH'><div id='pbIsF'><bdo id='TNQQI'></bdo></div></sup></bdo>

一種網頁信息排重的方法、裝置及計算機可讀存儲介質的制作方法

文檔序號：8258592閱讀：219來源：國知局

一種網頁信息排重的方法、裝置及計算機可讀存儲介質的制作方法
【技術領域】
[0001] 本發明涉及信息處理技術，尤其涉及一種網頁信息排重的方法、裝置及計算機可讀存儲介質。
【背景技術】
[0002] 隨著互聯網技術的迅猛發展，互聯網上的網頁信息也越來越多。搜索引擎的索引數據通常可達百億級別的網頁信息，有統計結果表明，近似重復網頁信息的數量占網頁信息總數的比例高達全部頁面的29%，而完全相同的頁面大約占全部頁面的22%，這意味著用戶每次搜索得到的網頁信息中，有相當大比例的內容是完全相同或者相似的。
[0003]目前，網頁信息排重的方法主要有：
[0004] -、Shingling算法，包括：分別獲取當前比對的兩個網頁信息中文檔的特征集合；根據兩個網頁信息中文檔的特征集合比較所述兩個網頁信息的重疊程度。其中，所述特征集合由文檔的全部Shingle組合構成。但是，這種算法計算效率不高，如果網頁信息數量大，運行時間會過長不實用。
[0005] 二、I-Match算法，包括：分別掃描需要去重的兩個網頁信息，根據全局特征詞典，分別獲得所述兩個網頁信息的特征詞，對所有的特征詞進行哈希計算得到唯一的數值作為所述網頁信息的信息指紋；利用兩個網頁信息的信息指紋判斷所述兩個網頁信息是否近似重復。但是，這種算法很容易出現由于特征詞典覆蓋不足，導致很多信息被過多過濾，進而出現誤判為重復內容的情況。
[0006] 三、Simhash算法，包括：文檔指紋計算和相似文檔查找。其中，所述文檔指紋計算為將網頁信息中的文本文檔轉換為固定大小的二進制數值作為文檔的信息指紋；所述相似性查找為根據進行對比的兩個網頁信息的信息指紋間的海明距離來衡量兩個網頁信息中文本的相似性。但是，這種算法靈敏度太高，容易導致漏排的情況發生。
[0007] 可見，現有技術中的網頁信息排重的方法無法提高計算效率，以及無法有效平衡網頁信息相似度計算過程中的誤排和漏排問題。

【發明內容】

[0008] 有鑒于此，本發明實施例的目的在于提供一種網頁信息排重的方法、裝置及計算機可讀存儲介質，能至少解決現有技術存在的上述問題。
[0009] 為達到上述目的，本發明的技術方案是這樣實現的：
[0010] 一種網頁信息排重的方法，所述方法包括：
[0011] 利用各個網頁信息的正文指紋值將網頁信息進行分組，得到第一層分組；
[0012] 分別對各個第一層分組中的各個網頁信息進行第二層分組；
[0013] 對各個第二層分組中的網頁信息進行篩選，得到排重后的結果。
[0014] 優選的，所述利用各個網頁信息的正文指紋值將網頁信息進行分組，得到第一層分組，包括：
[0015] 獲取一個或多個網頁信息，分別計算各個所述網頁信息的正文指紋值，根據所述正文指紋值對各個網頁信息進行分組，得到多個第一層分組。
[0016] 優選的，所述分別計算各個所述網頁信息的正文指紋值，包括：依次提取網頁信息的一個或多個特征因子，利用所述一個或多個特征因子組成所述網頁信息對應的字符串；利用MD5算法對所述字符串進行計算，得到正文指紋值。
[0017] 優選的，所述利用各個網頁信息的正文指紋值將網頁信息進行分組之前，所述方法還包括：分別計算各個所述網頁信息的綜合權重值。
[0018] 優選的，所述分別對各個第一層分組中的各個網頁信息進行第二層分組，包括：依次選取第一層分組作為當前分組，對所述當前分組中的一個或多個網頁信息進行主域分組、和/或專項指紋分組、和/或分析標題simhash、和/或正文simhash分組、和/或主題分組得到一個或多個第二層分組。
[0019] 優選的，對各個第二層分組中的網頁信息進行篩選，得到排重后的結果，包括：依次選取第二層分組作為當前分組，對所述當前分組中的各個網頁信息進行排序；根據預設的優選保留策略，對當前分組中排序后的各個網頁信息進行篩選；從所述當前分組中的篩選后得到的結果中選取指定數量個的網頁信息作為排重后的結果。
[0020] 優選的，所述對當前分組中的各個網頁信息進行排序，包括：對所述當前分組中的各個網頁信息根據綜合權重值進行排序；或者，對所述當前分組中的各個網頁信息進行主題排序。
[0021] 一種網頁信息排重的裝置，所述裝置包括：第一層分組模塊、第二層分組模塊和保留計算模塊；其中，
[0022] 第一層分組模塊，用于利用各個網頁信息的正文指紋值將網頁信息進行分組，得到第一層分組；
[0023] 第二層分組模塊，用于分別對第一層分組模塊得到的各個第一層分組中的各個網頁信息進行第二層分組；
[0024] 保留計算模塊，用于對第二層分組模塊得到的各個第二層分組中的網頁信息進行篩選，得到排重后的結果。
[0025] 優選的，所述裝置還包括：因子獲取模塊和因子預處理模塊；其中，
[0026] 因子獲取模塊，用于周期性的從云存儲平臺獲取當前存儲的一個或多個網頁信息；
[0027] 因子預處理模塊，用于獲取因子獲取模塊中的一個或多個網頁信息，分別計算各個所述網頁信息的正文指紋值，根據所述正文指紋值對各個網頁信息進行分組，得到多個第一層分組。
[0028] 優選的，所述因子預處理模塊，具體用于依次提取網頁信息的一個或多個特征因子，利用所述一個或多個特征因子組成所述網頁信息對應的字符串；利用MD5算法對所述字符串進行計算，得到正文指紋值。
[0029] 優選的，所述裝置還包括：綜合權重計算模塊，用于分別計算各個所述網頁信息的綜合權重值。
[0030] 優選的，所述第二層分組模塊，具體用于依次選取第一層分組作為當前分組，對所述當前分組中的一個或多個網頁信息進行主域分組、和/或專項指紋分組、和/或分析標題 simhash分組、和/或正文simhash分組、和/或主題分組得到一個或多個第二層分組。 [0031] 優選的，所述裝置還包括：排序模塊，用于從第二層分組模塊中得到的一個或多個第二層分組中，選取第二層分組作為當前分組，對所述當前分組中的各個網頁信息進行排序；
[0032] 相應的，所述保留計算模塊，具體用于根據預設的優選保留策略，對排序模塊中當前分組中排序后的各個網頁信息進行篩選；從所述當前分組中的篩選后得到的結果中選取指定數量個的網頁信息作為排重后的結果。
[0033] 優選的，所述排序模塊，具體用于對所述當前分組中的各個網頁信息根據綜合權重值進行排序；或者，對所述當前分組中的各個網頁信息進行主題排序。
[0034] 一種計算機可讀存儲介質，該存儲介質包括一組指令，當執行所述指令時，引起至少一個處理器執行包括以下的操作：
[0035] 利用各個網頁信息的正文指紋值將網頁信息進行分組，得到第一層分組；
[0036] 分別對各個第一層分組中的各個網頁信息進行第二層分組；
[0037] 對各個第二層分組中的網頁信息進行篩選，得到排重后的結果。
[0038] 優選的，所述存儲介質還包括引起至少一個處理器執行以下操作的指令，所述操作包括：
[0039] 獲取一個或多個網頁信息，分別計算各個所述網頁信息的正文指紋值，根據所述正文指紋值對各個網頁信息進行分組，得到多個第一層分組。
[0040] 優選的，所述存儲介質還包括引起至少一個處理器執行以下操作的指令，所述操作包括：
[0041] 依次提取網頁信息的一個或多個特征因子，利用所述一個或多個特征因子組成所述網頁信息對應的字符串；利用MD5算法對所述字符串進行計算，得到正文指紋值。
[0042] 優選的，所述存儲介質還包括引起至少一個處理器執行以下操作的指令，所述操作包括：
[0043] 分別計算各個所述網頁信息的綜合權重值。
[0044] 優選的，所述存儲介質還包括引起至少一個處理器執行以下操作的指令，所述操作包括：
[0045] 依次選取第一層分組作為當前分組，對所述當前分組中的一個或多個網頁信息進行主域分組、和/或專項指紋分組、和/或分析標題simhash、和/或正文simhash分組、和 /或主題分組得到一個或多個第二層分組。
[0046] 優選的，所述存儲介質還包括引起至少一個處理器執行以下操作的指令，所述操作包括：
[0047] 依次選取第二層分組作為當前分組，對所述當前分組中的各個網頁信息進行排序；根據預設的優選保留策略，對當前分組中排序后的各個網頁信息進行篩選；從所述當前分組中的篩選后得到的結果中選取指定數量個的網頁信息作為排重后的結果。
[0048] 優選的，所述存儲介質還包括引起至少一個處理器執行以下操作的指令，所述操作包括：
[0049] 對所述當

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：康秋生;杜建強;呂晟;
技術所有人：騰訊科技（深圳）有限公司;
我是此專利的發明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

中文字幕无码日韩视频无码三区

一種網頁信息排重的方法、裝置及計算機可讀存儲介質的制作方法