一種網頁信息排重的方法、裝置及計算機可讀存儲介質的制作方法
【技術領域】
[0001] 本發明涉及信息處理技術,尤其涉及一種網頁信息排重的方法、裝置及計算機可 讀存儲介質。
【背景技術】
[0002] 隨著互聯網技術的迅猛發展,互聯網上的網頁信息也越來越多。搜索引擎的索引 數據通常可達百億級別的網頁信息,有統計結果表明,近似重復網頁信息的數量占網頁信 息總數的比例高達全部頁面的29%,而完全相同的頁面大約占全部頁面的22%,這意味著用 戶每次搜索得到的網頁信息中,有相當大比例的內容是完全相同或者相似的。
[0003]目前,網頁信息排重的方法主要有:
[0004] -、Shingling算法,包括:分別獲取當前比對的兩個網頁信息中文檔的特征集 合;根據兩個網頁信息中文檔的特征集合比較所述兩個網頁信息的重疊程度。其中,所述特 征集合由文檔的全部Shingle組合構成。但是,這種算法計算效率不高,如果網頁信息數量 大,運行時間會過長不實用。
[0005] 二、I-Match算法,包括:分別掃描需要去重的兩個網頁信息,根據全局特征詞典, 分別獲得所述兩個網頁信息的特征詞,對所有的特征詞進行哈希計算得到唯一的數值作為 所述網頁信息的信息指紋;利用兩個網頁信息的信息指紋判斷所述兩個網頁信息是否近似 重復。但是,這種算法很容易出現由于特征詞典覆蓋不足,導致很多信息被過多過濾,進而 出現誤判為重復內容的情況。
[0006] 三、Simhash算法,包括:文檔指紋計算和相似文檔查找。其中,所述文檔指紋計算 為將網頁信息中的文本文檔轉換為固定大小的二進制數值作為文檔的信息指紋;所述相似 性查找為根據進行對比的兩個網頁信息的信息指紋間的海明距離來衡量兩個網頁信息中 文本的相似性。但是,這種算法靈敏度太高,容易導致漏排的情況發生。
[0007] 可見,現有技術中的網頁信息排重的方法無法提高計算效率,以及無法有效平衡 網頁信息相似度計算過程中的誤排和漏排問題。
【發明內容】
[0008] 有鑒于此,本發明實施例的目的在于提供一種網頁信息排重的方法、裝置及計算 機可讀存儲介質,能至少解決現有技術存在的上述問題。
[0009] 為達到上述目的,本發明的技術方案是這樣實現的:
[0010] 一種網頁信息排重的方法,所述方法包括:
[0011] 利用各個網頁信息的正文指紋值將網頁信息進行分組,得到第一層分組;
[0012] 分別對各個第一層分組中的各個網頁信息進行第二層分組;
[0013] 對各個第二層分組中的網頁信息進行篩選,得到排重后的結果。
[0014] 優選的,所述利用各個網頁信息的正文指紋值將網頁信息進行分組,得到第一層 分組,包括:
[0015] 獲取一個或多個網頁信息,分別計算各個所述網頁信息的正文指紋值,根據所述 正文指紋值對各個網頁信息進行分組,得到多個第一層分組。
[0016] 優選的,所述分別計算各個所述網頁信息的正文指紋值,包括:依次提取網頁信息 的一個或多個特征因子,利用所述一個或多個特征因子組成所述網頁信息對應的字符串; 利用MD5算法對所述字符串進行計算,得到正文指紋值。
[0017] 優選的,所述利用各個網頁信息的正文指紋值將網頁信息進行分組之前,所述方 法還包括:分別計算各個所述網頁信息的綜合權重值。
[0018] 優選的,所述分別對各個第一層分組中的各個網頁信息進行第二層分組,包括:依 次選取第一層分組作為當前分組,對所述當前分組中的一個或多個網頁信息進行主域分 組、和/或專項指紋分組、和/或分析標題simhash、和/或正文simhash分組、和/或主題 分組得到一個或多個第二層分組。
[0019] 優選的,對各個第二層分組中的網頁信息進行篩選,得到排重后的結果,包括:依 次選取第二層分組作為當前分組,對所述當前分組中的各個網頁信息進行排序;根據預設 的優選保留策略,對當前分組中排序后的各個網頁信息進行篩選;從所述當前分組中的篩 選后得到的結果中選取指定數量個的網頁信息作為排重后的結果。
[0020] 優選的,所述對當前分組中的各個網頁信息進行排序,包括:對所述當前分組中的 各個網頁信息根據綜合權重值進行排序;或者,對所述當前分組中的各個網頁信息進行主 題排序。
[0021] 一種網頁信息排重的裝置,所述裝置包括:第一層分組模塊、第二層分組模塊和保 留計算模塊;其中,
[0022] 第一層分組模塊,用于利用各個網頁信息的正文指紋值將網頁信息進行分組,得 到第一層分組;
[0023] 第二層分組模塊,用于分別對第一層分組模塊得到的各個第一層分組中的各個網 頁信息進行第二層分組;
[0024] 保留計算模塊,用于對第二層分組模塊得到的各個第二層分組中的網頁信息進行 篩選,得到排重后的結果。
[0025] 優選的,所述裝置還包括:因子獲取模塊和因子預處理模塊;其中,
[0026] 因子獲取模塊,用于周期性的從云存儲平臺獲取當前存儲的一個或多個網頁信 息;
[0027] 因子預處理模塊,用于獲取因子獲取模塊中的一個或多個網頁信息,分別計算各 個所述網頁信息的正文指紋值,根據所述正文指紋值對各個網頁信息進行分組,得到多個 第一層分組。
[0028] 優選的,所述因子預處理模塊,具體用于依次提取網頁信息的一個或多個特征因 子,利用所述一個或多個特征因子組成所述網頁信息對應的字符串;利用MD5算法對所述 字符串進行計算,得到正文指紋值。
[0029] 優選的,所述裝置還包括:綜合權重計算模塊,用于分別計算各個所述網頁信息的 綜合權重值。
[0030] 優選的,所述第二層分組模塊,具體用于依次選取第一層分組作為當前分組,對所 述當前分組中的一個或多個網頁信息進行主域分組、和/或專項指紋分組、和/或分析標題 simhash分組、和/或正文simhash分組、和/或主題分組得到一個或多個第二層分組。 [0031] 優選的,所述裝置還包括:排序模塊,用于從第二層分組模塊中得到的一個或多個 第二層分組中,選取第二層分組作為當前分組,對所述當前分組中的各個網頁信息進行排 序;
[0032] 相應的,所述保留計算模塊,具體用于根據預設的優選保留策略,對排序模塊中當 前分組中排序后的各個網頁信息進行篩選;從所述當前分組中的篩選后得到的結果中選取 指定數量個的網頁信息作為排重后的結果。
[0033] 優選的,所述排序模塊,具體用于對所述當前分組中的各個網頁信息根據綜合權 重值進行排序;或者,對所述當前分組中的各個網頁信息進行主題排序。
[0034] 一種計算機可讀存儲介質,該存儲介質包括一組指令,當執行所述指令時,引起至 少一個處理器執行包括以下的操作:
[0035] 利用各個網頁信息的正文指紋值將網頁信息進行分組,得到第一層分組;
[0036] 分別對各個第一層分組中的各個網頁信息進行第二層分組;
[0037] 對各個第二層分組中的網頁信息進行篩選,得到排重后的結果。
[0038] 優選的,所述存儲介質還包括引起至少一個處理器執行以下操作的指令,所述操 作包括:
[0039] 獲取一個或多個網頁信息,分別計算各個所述網頁信息的正文指紋值,根據所述 正文指紋值對各個網頁信息進行分組,得到多個第一層分組。
[0040] 優選的,所述存儲介質還包括引起至少一個處理器執行以下操作的指令,所述操 作包括:
[0041] 依次提取網頁信息的一個或多個特征因子,利用所述一個或多個特征因子組成所 述網頁信息對應的字符串;利用MD5算法對所述字符串進行計算,得到正文指紋值。
[0042] 優選的,所述存儲介質還包括引起至少一個處理器執行以下操作的指令,所述操 作包括:
[0043] 分別計算各個所述網頁信息的綜合權重值。
[0044] 優選的,所述存儲介質還包括引起至少一個處理器執行以下操作的指令,所述操 作包括:
[0045] 依次選取第一層分組作為當前分組,對所述當前分組中的一個或多個網頁信息進 行主域分組、和/或專項指紋分組、和/或分析標題simhash、和/或正文simhash分組、和 /或主題分組得到一個或多個第二層分組。
[0046] 優選的,所述存儲介質還包括引起至少一個處理器執行以下操作的指令,所述操 作包括:
[0047] 依次選取第二層分組作為當前分組,對所述當前分組中的各個網頁信息進行排 序;根據預設的優選保留策略,對當前分組中排序后的各個網頁信息進行篩選;從所述當 前分組中的篩選后得到的結果中選取指定數量個的網頁信息作為排重后的結果。
[0048] 優選的,所述存儲介質還包括引起至少一個處理器執行以下操作的指令,所述操 作包括:
[0049] 對所述當