一種檢測網頁特征區域的方法和裝置的制造方法
【技術領域】
[0001] 本發明涉及移動通信技術領域,更為具體地,涉及檢測網頁特征區域的方法和裝 置。
【背景技術】
[0002] 當今的網頁中包含形形色色的廣告,這些廣告一方面影響了用戶的體驗,一方面 還可能會引起訪問時額外流量的消耗,一款能夠智能過濾網頁中廣告的瀏覽器或者瀏覽器 插件能帶來用戶體驗上的很大提升。
[0003] 現有的瀏覽器一般都設置了廣告過濾規則,而廣告過濾的規則制定方式都是通過 用戶反饋和人工排查兩種方式來檢查互聯網上網頁是否產生新的形式的廣告,用戶反饋的 方式不夠及時,而人工排查的方式又不夠高效。
[0004] 現有網頁自動化檢測廣告的系統也有通過比較網頁解析和排版過程中生成的D0M 樹和Render樹的差異的方式來檢測廣告。該方法具體是通過廣告過濾之后,獲得沒有廣告 的D0M樹和Render樹的網頁,然后后續將待測網頁與沒有廣告的網頁比較D0M樹和Render 樹,從而檢測出廣告。
[0005] 但是,這種方式通常針對內容不會變化的測試頁面,對于網頁內容變化的互聯網 頁面,無法區分是因為廣告導致的變化還是因為網頁本身內容導致的變化,從而可能無法 檢測出廣告。并且,現有技術中廣告過濾就是通過網頁的D0M結構來過濾廣告,如果自動化 檢測廣告的系統也采用同樣的機制,也很難達到檢測廣告的目的。
【發明內容】
[0006] 鑒于上述問題,本發明的目的是提供一種檢測網頁特征區域的方法及裝置,能快 速的檢測出網頁中的特征區域,便于在網頁廣告過濾時快速發現問題,為后續的網頁廣告 過濾處理提供參考依據,可以調整過濾規則,進而得到更好的過濾效果。
[0007] 根據本發明的一個方面,提供一種檢測網頁特征區域的方法,包括:
[0008] 生成頁面在過濾正常生效條件下的第一頁面結果;
[0009] 在設定閾值時間后,獲取頁面的第二頁面結果;
[0010] 將所述第二頁面結果與所述第一頁面結果比較,若發現存在不同的區域,確定所 述存在不同的區域為產生問題的特征區域。
[0011] 其中:生成頁面在過濾正常生效條件下的第一頁面結果包括:生成頁面在過濾正 常生效條件下劃分出內容邏輯區域的第一頁面結果,其中,所述內容邏輯區域是通過執行 多次頁面加載并比較出每次加載的網頁頁面的差異后合并生成;
[0012] 將所述第二頁面結果與所述第一頁面結果比較包括:
[0013] 將所述第二頁面結果與所述第一頁面結果中除所述內容邏輯區域之外的區域進 行比較。
[0014] 其中,執行多次頁面加載并比較每次加載的網頁頁面的差異合并生成內容邏輯區 域包括:
[0015] 對每次加載的頁面進行截圖,比較各個截圖的差異,記錄下有差異的像素點;
[0016] 根據所述有差異的像素點生成包圍所述有差異的像素點的多個矩形區域;
[0017] 將相鄰的矩形區域合并成內容邏輯區域。
[0018] 其中,將所述第二頁面結果與所述第一頁面結果比較包括,
[0019] 判斷頁面是否存在偏移;
[0020] 如果存在頁面偏移則計算頁面偏移值;
[0021] 根據頁面偏移值進行頁面對齊后再比較。
[0022] 其中,判斷頁面是否存在偏移包括:
[0023] 從頁面首行開始循環,比較其他行有沒有和當前行紅、藍、綠三個顏色特征值相 同,如果有相同的行,繼續比較其后設定閾值范圍內每行的顏色特征值是否都一一相等,如 果相等則確定當前比較頁面出現了偏移;其它情況下則確定沒有出現頁面偏移;
[0024] 其中,計算頁面偏移值包括:
[0025] 計算兩個偏移行的位置差,位置差值即為頁面偏移值。
[0026] 其中,所述內容邏輯區域被配置為顯示第一顏色,所述確定的產生問題的特征區 域被配置為顯示第二顏色。
[0027] 另一方面,本發明還提供一種檢測網頁特征區域的裝置,包括:
[0028] 基準頁面生成單元,用于生成頁面在過濾正常生效條件下的第一頁面結果;
[0029] 比較頁面生成單元,用于在設定閾值時間后,獲取頁面的第二頁面結果;
[0030] 特征區域確定單元,用于將所述第二頁面結果與所述第一頁面結果比較,若發現 存在不同的區域,確定所述存在不同的區域為產生問題的特征區域。
[0031] 其中,基準結果生成單元包括:
[0032] 加載模塊,用于執行多次頁面加載;
[0033] 差異查找模塊,用于比較執行多次頁面加載的網頁頁面的差異;
[0034] 內容區域生成模塊,用于將所述網頁頁面的差異生成內容邏輯區域。
[0035] 其中,基準結果生成單元還包括:
[0036] 截圖模塊,用于對每次加載的頁面進行截圖;
[0037] 矩形區域生成模塊,用于根據有差異的像素點生成多個矩形區域供內容區域生成 模塊將所述多個矩形區域合并成內容邏輯區域。
[0038] 其中,特征區域確定單元,包括:
[0039] 比較模塊,用于將所述第二頁面結果與所述第一頁面結果比較;
[0040] 偏移判斷模塊,用于在進行第一頁面截圖與第二頁面截圖時,比較出當前比較的 行存在差異時判斷頁面是否存在偏移;
[0041] 偏移值計算模塊,用于判斷模塊判斷出頁面存在偏移時,計算頁面偏移值;
[0042] 對齊模塊,用于根據頁面偏移值進行頁面對齊;
[0043] 特征區域確定模塊,用于將進行頁面對齊后最終確定的差異區域確定為網頁的特 征區域。
[0044] 本發明的檢測網頁特征區域的方法和裝置,首先生成頁面在過濾正常生效條件下 的第一頁面結果,在設定閾值時間后,生成頁面的第二頁面結果;然后將第二頁面結果與 所述第一頁面結果比較,若發現存在不同的區域,確定所述存在不同的區域為產生問題的 特征區域。在網頁進行廣告過濾的場景下,這些產生問題的特征區域就是廣告區域,其原 因可能是廣告過濾規則失效導致本該過濾的廣告出現,或者是廣告過濾規則未包括的新廣 告。因此,本發明通過將網頁與過濾正常生效下的參考網頁進行比較,能快速的檢測出網 頁中的特征區域(廣告區域),快速發現問題,為后續的網頁過濾處理提供參考依據,使得 可以調整過濾規則,進而得到更好的過濾效果。
[0045] 為了實現上述以及相關目的,本發明的一個或多個方面包括后面將詳細說明并在 權利要求中特別指出的特征。下面的說明以及附圖詳細說明了本發明的某些示例性方面。 然而,這些方面指示的僅僅是可使用本發明的原理的各種方式中的一些方式。此外,本發明 旨在包括所有這些方面以及它們的等同物。
【附圖說明】
[0046] 通過參考以下結合附圖的說明及權利要求書的內容,并且隨著對本發明的更全面 理解,本發明的其它目的及結果將更加明白及易于理解。在附圖中:
[0047] 圖1為本發明實施例提供的檢測網頁特征區域的方法的流程圖;
[0048] 圖2為本發明實施例提供的檢測網頁特征區域的方法的一個實施例詳細流程圖;
[0049] 圖3示出了本發明的一種檢測網頁特征區域的裝置方框圖;
[0050] 圖4示出了本發明的一種檢測網頁特征區域的裝置的一個實施例的基準結果生 成單元的方框圖;
[0051] 圖5示出了本發明的一種檢測網頁特征區域的裝置的一個實施例的特征區域確 定單元的方框圖。
[0052] 在所有附圖中相同的標號指示相似或相應的特征或功能。
【具體實施方式】
[0053] 下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完 整的描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于 本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他 實施例,都屬于本發明保護的范圍。
[0054] 本發明的檢測網頁特征區域的方法和裝置一種檢測