基于cdn的網頁內容感知系統及方法

文(wen)檔序號：8223494閱讀：245來源：國知局

基于cdn的網頁內容感知系統及方法
【技術領域】
[0001]本發明涉及計算機技術領域，尤其涉及一種基于CDN的網頁內容感知系統及方法。
【背景技術】
[0002]內容分發網絡(content distribut1n network，CDN)是指一種通過互聯網互相連接的計算機網絡系統，CDN節點服務器設置在多個地點、多個不同的網絡上。這些節點之間會動態的互相傳輸內容，優化用戶的下載行為，并借此減少內容供應者所需要的帶寬成本，改善用戶的下載速度，提升用戶上網體驗，提高系統穩定性。CDN網絡雖然具有豐富的大數據樣本空間，但其對“網頁”這一內容節點感知的信息維度較少，尚不能充分挖掘出隱藏在大數據內容背后更多的價值。
[0003]不同于⑶N服務提供商，單一互聯網公司掌握著自身網頁節點的全局信息。若能綜合多個數據源，挖掘全網網頁節點的深層信息，深度感知網頁內容，便能構建起以“網頁內容節點”為視角的網絡世界評估體系。
[0004]對于網頁內容感知已有很多相關研宄，目前比較常用的方法是首先對網頁進行基于HTML或XML或DOM的結構化分析，然后再根據信息在網頁上的具體位置將信息從網頁中抽取出來。還有基于視覺的分塊方法，該方法采用視覺信息對網頁進行分塊，進而提取網頁內容。但是由于不同公司或機構的開發要求以及開發人員的習慣不同，不同公司間的頁面結構往往存在很大的差異，即使在網頁內容展示效果差距不大、開發語言相同的前提下，在編碼方式等方面也存在巨大差異，所以對于需要先進行頁面結構分析再進行網頁內容提取的方案，通用性較差并且對于海量網頁數據缺乏高時效性。基于視覺進行分塊的方法通常對于網頁的分塊太過硬性，靈活度較差。對于面向搜索引擎的網頁內容提取方案，多為僅提取正文及標題內容，并沒有進一步的深度分析及處理，缺乏對于網頁內容深度、全面的感知。

【發明內容】

[0005]本發明旨在至少在一定程度上解決相關技術中的技術問題之一。為此，本發明的第一方面的目的在于提出一種具有全面的、實時性高、通用性強的基于CDN的網頁內容感知系統。
[0006]本發明第二方面的目的在于提出一種基于⑶N的網頁內容感知方法。
[0007]為了實現上述目的，本發明第一方面實施例的基于⑶N的網頁內容感知系統包括數據獲取模塊、數據管理模塊、處理模塊和控制器。數據獲取模塊用于采集日志數據。。所述數據管理模塊包括第一存儲模塊，所述第一存儲模塊存儲有索引表，所述索引表包括特定互聯網內容提供商的預定URL (uniform resource locator)及預定URL對應的預定頁面結構。所述處理模塊從所述日志數據中提取出URL及相關參數，根據所述預定URL從所述URL中篩選出目的URL，并根據所述預定頁面結構對所述目的URL的頁面結構進行分析以感知所述網頁的特征詞。控制器用于控制所述數據獲取模塊采集日志數據，并控制所述處理模塊從所述日志數據中提取出URL及相關參數；所述控制器，還用于控制所述處理模塊根據所述預定URL從所述URL中篩選出目的URL，以及控制所述處理模塊根據所述預定頁面結構對所述目的URL的頁面結構進行分析以感知所述網頁的特征詞。
[0008]根據本發明實施例的基于CDN的網頁內容感知系統，通過數據獲取單元實時地獲取日志數據，處理模塊從日志數據中提取出URL及相關參數，根據預定URL從URL中篩選出目的URL，并根據預定頁面結構對目的URL的頁面結構進行分析以感知網頁的特征詞，解決了不同互聯網提供商間的頁面結構的差異化問題，通用性強，從而提高了本發明實施例的基于CDN的網頁內容感知系統的可靠性、可用性和擴展性。
[0009]在一些示例中，所述處理模塊包括預處理模塊、結構分析模塊和內容感知模塊。預處理模塊用于從所述日志數據中提取出URL及相關參數，并根據所述預定URL從所述URL中篩選出目的URL。結構分析模塊用于根據所述預定頁面結構對所述目的URL的頁面結構進行分析以獲取需要感知的內容塊。內容感知模塊用于從所述內容塊中感知出用于描述所述網頁的特征詞。
[0010]在一些示例中，所述數據管理模塊還包括:第二存儲模塊和挖掘模塊。第二存儲模塊用于存儲所述目的URL的網頁，所述處理模塊還用于控制所述第二控制器存儲所述目的URL的網頁。挖掘模塊用于從所述目的URL的網頁中挖掘出所述預定的頁面結構。
[0011 ] 在一些示例中，所述處理模塊還包括預測模塊。預測模塊用于通過對所述特征詞進行統計處理以獲取熱點內容。
[0012]在一些示例中，所述數據獲取模塊利用分布式消息隊列方式采集日志數據。
[0013]在一些示例中，所述預處理模塊基于正則表達式的方法從所述日志數據中提取出URL及相關參數。
[0014]本發明第二方面實施例的基于⑶N的網頁內容感知方法，包括以下步驟:采集日志數據；從所述日志數據中提取出URL及相關參數；根據預定URL從所述URL中篩選出目的URL,并根據預定頁面結構對所述目的URL的頁面結構進行分析以感知所述網頁的特征詞。
[0015]根據本發明實施例的基于CDN的網頁內容感知方法，從獲取的日志數據中提取出URL及相關參數，根據預定URL從URL中篩選出目的URL，并根據預定頁面結構對目的URL的頁面結構進行分析以感知網頁的特征詞，解決了不同互聯網提供商間的頁面結構的差異化問題，通用性強，從而提高了本發明實施例的基于CDN的網頁內容感知系統的可靠性、可用性和擴展性。
[0016]在一些示例中，還包括:通過對所述特征詞進行統計處理以獲取熱點內容。
[0017]在一些示例中，利用分布式消息隊列方式采集日志數據。
[0018]在一些示例中，基于正則表達式的方法從所述日志數據中提取出URL及相關參數。
[0019]本發明附加的方面和優點將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發明的實踐了解到。
【附圖說明】
[0020]圖1是根據本發明一個實施例的基于CDN的網頁內容感知系統的結構框圖；
[0021]圖2是本發明一個實施例的采集日志消息隊列的邏輯結構圖；
[0022]圖3是本發明一個實施例的處理模塊工作過程示意圖；和
[0023]圖4是根據本發明一個實施例的基于CDN的網頁內容感知方法的流程圖。
【具體實施方式】
[0024]在本發明的描述中，需要理解的是，術語“中心”、“縱向”、“橫向”、“長度”、“寬度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底” “內”、“外”、“順時針”、“逆時針”、“軸向”、“徑向”、“周向”等指示的方位或位置關系為基于附圖所示的方位或位置關系，僅是為了便于描述本發明和簡化描述，而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作，因此不能理解為對本發明的限制。
[0025]此外，術語“第一”、“第二”僅用于描述目的，而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數量。由此，限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發明的描述中，“多個”的含義是至少兩個，例如兩個，三個等，除非另有明確具體的限定。
[0026]在本發明中，除非另有明確的規定和限定，術語“安裝”、“相連”、“連接”、“固定

完整全部詳細技術資料下載(zai)

當前第1頁1 2 3 4