一種用戶上網信息處理方法及裝置的制造方法
【專利摘要】本發明實施例提供一種用戶上網信息處理方法及裝置,涉及通信領域,能夠對用戶訪問的網頁的正文內容進行分析,獲取用戶的上網行為。包括:服務器接收網關發送的數據包,數據包包括URL,URL為用戶訪問的網頁的地址;根據URL獲取URL對應的網頁的HTML源碼;解析URL對應的網頁的HTML源碼,得到URL對應的網頁的關鍵詞和正文文本;根據URL對應的網頁的關鍵詞確定URL對應的網頁的主題。用于分析用戶訪問的網頁的正文內容。
【專利說明】
一種用戶上網信息處理方法及裝置
技術領域
[0001]本發明涉及通信領域,尤其涉及一種用戶上網信息處理方法及裝置。
【背景技術】
[0002]隨著互聯網技術的發展,越來越多的用戶可以使用終端設備訪問互聯網,進行資料查詢或觀看視頻等業務。在用戶數出現迅猛的增長的同時,用戶對互聯網的要求也越來越高。隨著業務的多元化,分析用戶的群體構成及其習慣愛好等用戶上網行為,向用戶提供更具個性化的服務,已經成為一個重要的研究方向,也是網絡的規劃、設計和管理的重要依據。
[0003]現有技術中,從服務器存儲的日志中采集用戶上網信息,通過分析用戶上網信息獲取用戶上網軌跡,但日志所提供的數據有限,只能提供用戶標識、用戶IP和用戶訪問的網頁時的統一資源定位符(英文全稱:Uniform Resource Locator,英文簡稱:URL)等,并不能獲取到用戶訪問的網頁的具體內容,也就是web正文。
[0004]進一步的,根據采集到的URL將網頁進行分類。例如,采用樸素貝葉斯分類方法,使用類別概率和特征項的聯合分布概率自動推理出用戶所瀏覽的網頁的類別,在網頁分類的基礎上對用戶的上網習慣進行分析,得出用戶行為分析結果。但是,這樣也僅僅對網頁進行了分類,并沒有對用戶訪問的網頁的內容進行更深層次的分析和挖掘。
【發明內容】
[0005]本發明實施例提供一種用戶上網信息處理方法及裝置,能夠對用戶訪問的網頁的正文內容進行分析,獲取用戶的上網行為。
[0006]為達到上述目的,本發明實施例采用的技術方案是:
[0007]第一方面,提供一種用戶上網信息處理方法,包括:
[0008]服務器接收網關發送的數據包,所述數據包包括統一資源定位符URL,所述URL為用戶訪問的網頁的地址;
[0009]所述服務器根據所述URL獲取所述URL對應的網頁的超級文本標記語言HTML源碼;
[0010]解析所述URL對應的網頁的HTML源碼,得所述服務器到所述URL對應的網頁的關鍵詞和正文文本;
[0011]所述服務器根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題。
[0012]上述第一方面提供的用戶上網信息分析方法,首先,根據從網關發送來的數據包包括的URL,來獲取該URL對應的網頁的HTML源碼,然后,解析HTML源碼,根據解析的HTML源碼URL對應的網頁的關鍵詞和正文文本,根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題。從而通過提取用戶訪問的網頁的正文內容的關鍵詞對用戶訪問的網頁進行分析,確定用戶訪問的網頁的主題,獲取用戶的上網行為。
[0013]第二方面,提供一種用戶上網信息處理方法,包括:
[0014]網關獲取統一資源定位符URL,所述URL為用戶訪問的網頁的地址;
[0015]所述網關向服務器發送數據包,所述數據包包括解析標識、用戶標識、用戶IP地址、數據包的包長和所述URL。
[0016]上述第二方面提供的用戶上網信息處理方法,網關獲取URL后,向服務器發送包括該URL的數據包,使得服務器根據從網關發送來的數據包包括的URL,來獲取該URL對應的網頁的HTML源碼,然后,解析HTML源碼,根據解析的HTML源碼URL對應的網頁的關鍵詞和正文文本,根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題。從而通過提取用戶訪問的網頁的正文內容的關鍵詞對用戶訪問的網頁進行分析,確定用戶訪問的網頁的主題,獲取用戶的上網行為。
[0017]第三方面,提供一種服務器,包括:
[0018]接收單元,用于接收網關發送的數據包,所述數據包包括統一資源定位符URL,所述URL為用戶訪問的網頁的地址;
[0019]所述接收單元,還用于接收所述URL對應的網頁的超級文本標記語言HTML源碼;
[0020]處理單元,用于解析所述URL對應的網頁的HTML源碼,得到所述URL對應的網頁的關鍵詞和正文文本;
[0021]所述處理單元,用于根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題。
[0022]上述第三方面提供的服務器,首先,根據從網關發送來的數據包包括的URL,來獲取該URL對應的網頁的HTML源碼,然后,解析HTML源碼,根據解析的HTML源碼URL對應的網頁的關鍵詞和正文文本,根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題。從而通過提取用戶訪問的網頁的正文內容的關鍵詞對用戶訪問的網頁進行分析,確定用戶訪問的網頁的主題,獲取用戶的上網行為。
[0023]第四方面,提供一種網關,包括:
[0024]處理單元,用于獲取統一資源定位符URL,所述URL為用戶訪問的網頁的地址;
[0025]發送單元,用于向服務器發送數據包,所述數據包包括解析標識、用戶標識、用戶IP地址、數據包的包長和所述URL。
[0026]上述第四方面提供的網關,獲取URL后,向服務器發送包括該URL的數據包,使得服務器根據從網關發送來的數據包包括的URL,來獲取該URL對應的網頁的HTML源碼,然后,解析HTML源碼,根據解析的HTML源碼URL對應的網頁的關鍵詞和正文文本,根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題。從而通過提取用戶訪問的網頁的正文內容的關鍵詞對用戶訪問的網頁進行分析,確定用戶訪問的網頁的主題,獲取用戶的上網行為。
[0027]需要說明的是,上述第三方面和第四方面所述功能模塊可以通過硬件實現,也可以通過硬件執行相應的軟件實現。所述硬件或軟件包括一個或多個與上述功能相對應的模塊。例如,通信接口,用于完成接收單元和發送單元的功能,處理器,用于完成處理單元的功能,存儲器,用于存儲音量閾值。處理器、通信接口和存儲器通過總線連接并完成相互間的通信。具體的,可以參考第一方面提供的用戶上網信息處理方法中服務器的行為的功能,以及第二方面提供的用戶上網信息處理方法中網關的行為的功能。
[0028]本發明中,服務器和網關的名字對設備本身不構成限定,在實際實現中,這些設備可以以其他名稱出現。只要各個設備的功能和本發明類似,屬于本發明權利要求及其等同技術的范圍之內。
[0029]本發明的這些方面或其他方面在以下實施例的描述中會更加簡明易懂。
【附圖說明】
[0030]為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0031 ]圖1為本發明實施例提供的一種用戶上網信息處理方法流程圖;
[0032]圖2為本發明實施例提供的另一種用戶上網信息處理方法流程圖;
[0033]圖3為本發明實施例提供的又一種用戶上網信息處理方法流程圖;
[0034]圖4為本發明實施例提供的一種服務器結構示意圖;
[0035]圖5為本發明實施例提供的一種網關結構示意圖;
[0036]圖6為本發明實施例提供的一種計算機設備的結構示意圖。
【具體實施方式】
[0037]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0038]本發明的基本原理在于:根據從網關發送來的數據包包括的URL,來獲取該URL對應的網頁的HTML源碼,然后,解析HTML源碼,根據解析的HTML源碼URL對應的網頁的關鍵詞和正文文本,根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題。
[0039]實施例1
[0040]本發明實施例提供一種用戶上網信息處理方法,如圖1所示,包括:
[0041 ] 步驟101、網關獲取URL。
[0042]URL為用戶訪問的網頁的地址。URL對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。基本URL包含協議(或模式)、服務器名稱(或IP地址)、路徑和文件名,例如,協議://授權/路徑?查詢。模式或協議規定瀏覽器如何處理將要打開的文件。最常用的模式是超級文本標記語言(英文全稱:Hyper Text MarkupLanguage,英文簡稱:HTML),這個協議可以用來訪問網絡。本發明即使用HTML協議。
[0043]用戶通過終端設備進行上網瀏覽網頁,終端設備通常連接網關,用戶訪問的網頁的網址(URL)通過網關向服務器發出請求,服務器響應所述請求后,然后,用戶的終端設備接收用戶訪問的網頁的頁面下載響應。網關即可以是家庭網關,家庭網關可以作為所有外部接入網連接到家庭內部,同時將家庭內部網絡連接到外部的一種物理接口。
[0044]通常,網關有路由器和交換機的功能,在加載有Openwrt系統的路由器功能的網關上配置Privoxy代理功能和相應文件,pr ivoxy會重定向所有要進行超文本傳輸協議(英文全稱:HyperText Transfer Protocol,英文簡稱:HTTP)服務請求到Privoxy代理,使終端設備向遠程服務器發出的每一個請求都經過代理功能,從而保證從遠程服務器返回的HTML源碼是經過Privoxy處理后再發給終端設備的。從遠程服務器返回的每個HTML文件經過Pr ivoxy代理處理后都嵌入特定JavaScr ipt腳本。用戶瀏覽器執行JavaScr ipt腳本,將用戶實時訪問的URL傳送到網關。
[0045]步驟102、網關向服務器發送數據包。
[0046]所述數據包包括解析標識、用戶標識、用戶IP地址和所述URL。需要說明的是,解析標識可以用O或I表示,當解析標識為O時,用于指示服務器不解析數據包,解析標識為I時,用于指示服務器解析數據包。
[0047]步驟103、服務器接收網關發送的數據包。
[0048]所述數據包包括解析標識、用戶標識、用戶IP地址和所述URL。
[0049]步驟104、服務器根據URL獲取所述URL對應的網頁的HTML源碼。
[0050]服務器從數據包中獲取URL,根據URL來找到Web文本,讀取Web文本的內容。具體的,通過HTTP協議的GET方法向提供Web文本的網絡服務器請求URL對應的網頁的HTML源碼。GET是HTTP協議中一種向服務器發送客戶端請求的方法,發出請求前按規定填好請求的主機名、協議版本等內容,服務器便返回請求的內容。
[0051 ] 步驟105、服務器解析URL對應的網頁的HTML源碼,得到URL對應的網頁的關鍵詞和正文文本。
[0052 ] 步驟106、服務器根據URL對應的網頁的關鍵詞確定URL對應的網頁的主題。
[0053]這樣一來,首先,根據從網關發送來的數據包包括的URL,來獲取該URL對應的網頁的HTML源碼,然后,解析HTML源碼,根據解析的HTML源碼URL對應的網頁的關鍵詞和正文文本,根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題。從而通過提取用戶訪問的網頁的正文內容的關鍵詞對用戶訪問的網頁進行分析,確定用戶訪問的網頁的主題,獲取用戶的上網行為。
[0054]具體的,如圖2所示,步驟105中服務器解析URL對應的網頁的HTML源碼,得到URL對應的網頁的關鍵詞和正文文本的詳細步驟如下所述:
[0055]步驟1051、服務器解析URL對應的網頁的HTML源碼,獲取所述URL對應的網頁的HTML源碼的正文文本。
[0056]Web文本包含了大量的HTML標記、文本、圖像、客戶腳本,在提取URL對應的網頁的HTML源碼的同時應對Web文本進行預處理,除掉的HTML標記、圖像、客戶腳本,最后只留下純凈的文本文字。具體的,可以對HTML源碼進行解析,得到處理后的utf-8字符集,對處理后的utf-8字符集采用基于文本密度分布函數的多特征算法提取正文文本。
[0057]步驟1052、服務器根據詞頻位置權重公式和TF-1DF算法,從所述URL對應的網頁的HTML源碼的正文文本中獲取所述URL對應的網頁的HTML源碼的關鍵詞。
[0058]所述詞頻位置權重公式為:
[0059]f (w) =a*fr(w)+b*fk(w)+c*ft(w)+d*fc(w)
[0060]其中,a表示URL,b表示URL對應的網頁的關鍵詞節點,c表示URL對應的網頁的標題,d表示正文,且a>b>c>d,fr(w)、fk(w)、ft(w)和fc(w)分別表示文字w在a、b、c和d中出現的頻率。
[0061]然后,采用TF-1DF算法計算出每個詞的權重,篩選出排序靠前的詞作為關鍵詞。需要說明的是,關鍵詞沒有個數要求,根據需要選擇個數,可以是3個或5個。
[0062]TF-1DF(term frequency-1nverse document frequency)算法是一種用于信息檢索與數據挖掘的常用加權技術,是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。
[0063]示例的,一篇文件的總詞語數是100個,而詞語“母牛”出現了3次,那么“母牛”一詞在該文件中的詞頻就是3/100 = 0.03。一個計算文件頻率(IDF)的方法是測定有多少份文件出現過“母牛”一詞,然后除以文件集里包含的文件總數。所以,如果“母牛”一詞在I,000份文件出現過,而文件總數是10,000,000份的話,其逆向文件頻率就是1呢(10,000,000/1,000) =4。最后的 TF-1DF 的分數為 0.03*4 = 0.12。
[0064]步驟106中服務器根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題的詳細步驟如下所述:
[0065]步驟1061、服務器通過VSM,計算所述URL對應的網頁的關鍵詞向量與主題樣本中類向量間的歐式距離。
[0066]VSM是一個應用于信息過濾,信息擷取,索引以及評估相關性的代數模型。關鍵詞向量可以是關鍵詞的權重。主題樣本中類向量可以是主題樣本中的關鍵詞向量。服務器之前已經訓練出了各個主題的類向量并保存在數據庫中,所謂類向量就是每個主題大類下的各個特征詞及對應的權重值。如經濟主題的類向量:財經(0.043)、股票(0.036)、金融(0.021)、股市(0.016)。
[0067]進一步的,服務器還可以統計關鍵詞的詞性。例如,服務器將關鍵詞歸類為名詞、形容詞以及動詞,進行情感詞典查閱后統計各詞情感極性。例如,可以采用詞性加權公式Dw=dw*fw計算各詞情感極性值,其中,dw表示單詞w的情感極性值,fw表示由詞頻位置權重公式計算得到的位置加權詞頻。根據情感極性值與預設閾值比較,得出情感傾向判斷,偏離事先設定的閾值越大說明該web情感極端。情感詞典可以是中國臺灣大學NTUSD情感極性詞典,分為正面和負面情感詞集,評價詞集和程度級別詞集。服務器預先存儲在服務器數據庫中。例如,今天天氣非常好。“非常”屬于第一級別程度,“好”出現在正面評價集合中。
[0068]步驟1062、服務器將與所述URL對應的網頁的關鍵詞向量的歐式距離最短的主題向量的主題,確定為所述URL對應的網頁的主題。
[0069]進一步的,如圖3所示,在網關向服務器發送數據包,例如,步驟102之前,所述方法還包括:
[0070 ] 步驟107、網關判斷該網關是否存儲該URL。
[0071 ]當所述網關判斷未存儲所述URL,執行步驟108。
[0072]當所述網關判斷已存儲所述URL,執行步驟102。
[0073]步驟108、網關獲取URL的數據包。執行步驟102。
[0074]網關可以采用snort抓包程序獲取所述URL的數據包,可以獲取到數據包的包長,網關向服務器發送數據包的包括包長。
[0075]服務器根據所述URL獲取所述URL對應的網頁的超級文本標記語言HTML源碼,例如步驟104之前,所述方法還包括:
[0076]步驟109、服務器根據解析標識判斷是否解析數據包。
[0077]若解析標識為I,服務器判斷解析數據包,執行步驟104和步驟110,即服務器確定URL對應的網頁的主題和類型,S卩服務器獲取到的數據包是沒有經過解析的數據包,此時可以采用一個線程確定URL對應的網頁的主題,采用另一個線程確定URL對應的網頁的類型。
[0078]若解析標識為0,服務器判斷不解析數據包,說明服務器已經解析過數據包,保存了URL對應的網頁的主題,此時只需要采用一個線程確定URL對應的網頁的類型,直接執行步驟110。
[0079]步驟110、服務器根據用戶標識和用戶IP地址獲取用戶標識對應的上行數據包和下行數據包。
[0080]所述上行數據包為所述網關發送至所述服務器的數據包,所述下行數據包為所述服務器發送至所述網關的數據包。
[0081]步驟111、服務器根據上行數據包和下行數據包,判斷流量比小于或等于流量閾值時,確定數據包的內容為文字類型。
[0082]步驟112、服務器根據上行數據包和下行數據包,判斷流量比大于流量閾值時,確定數據包的內容為視頻類型。
[0083]流量比為單位時間內下行數據包的包長與上行數據包的包長之比。服務器可以啟動流量統計定時器,統計單位時間內下行數據包的包長與上行數據包的包長。
[0084]需要說明的是,在確定數據包的內容為文字類型時,需要執行步驟104。在確定數據包的內容為視頻類型時,無需執行步驟104。
[0085]步驟113、服務器保存URL對應的網頁的主題和類型。
[0086]需要說明的是,服務器可以以結構化保存URL對應的網頁的主題和類型。
[0087]所謂結構化就是將提取到的所有信息按照一定的格式保存到數據庫。
[0088]示例的,可以按下面格式保存:
[0089]用戶標識:005056C0
[0090]瀏覽網址://www.sdjfkjs.com
[0091]網站關鍵詞:籃球、后衛、冠軍
[0092]網站正文:xxxxxxx
[0093]網站主題:體育類
[0094]網站情感:積極正面
[0095]步驟114、服務器向網關發送URL對應的網頁的主題和類型。
[0096]步驟115、網關接收服務器發送的URL對應的網頁的主題和類型。
[0097]網關更新所述URL對應的網頁的主題和類型。
[0098]實施例2
[0099]本發明實施例提供的一種服務器20,如圖4所示,包括:
[0100]接收單元201,用于接收網關發送的數據包,所述數據包包括統一資源定位符URL,所述URL為用戶訪問的網頁的地址;
[0101]所述接收單元201,還用于接收所述URL對應的網頁的超級文本標記語言HTML源碼;
[0102]處理單元202,用于解析所述URL對應的網頁的HTML源碼,得到所述URL對應的網頁的關鍵詞和正文文本;
[0103]所述處理單元202,用于根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題。
[0104]這樣一來,首先,根據從網關發送來的數據包包括的URL,來獲取該URL對應的網頁的HTML源碼,然后,解析HTML源碼,根據解析的HTML源碼URL對應的網頁的關鍵詞和正文文本,根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題。從而通過提取用戶訪問的網頁的正文內容的關鍵詞對用戶訪問的網頁進行分析,確定用戶訪問的網頁的主題,獲取用戶的上網行為。
[0105]實施例3
[0106]本發明實施例提供的一種網關30,如圖5所示,包括:
[0107]處理單元301,用于獲取統一資源定位符URL,所述URL為用戶訪問的網頁的地址;
[0108]發送單元302,用于向服務器發送數據包,所述數據包包括解析標識、用戶標識、用戶IP地址、數據包的包長和所述URL。
[0109]這樣一來,網關獲取URL后,向服務器發送包括該URL的數據包,使得服務器根據從網關發送來的數據包包括的URL,來獲取該URL對應的網頁的HTML源碼,然后,解析HTML源碼,根據解析的HTML源碼URL對應的網頁的關鍵詞和正文文本,根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題。從而通過提取用戶訪問的網頁的正文內容的關鍵詞對用戶訪問的網頁進行分析,確定用戶訪問的網頁的主題,獲取用戶的上網行為。
[0110]本發明實施例提供的一種通信系統,包括:如實施例2所述的服務器和實施例3所述的網關。
[0111]需要說明的是,圖6所示為本發明實施例提供的計算機設備40的結構示意圖。計算機設備40包括至少一個處理器401,通信總線402,存儲器403以及至少一個通信接口 404。具體的,計算機設備40的結構可以是實施例2所述的服務器的結構或實施例3所述的網關的結構。
[0112]處理器401可以是一個處理器,也可以是多個處理元件的統稱,用于完成處理單元所執行的方案。例如,處理器401可以是一個通用中央處理器(英文全稱:CentralProcessing Unit,英文簡稱:CPU),也可以是特定應用集成電路(英文全稱:applicat1n-specific integrated circuit,英文簡稱:ASIC),或一個或多個用于控制本發明方案程序執行的集成電路,例如:一個或多個微處理器(英文全稱:digital signal processor,英文簡稱:DSP),或,一個或者多個現場可編程門陣列(英文全稱:Field Programmable GateArray,英文簡稱:FPGA)。
[0113]在具體實現中,作為一種實施例,處理器401可以包括一個或多個CPU,例如圖6中的CPUO和CPUl。
[0114]在具體實現中,作為一種實施例,服務器40可以包括多個處理器,例如圖6中的處理器401和處理器405。這些處理器中的每一個可以是一個單核(single-CPU)處理器,也可以是一個多核(mult1-CPU)處理器。這里的處理器可以指一個或多個設備、電路、和/或用于處理數據(例如計算機程序指令)的處理核。
[0115]通信總線402可以是工業標準體系結構(英文全稱:Industry StandardArchitecture,英文簡稱:ISA)總線、外部設備互連(英文全稱:Peripheral Component,英文簡稱:PCI)總線或擴展工業標準體系結構(英文全稱:Extended Industry StandardArchitecture,英文簡稱:EISA)總線等。該總線可以分為地址總線、數據總線、控制總線等。為便于表示,圖4中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。
[0116]存儲器403可以是只讀存儲器(英文全稱:read-only memory,英文簡稱:ROM)或可存儲靜態信息和指令的其他類型的靜態存儲設備,隨機存取存儲器(英文全稱:randomaccess memory,英文簡稱:RAM)或者可存儲信息和指令的其他類型的動態存儲設備,也可以是電可擦可編程只讀存儲器(英文全稱:Electrically Erasable Programmable Read-Only Memory,英文簡稱:EEPROM)、磁盤存儲介質或者其他磁存儲設備、或者能夠用于攜帶或存儲具有指令或數據結構形式的期望的程序代碼并能夠由計算機存取的任何其他介質,但不限于此。存儲器可以是獨立存在,通過總線與處理器相連接。存儲器也可以和處理器集成在一起。
[0117]其中,所述存儲器403用于存儲執行本發明方案的應用程序代碼,并由處理器401來控制執行。所述處理器401用于執行所述存儲器403中存儲的應用程序代碼。
[0118]所述通信接口404,使用任何收發器一類的裝置,用于與其他設備或通信網絡通信,如以太網,無線接入網(RAN),無線局域網(英文全稱:Wireless Local Area Networks,英文簡稱:WLAN)等。通信接口 404可以包括接收單元實現接收功能,以及發送單元實現發送功能。
[0119]所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
[0120]本領域普通技術人員可以理解:實現上述方法實施例的全部或部分步驟可以通過程序指令相關的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質中,該程序在執行時,執行包括上述方法實施例的步驟;而前述的存儲介質包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質。
[0121]以上所述,僅為本發明的【具體實施方式】,但本發明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發明揭露的技術范圍內,可輕易想到變化或替換,都應涵蓋在本發明的保護范圍之內。因此,本發明的保護范圍應以所述權利要求的保護范圍為準。
【主權項】
1.一種用戶上網信息處理方法,其特征在于,包括: 服務器接收網關發送的數據包,所述數據包包括統一資源定位符URL; 所述服務器接收所述URL對應的網頁的超級文本標記語言HTML源碼; 所述服務器解析所述URL對應的網頁的HTML源碼,得到所述URL對應的網頁的關鍵詞和正文文本; 所述服務器根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題。2.根據權利要求1所述的方法,其特征在于,所述服務器解析所述URL對應的網頁的HTML源碼,得到所述URL對應的網頁的關鍵詞和正文文本包括: 所述服務器解析所述URL對應的網頁的HTML源碼,獲取所述URL對應的網頁的HTML源碼的正文文本; 所述服務器根據詞頻位置權重公式和TF-1DF算法,從所述URL對應的網頁的HTML源碼的正文文本中獲取所述URL對應的網頁的HTML源碼的關鍵詞; 所述詞頻位置權重公式為:f (w) =a*fr(w)+b*fk(w)+C*ft(w)+d*fc(w) 其中,a表示URL,b表示URL對應的網頁的關鍵詞節點,c表示URL對應的網頁的標題,d表示正文,且8>13>0>(1,;1^(?)、€1^)、;1^(?)和;1^(?)分別表示文字¥在3、13、(3和(1中出現的頻率。3.根據權利要求2所述的方法,其特征在于,所述服務器根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題包括: 所述服務器通過空間向量模型VSM,計算所述URL對應的網頁的關鍵詞向量與主題樣本中類向量間的歐式距離; 所述服務器將與所述URL對應的網頁的關鍵詞向量的歐式距離最短的類向量的主題,確定為所述URL對應的網頁的主題。4.根據權利要求3所述的方法,其特征在于,所述數據包還包括用戶標識、用戶IP地址和數據包的包長,在所述服務器根據所述URL獲取所述URL對應的網頁的超級文本標記語言HTML源碼之前,所述方法還包括: 所述服務器根據所述用戶標識和所述用戶IP地址獲取所述用戶標識對應的上行數據包和下行數據包,所述上行數據包為所述網關發送至所述服務器的數據包,所述下行數據包為所述服務器發送至所述網關的數據包; 所述服務器根據所述上行數據包和所述下行數據包,判斷流量比小于或等于流量閾值時,確定所述數據包的內容為文字類型,所述流量比為單位時間內下行數據包的包長與上行數據包的包長之比。5.根據權利要求4所述的方法,其特征在于,所述數據包還包括解析標識,在所述服務器根據所述用戶標識和所述用戶IP地址獲取所述用戶標識對應的上行數據包和下行數據包之前,所述方法還包括: 所述服務器根據所述解析標識判斷解析所述數據包,確定所述URL對應的網頁的主題和類型。6.一種用戶上網信息處理方法,其特征在于,包括: 網關獲取統一資源定位符URL; 所述網關向服務器發送數據包,所述數據包包括解析標識、用戶標識、用戶IP地址、數據包的包長和所述URL。7.根據權利要求6所述的方法,其特征在于,包括: 當所述網關判斷已存儲所述URL,所述解析標識用于指示所述服務器不解析所述數據包; 當所述網關判斷未存儲所述URL,所述解析標識用于指示所述服務器解析所述數據包。8.一種服務器,其特征在于,包括: 接收單元,用于接收網關發送的數據包,所述數據包包括統一資源定位符URL,所述URL為用戶訪問的網頁的地址; 所述接收單元,還用于接收所述URL對應的網頁的超級文本標記語言HTML源碼; 處理單元,用于解析所述URL對應的網頁的HTML源碼,得到所述URL對應的網頁的關鍵詞和正文文本; 所述處理單元,用于根據所述URL對應的網頁的關鍵詞確定所述URL對應的網頁的主題。9.根據權利要求8所述的服務器,其特征在于,所述處理單元,具體用于: 解析所述URL對應的網頁的HTML源碼,獲取所述URL對應的網頁的HTML源碼的正文文本; 根據詞頻位置權重公式和TF-1DF算法,從所述URL對應的網頁的HTML源碼的正文文本中獲取所述URL對應的網頁的HTML源碼的關鍵詞; 所述詞頻位置權重公式為:f (w) =a*fr(w)+b*fk(w)+C*ft(w)+d*fc(w) 其中,a表示URL,b表示URL對應的網頁的關鍵詞節點,c表示URL對應的網頁的標題,d表示正文,且8>13>0>(1,;1^(?)、€1^)、;1^(?)和;1^(?)分別表示文字¥在3、13、(3和(1中出現的頻率。10.根據權利要求9所述的服務器,其特征在于,所述處理單元,具體用于: 通過空間向量模型VSM,計算所述URL對應的網頁的關鍵詞向量與主題樣本中類向量間的歐式距離; 將與所述URL對應的網頁的關鍵詞向量的歐式距離最短的類向量的主題,確定為所述URL對應的網頁的主題。11.根據權利要求10所述的服務器,其特征在于,所述數據包還包括用戶標識、用戶IP地址和數據包的包長, 所述接收單元,根據所述用戶標識和所述用戶IP地址接收所述用戶標識對應的上行數據包,所述上行數據包為所述網關發送至所述服務器的數據包; 所述處理單元,還用于:根據所述用戶標識和所述用戶IP地址獲取所述用戶標識對應的下行數據包,所述下行數據包為所述服務器發送至所述網關的數據包; 所述處理單元,還用于根據所述上行數據包和所述下行數據包,判斷流量比小于或等于流量閾值時,確定所述數據包的內容為文字類型,所述流量比為單位時間內下行數據包的包長與上行數據包的包長之比。12.—種網關,其特征在于,包括: 處理單元,用于獲取統一資源定位符URL,所述URL為用戶訪問的網頁的地址; 發送單元,用于向服務器發送數據包,所述數據包包括解析標識、用戶標識、用戶IP地 址、數據包的包長和所述URL。
【文檔編號】G06F17/30GK105824884SQ201610136426
【公開日】2016年8月3日
【申請日】2016年3月10日
【發明人】彭壽鈞, 鄭麗娜, 王鵬達, 唐恒頌
【申請人】海信集團有限公司