專利名稱:在搜索引擎中處理懸空網頁節點的方法和系統的制作方法
技術領域:
本發明涉及搜索引擎技術,特別涉及一種在搜索引擎中處理懸空網頁節點的方法和系統。
背景技術:
隨著因特網的迅猛發展,搜索引擎提供的導航服務已經成為互聯網上非常重要的網絡服務。搜索引擎為用戶提供信息“檢索”服務,它使用搜索程序把因特網上的所有信息歸類以幫助用戶在海量的互聯網信息中搜尋其所需要的信息。搜索引擎的原理主要包括三步1)從互聯網上抓取網頁(crawler階段,爬取階段),2)建立索引數據庫,3)在索引數據庫中搜索排序。
其中,對搜索結果的排序要用到網頁等級值(pagerank),Pagerank用于指示對應網頁的鏈接廣泛度(Link Popularity),與用戶的搜索要求相匹配的網頁的pagerank越大,其在搜索結果頁面的排序往往越靠前。PageRank依賴于唯一的網絡法則,就是用大量的鏈接結構為依據為網頁計算得分。從本質上來說,一個從A頁到B頁的鏈接a,算A投B一票。高質量的網站會得到較高PageRank。
但是,目前網絡中存在大量的懸空網頁節點(Dangling節點),這樣的節點約占整個網頁數目的6%左右,Dangling節點的存在會影響pagerank的有效計算。Dangling節點指那些只有入鏈、沒有出鏈(向外鏈接)的網頁(節點),例如一些非常有價值的doc文檔、pdf文檔等都是Dangling節點。Dangling節點的存在使得搜索引擎中pagerank的計算出現了偏差。如果不處理Dangling節點,一方面導致pagerank的計算不能有效地進行,另一方面,可能導致具有Dangling節點的有價值的網頁的pagerank降低,影響網頁搜索排名,進而影響搜索結果的質量。
目前對于dangling節點的處理方法是在網絡中增加一個虛擬節點,所有的dangling節點都有一個到該虛擬節點的虛擬出鏈,該虛擬節點有到每個非dangling節點的虛擬出鏈,這樣,整個網頁就不存在dangling節點。其缺陷是①對dangling節點pagerank的分配不合理,從而影響了網頁搜索排序;②增加了過多的虛擬鏈接,影響pagerank的計算速度。
發明內容
本發明的目的在于提供一種在搜索引擎中處理懸空網頁節點的方法和系統,可以克服現有技術的缺陷。
本發明的技術方案是在搜索引擎中處理懸空網頁節點的方法,包括以下步驟A1,從互聯網上獲取網頁的同時獲取所述網頁的從屬網站信息;A2,判斷所述網頁是否為懸空網頁,如果是則在計算所述網頁的等級時執行步驟B1;B1,為所述懸空網頁增加到至少一個非懸空網頁的虛擬出鏈;所述非懸空網頁與所述懸空網頁從屬于同一個網站。
作為優選,步驟A2中,判斷所述網頁為懸空網頁時,為所述網頁做懸空網頁標記。
作為優選,步驟A2中,判斷所述網頁為非懸空網頁時,為所述網頁做非懸空網頁標記。
本發明還提供了一種在搜索引擎中處理懸空網頁節點的系統,包括網頁抓取模塊,用于從互聯網上獲取網頁,同時獲得所述網頁的來源網站信息;分類模塊,用于將所述網頁分類為懸空網頁或非懸空網頁;虛擬鏈接建立模塊,用于為所述懸空網頁建立到至少一個非懸空網頁的虛擬出鏈;且所述非懸空網頁與所述懸空網頁從屬于一個網站。
作為優選,所述系統還包括存儲模塊,用于存儲所述網頁抓取模塊獲得的網頁和其來源網站信息。
作為優選,所述分類模塊還用于將分類為懸空網頁的網頁做懸空網頁標記,并保存。
作為優選,所述分類模塊在判斷所述網頁不是懸空網頁時,也為所述網頁做標記。
本發明的有益效果在于(1)通過為每個懸空網頁節點增加到其同屬站點的虛擬出鏈(站內虛擬鏈接),使得在pagerank計算中不存在dangling節點,有利于pagerank的計算;(2)增加站內虛擬鏈接符合pagerank的思想,使得dangling節點的pagerank計算合理化,使網頁搜索排序更加理想,提高搜索引擎搜索結果的質量。
圖1是本發明在搜索引擎中處理懸空網頁節點的系統的結構圖;圖2是本發明較佳實施例中在搜索引擎中處理懸空網頁節點的方法的流程圖;圖3是本發明另一實施例中在搜索引擎中處理懸空網頁節點的方法的流程圖。
具體實施例方式
下面根據附圖和具體實施例對本發明作進一步闡述。
如圖1所示,一種在搜索引擎中處理懸空網頁節點(Dangling節點)的系統10包括網頁抓取模塊100、分類模塊101、存儲模塊102和虛擬鏈接建立模塊103。
其中,網頁抓取模塊100負責自動從互聯網獲取網頁和對應網頁的從屬網站信息,并將獲取到的信息發送到分類模塊101(或同時保存在存儲模塊102中)。一般的做法是網頁抓取模塊100通過能夠從互聯網上自動收集網頁的網絡蜘蛛程序,自動訪問互聯網,并沿著任何網頁中的所有URL(統一資源定位器)爬到其它網頁,重復這過程,并把爬過的所有網頁收集到存儲模塊102中。可通過網頁的URL和內部結構信息知道該網頁屬于哪個站點,從而得知哪些網頁屬于同一個站點。一般搜索引擎中的自動信息搜集功能分兩種,一種是定期搜索,即每隔一段時間(比如28天),網頁抓取模塊100主動派出“蜘蛛”程序,對一定IP地址范圍內的互聯網站進行檢索,一旦發現新的網站,“蜘蛛”程序會自動提取網站的信息和網址加入存儲模塊102;另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,搜索引擎的網頁抓取模塊100會在一定時間內(2天到數月不等)定期對應網站派出“蜘蛛”程序,掃描網站并將有關信息存入存儲模塊102。
分類模塊101負責將網頁抓取模塊100獲得的網頁分為Dangling網頁和非Dangling網頁,并分別標以不同的標記,最后將做了標記的網頁及其來源網站信息保存到存儲模塊102中。分類模塊101可通過對網頁的源代碼進行分析以判斷對應網頁是否有向外鏈接來進行區分。本發明的其它實施例中,可只對Dangling網頁作標記,不對非Dangling網頁作標記。
虛擬鏈接建立模塊103負責在接收到計算Dangling網頁pagerank的命令后,為對應Dangling網頁建立到一個到非Dangling網頁的虛擬出鏈,且該非Dangling網頁與該Dangling網頁從屬于一個網站。虛擬鏈接建立模塊103可通過查詢存儲模塊102以獲得上述非Dangling網頁。本發明的其它實施例中,可為對應Dangling網頁建立到其同屬站點的兩個或兩個以上的非Dangling網頁的虛擬出鏈。這樣,在進行pagerank計算時就不存在Dangling網頁節點了。
由于從網頁A導向網頁B的鏈接被看作是頁面A對頁面B的支持投票,搜索引擎根據這個投票數來判斷頁面的重要性。如果一個網頁A是dangling節點,而網頁B,C,D與網頁A是同屬一個站點的三個網頁,那么增加網頁A到網頁B,網頁A到網頁C,網頁A到網頁D的三個虛擬鏈接并不影響pagerank的計算——因為網頁A,B,C,D屬于同一個站點,A給B,C,D的“投票”是理所當然的。正如為www.sky.com的某個網頁A增加虛擬鏈接鏈向www.sky.com的某個網頁B,是非常符合現有搜索引擎的思想的。且,增加的虛擬鏈接的數量非常有限,有效地利用了Web所擁有的龐大鏈接構造的特性。
綜上所述,如圖2所示,本發明一個實施例中,在搜索引擎中處理懸空網頁節點的方法包括以下步驟步驟S1,從互聯網上獲取網頁的同時獲取對應網頁的從屬網站信息。
步驟S2,判斷獲得的網頁是否為Dangling網頁,對Dangling網頁和非Dangling網頁分別標以不同的標記,并保存。
步驟S3,在計算Dangling網頁的等級(pagerank)前在存儲模塊中搜索,獲得與該Dangling網頁從屬于同一個網站的至少一個非Dangling網頁,并為該Dangling網頁增加到上述非Dangling網頁的虛擬出鏈。
如圖3所示,本發明另一個實施例中,在搜索引擎中處理懸空網頁節點的方法包括以下步驟步驟S21,從互聯網上獲取網頁的同時獲取對應網頁的從屬網站信息,并保存。
步驟S22,在計算網頁的等級(pagerank)時,判斷該網頁是否為Dangling網頁,如果是執行步驟S23,否則執行步驟S25。
步驟S23,從存儲模塊中搜索,獲得與該Dangling網頁從屬于同一個網站的至少一個非Dangling網頁。
步驟S24,為該Dangling網頁增加到上述非Dangling網頁的虛擬出鏈。
步驟S25,計算該網頁的等級。
以上所述僅為本發明的優選實施例而已,并不用于限制本發明,對于本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的權利要求范圍之內。
權利要求
1.在搜索引擎中處理懸空網頁節點的方法,其特征在于,包括以下步驟A1,從互聯網上獲取網頁的同時獲取所述網頁的從屬網站信息;A2,判斷所述網頁是否為懸空網頁,如果是則在計算所述網頁的等級時執行步驟B1;B1,為所述懸空網頁增加到至少一個非懸空網頁的虛擬出鏈;所述非懸空網頁與所述懸空網頁從屬于同一個網站。
2.根據權利要求1所述的在搜索引擎中處理懸空網頁節點的方法,其特征在于步驟A2中,判斷所述網頁為懸空網頁時,為所述網頁做懸空網頁標記。
3.根據權利要求1或2所述的在搜索引擎中處理懸空網頁節點的方法,其特征在于步驟A2中,判斷所述網頁為非懸空網頁時,為所述網頁做非懸空網頁標記。
4.在搜索引擎中處理懸空網頁節點的系統,其特征在于,包括網頁抓取模塊,用于從互聯網上獲取網頁,同時獲得所述網頁的來源網站信息;分類模塊,用于將所述網頁分類為懸空網頁或非懸空網頁;虛擬鏈接建立模塊,用于為所述懸空網頁建立到至少一個非懸空網頁的虛擬出鏈;且所述非懸空網頁與所述懸空網頁從屬于一個網站。
5.根據權利要求4所述的在搜索引擎中處理懸空網頁節點的系統,其特征在于所述系統還包括存儲模塊,用于存儲所述網頁抓取模塊獲得的網頁和其來源網站信息。
6.根據權利要求4或5所述的在搜索引擎中處理懸空網頁節點的系統,其特征在于所述分類模塊還用于將分類為懸空網頁的網頁做懸空網頁標記,并保存。
7.根據權利要求6所述的在搜索引擎中處理懸空網頁節點的系統,其特征在于所述分類模塊在判斷所述網頁不是懸空網頁時,也為所述網頁做標記。
全文摘要
本發明公開了一種在搜索引擎中處理懸空網頁節點的方法,包括步驟從互聯網上獲取網頁的同時獲取所述網頁的從屬網站信息;判斷所述網頁是否為懸空網頁,如果是則在計算所述網頁的等級時執行步驟為所述懸空網頁增加到至少一個非懸空網頁的虛擬出鏈;該非懸空網頁與所述懸空網頁從屬于同一個網站。本發明還公開了一種在搜索引擎中處理懸空網頁節點的系統。本發明通過為每個懸空網頁節點增加其站內虛擬鏈接,有利于pagerank的計算,使懸空節點的pagerank計算合理化,提高搜索引擎搜索結果的質量。
文檔編號G06F17/30GK101079058SQ20071007359
公開日2007年11月28日 申請日期2007年3月21日 優先權日2007年3月21日
發明者文勖 申請人:騰訊科技(深圳)有限公司