專利名稱::網頁信息查詢方法及其系統的制作方法
技術領域:
:本發明涉及計算機的信息檢測領域,尤其涉及網頁信息查詢方法及其系統。
背景技術:
:隨著網絡信息大量增長,造成了用戶査找信息的困難。搜索引擎在人們的生活中起著越來越多的作用,搜索引擎通過計算網頁和査詢詞之間相關性向用戶返回與其査詢相關的網頁。但是由于信息的過于豐富,即使去除掉不相關的信息,對于用戶而言,同樣是龐大的數據資料。另一方面,用戶輸入查詢往往較短,背后可能隱含多種不同意圖。例如,用戶的目的是得到中科院首頁的鏈接,或解中科院的相關新聞或信息,二者均可通過輸入查詢詞"中科院"得到。現有技術中的搜索引擎僅按照各網頁與查詢的相似度大小把眾多相關網頁放在一個單一的列表中,這種單一的排序方式無法體現一個查詢所對應的各種不同意圖,對于用戶的每次有針對性的搜索并不能提供更多幫助。用戶的有針對性的搜索為用戶査詢的目的,稱為用戶意圖。現實搜索引擎日志的統計結果顯示,用戶查詢通常由兩三個詞組成,查詢平均長度不超過三個詞。因此,同一查詢背后可能隱含著多種意圖,不同用戶搜索目的不同,甚至同一個用戶在不同時間輸入同一個搜索詞而查詢的目的也不相同。因此,現有技術的檢索方法具有兩個問題第一,返回結果沒有針對性,體現各種用戶意圖的結果混雜在一起,對用戶查找自己所需信息造成困難;第二,當一個査詢隱含多種用戶意圖時,現有技術的排序算法使某些非主流意圖對應的結果顯示過于滯后,導致某些用戶找不到需要的查詢結果,并影響具有其他用戶意圖的用戶全面了解信息。本發明涉及相關的現有技術中概念包括特征選擇、特征提取、文本分類。8特征選擇,在n個特征中選擇m個特征。現有技術中的算法多是通過計算特征之間影響度進行特征的取舍,而且也可根據影響度對特征賦予相對應的權重。特征提取,是將n個特征進行變換形成m個特征。特征詞為特征中的一種形式,例如存在一個詞庫,詞庫中共有n個詞,該n個詞為最初的n個特征詞。存在一個文本庫,共有k篇文本,每個文本用一個n維向量表示,向量中的每一位代表詞庫中對應的詞是否在文本中出現,由此獲得一個nXk維的矩陣,然后通過數學方法奇異值分解方法(SingularValueDecomposition,簡稱SVD)分解變換矩陣最終得到mXk的矩陣,因而獲得的m個特征詞。詞頻也是一種特征,是指現有文檔集合個數為N,一個詞出現的文檔個數為M,則M/N便是詞頻。文本分類,將現有文本分到已確定的類別中。現有技術中實現文本分類的算法包括投票機制、決策樹、支持向量機、神經網絡等。投票機制是指現有多個分類器,每個分類器判斷出來一個結果,最終選擇結果最多的那個類別。決策樹是指將文本的特征按照影響程度進行排序,并將每次的特征作為判定條件(子樹的根節點)進行擴展,最后生成一顆樹,或者可用判決條件表示,例如"如果小明〈12歲,則小明屬于少年"。作為特征的文本屬性包括文本的長度、文本中詞出現的頻度、文本中詞的個數,以及由此計算出來的詞出現概率、互信息等。
發明內容為解決上述問題,本發明提供了網頁信息查詢方法及其系統,能夠對查詢結果網頁進行分類。本發明公開了一種網頁信息査詢方法,包括步驟1,預設查詢分類的類別和分類依據的參考量,根據所述類別和所述參考量建立分類器;步驟2,輸入査詢詞,搜索引擎依據輸入的查詢詞進行查詢,獲得査詢結果網頁;步驟3,所述分類器對查詢結果網頁進行分類,并按分類顯示查詢結果網頁。9所述步驟l進一步為步驟21,預設所述類別和所述參考量;步驟22,根據所述類別建立訓練網頁集合;步驟23,根據所述參考量從所述訓練網頁文檔集合中抽取用于分類的特征;步驟24,根據所述特征建立所述分類器。所述步驟21進一步為,預設的所述類別包括導航型搜索、信息型搜索和事務型搜索,預設的所述參考量為網頁標題;所述步驟22進一步為,對于每個類別,預設所述類別對應的訓練査詢詞,搜索引擎依據所述訓練査詢詞進行查詢,獲得的査詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;所述步驟23迸一步為,對于每個類別的訓練網頁集合,將所述訓練網頁集合中的訓練網頁文檔的網頁標題進行分詞處理,將所述網頁標題分為詞的集合,按每個詞在所述類別中出現的次數從詞的集合中為所述類別選擇特征詞作為用于分類的特征;所述步驟24進一步為,對于每個類別建立所述分類器,所述分類器用于判斷輸入的查詢結果網頁的網頁標題中是否包括特征詞,如果包括則査詢結果網頁屬于所述特征詞對應類別。對于每個類別,所述類別的特征組成特征集合;所述步驟23后還包括將特征集合同預設的非特征集合匹配,將所述特征集合中被匹配的特征刪除。所述步驟21進一步為預設的所述類別包括信息型搜索和非信息型搜索,預設的所述參考量為網頁中正文;所述歩驟22進一步為預設每個類別對應的訓練査詢詞,搜索引擎依據所述訓練查詢詞進行査詢,獲得的査詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;所述步驟23進一步為根據訓練網頁文檔抽取用于提取正文的特征;所述步驟24進一步為建立所述分類器,所述分類器用于根據所述特征從輸入分類器的査詢結果網頁中提取正文,計算所述正文在所述査詢結果網頁中的占有率,根據所述占有率確定所述查詢結果網頁所屬類別。所述步驟23進一步為,步驟61,確定所述訓練網頁文檔中的正文;步驟62,輸入正文的候選屬性,對于每個候選屬性,在所述訓練網頁文檔的正文和非正文中分別統計所述候選屬性的數值;步驟63,根據統計結果從候選屬性中選擇作為特征的屬性,并確定各個屬性對應的正文和非正文的分界值;所述步驟24進一步為,步驟64,建立所述分類器,所述分類器用于對輸入的查詢結果網頁的每行,根據所述行對應于特征的屬性和所述屬性對應的分界值,判斷所述行是否為正文,計算所述正文在所述查詢結果網頁中的占有率,根據所述占有率確定所述查詢結果網頁所屬類別。所述分類器在計算占有率時進一步用于將正文中連續的行整合為段,段中的首字節的權重為預設初始權重值,對段中首字節后的字節依次增加權重值,非正文中字節的權重為預設非正文權重值,計算正文權重值加和同査詢結果網頁權重值加和比值作為所述占有率;所述分類器在確定類別時進一步用于如果所述占有率超過閥值,則所述査詢結果網頁為信息型搜索,否則,為非信息型搜索。所述步驟21還包括預設的所述類別包括信息型搜索和非信息型搜索,預設的所述參考量為網頁中正文;所述步驟22還包括為預設每個類別對應的訓練査詢詞,搜索引擎依據所述訓練查詢詞進行査詢,獲得的查詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;所述步驟23還包括為根據訓練網頁文檔抽取用于提取正文的特征;所述步驟24還包括建立第二分類器,所述分類器用于根據所述特征從輸入的查詢結果網頁中提取正文,計算所述正文在所述查詢結果網頁中的占有率,根據所述占有率確定所述査詢結果網頁所屬類別。所述導航型搜索類別的分類器為導航類分類器,所述信息型搜索類別的分類器為信息類分類器,所述事務型搜索類別的分類器為事務類分類器,所述步驟3進一步為,步驟901,導航類分類器判斷查詢結果網頁是否為導航類,如果是,則將所述査詢結果網頁歸為導航類,否則,執行步驟902;步驟902,信息類分類器判斷査詢結果網頁是否歸為信息類,事務類分類器判斷查詢結果網頁是否歸為事務類;如果判斷結果為查詢結果網頁是信息類不是歸為事務類,則所述査詢結果網頁歸為信息類;如果判斷結果為査詢結果網頁事務類不是歸為信息類,則所述查詢結果網頁歸為事務類;如果判斷結果為査詢結果網頁既是歸為事務類又是歸為信息類,則所述査詢結果網頁歸為事務類;如果判斷結果為査詢結果網頁既不是歸為事務類又不是歸為信息類,則由所述第二類分類器判斷所述査詢結果網頁是否歸為信息類,如果是信息類,則所述查詢結果網頁歸為信息類,否則,所述査詢結果網頁歸為事務類。本發明還公開了一種網頁信息査詢系統,包括分類器建立模塊,用于預設查詢分類的類別和分類依據的參考量,根據所述類別和所述參考量建立分類器;査詢模塊,用于輸入查詢詞,搜索引擎依據輸入的查詢詞進行査詢,獲得查詢結果網頁;查詢結果分類模塊,用于應用所述分類器對査詢結果網頁進行分類,并按分類顯示查詢結果網頁。所述分類器建立模塊進一步包括預設模塊,用于預設所述類別和所述參考量;訓練網頁建立模塊,用于根據所述類別建立訓練網頁集合;特征抽取模塊,用于根據所述參考量從所述訓練網頁文檔集合中抽取用于分類的特征;分類器生成模塊,用于根據所述特征建立所述分類器。所述預設模塊預設的所述類別包括導航型搜索、信息型搜索和事務型搜索,預設的所述參考量為網頁標題;所述訓練網頁建立模塊進一步用于對于每個類別,預設所述類別對應的訓練查詢詞,搜索引擎依據所述訓練查詢詞進行查詢,獲得的查詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;12所述特征抽取模塊進一步用于對每個類別的訓練網頁集合,將所述訓練網頁集合中的訓練網頁文檔的網頁標題進行分詞處理,將所述網頁標題分為詞的集合,按每個詞在所述類別中出現的次數從詞的集合中為所述類別選擇特征詞作為用于分類的特征;所述分類器生成模塊進一步用于對每個類別建立所述分類器,所述分類器用于判斷輸入的査詢結果網頁的網頁標題中是否包括特征詞,如果包括則查詢結果網頁屬于所述特征詞對應類別。對于每個類別,所述類別的特征組成特征集合;所述特征抽取模塊還用于將特征集合同預設的非特征集合匹配,將所述特征集合中被匹配的特征刪除。所述預設模塊預設的所述類別包括信息型搜索和非信息型搜索,預設的所述參考量為網頁中正文;所述訓練網頁建立模塊進一步用于預設每個類別對應的訓練査詢詞,搜索引擎依據所述訓練查詢詞進行査詢,獲得的査詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;所述特征抽取模塊進一步用于根據訓練網頁文檔抽取用于提取正文的特征;所述分類器生成模塊進一步用于建立所述分類器,所述分類器用于根據所述特征從輸入分類器的查詢結果網頁中提取正文,計算所述正文在所述查詢結果網頁中的占有率,根據所述占有率確定所述查詢結果網頁所屬類別。所述特征抽取模塊進一步用于確定所述訓練網頁文檔中的正文;輸入正文的候選屬性,對于每個候選屬性,在所述訓練網頁文檔的正文和非正文中分別統計所述候選屬性的數值;根據統計結果從候選屬性中選擇作為特征的屬性,并確定各個屬性對應的正文和非正文的分界值;所述分類器生成模塊進一步用于生成所述分類器,所述分類器用于對輸入的查詢結果網頁的每行,根據所述行對應于特征的屬性和所述屬性對應的分界值,判斷所述行是否為正文,計算所述正文在所述查詢結果網頁中的占有率,根據所述占有率確定所述査詢結果網頁所屬類別。所述分類器在計算占有率時進一步用于將正文中連續的行整合為段,段中的首字節的權重為預設初始權重值,對段中首字節后的字節依次增加權重13值,非正文中字節的權重為預設非正文權重值,計算正文權重值加和同査詢結果網頁權重值加和比值作為所述占有率;所述分類器在確定類別時進一步用于如果所述占有率超過閥值,則所述查詢結果網頁為信息型搜索,否則,為非信息型搜索。所述預設模塊預設的所述類別包括信息型搜索和非信息型搜索,預設的所述參考量為網頁中正文;所述訓練網頁建立模塊還用于預設每個類別對應的訓練查詢詞,搜索引擎依據所述訓練查詢詞進行査詢,獲得的查詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;所述特征抽取模塊還用于根據訓練網頁文檔抽取用于提取正文的特征;所述分類器生成模塊還用于建立第二分類器,所述分類器用于根據所述特征從輸入的査詢結果網頁中提取正文,計算所述正文在所述査詢結果網頁中的占有率,根據所述占有率確定所述査詢結果網頁所屬類別。所述導航型搜索類別的分類器為導航類分類器,所述信息型搜索類別的分類器為信息類分類器,所述事務型搜索類別的分類器為事務類分類器,所述查詢結果分類模塊進一步用于應用導航類分類器判斷査詢結果網頁是否歸為導航類,如果是,則將所述査詢結果網頁歸歸為導航類;否則應用信息類分類器判斷査詢結果網頁是否歸為信息類,應用事務類分類器判斷査詢結果網頁是否歸為事務類,如果判斷結果為査詢結果網頁是信息類不是歸為事務類,則所述查詢結果網頁歸為信息類;如果判斷結果為查詢結果網頁事務類不是歸為信息類,則所述査詢結果網頁歸為事務類,如果判斷結果為查詢結果網頁既是歸為事務類又是歸為信息類,則所述査詢結果網頁歸為事務類;如果判斷結果為查詢結果網頁既不是歸為事務類又不是歸為信息類,則由所述第二類分類器判斷所述查詢結果網頁是否歸為信息類,如果是信息類,則所述査詢結果網頁歸為信息類,否則,所述査詢結果網頁歸為事務類。本發明的有益效果在于,能夠對查詢結果網頁進行分類,通過將多個分類器進行整合,能夠對査詢結果網頁進行精確分類;通過將特征集合同預設的非特征集合匹配,能夠提高特征選擇的精確度,通過對候選屬性進行統計分析,能夠提高提取正文的準確度。圖1是本發明網頁中信息查詢方法流程圖;圖2是本發明網頁中建立分類器的方法流程圖;圖3是本發明的示例性系統中的展示界面;圖4是本發明網頁中信息查詢系統的結構圖。具體實施例方式下面結合附圖,對本發明做進一步的詳細描述。一種網頁中信息查詢方法如圖1所示。方法包括步驟S100,預設查詢分類的類別和分類依據的參考量,根據該類別和該參考量建立分類器。步驟S200,輸入查詢詞,搜索引擎依據輸入的查詢詞進行查詢,獲得査詢結果網頁。步驟S300,分類器對查詢結果網頁進行分類,并按分類顯示査詢結果網頁。所述步驟S100中建立分類器的方法流程如圖2所示。步驟SllO,預設查詢分類的類別和分類依據的參考量。步驟S120,根據該類別建立訓練網頁集合。步驟S130,根據該參考量從訓練網頁文檔集合中抽取用于分類的特征。步驟S140,根據該特征建立分類器。建立分類器的具體實施方式一如下所述。步驟S111A,預設的所述類別包括導航型搜索、信息型搜索和事務型搜索,預設的所述參考量為網頁標題。現有技術中用戶意圖的分類包括多種體系。例如,2002年,IBM的研究人員AndreiBroder提出的分類體系。在該分類體系,中,根據用戶意圖,查詢被分成三類。第一類,導航型搜索(NavigationalSearch)是指用戶為了尋找一個特定的網站而進行的搜索,例如,新浪網,這個網站是用戶曾經訪問過或者聽過的網站,但是用戶不知道該網站的確切網址,用戶為獲得確切網址進行搜索。該類搜索對于用戶而言,通常只有一個正確答案,就是該搜索內容的主頁。'第二類,信息型搜索(InformationSearch)是指用戶為了獲得關于一個特定主題的深層次信息而進行的搜索,例如,為獲得某個問題的答案,該類搜索對于用戶來說通常答案是多個的,用戶通過瀏覽多個網頁,總結信息,最終得出自己想要的結論。第三類,事務型搜索(TransactionalSearch)是指用戶為了做某件事情或者得到某些東西,東西為非信息,而進行的搜索,例如,飛信下載。該類搜索要求的結果頁面上通常具有可交互的鏈接或表單,用戶通過在多個網頁中選擇其中一個滿意的結果,進行動作交互。在具體實施方式中,參考量為網頁標題,除了用到網頁標題外,參考量還可以為網頁的自身鏈接(url)。步驟112A,對于每個類別,預設該類別對應的訓練查詢詞,搜索引擎依據訓練查詢詞進行査詢,獲得的查詢結果網頁為訓練網頁文檔,訓練網頁文檔組成該類別的訓練網頁集合。將訓練査詢詞輸入搜索引擎,本具體實施方式中搜索引擎為谷歌,進行查詢,保存每一個查詢的前n個結果,并分別將每一個結果的網頁標題進行讀取,按類別分別存入文件。n的大小,根據具體情況確定,實施例中為100個。步驟113A,對于每個類別的訓練網頁集合,將其中的訓練網頁文檔的網頁標題進行分詞處理,將網頁標題分為詞的集合,按每個詞在該類別中出現的次數從詞的集合中為該類別選擇特征詞作為用于分類的特征。分詞處理為通過分別對每個類別的訓練網頁的網頁標題進行分詞和詞性標注,得到分詞結果,用于統計。分詞是指通過計算機將漢語文本中的句子按照詞劃分開來。比如,"晚上喝水"可能劃分為"晚上喝水"。詞性標注是指在給定每個詞可能的詞性范圍的前提下,確定每個單詞的詞性并加以標注。比如,"晚上喝水"可能標注為"晚上/t喝/v水/n"。根據北大詞性標注標準t代表時間詞、v代表動詞、n代表名詞。通過對分詞后的結果進行個數統計,從大到小排序后,存入文本。在個數統計時,除了不區分詞性的統計,根據中文的特點,還分別進行了形容詞、動詞、名詞的個數統計。比如,對形容詞進行統計,便是先從統計詞中篩選出所有詞性是形容詞的詞,然后對每個詞進行個數統計,按照個數大小進行排序。其它詞性的依此類推。按預設個數從排序中選擇詞作為特征詞,組成該類別的特征集合。特征詞提取過程是在所有統計出來的詞匯當中挑選,但是,有一些詞匯是即使只在一個類別中出現過,但是其不為該類別的特征,例如,網頁標題統計數據中只在事務類中出現的"訊",而"訊"不應該為特征詞。因而,預設非特征詞集合,將選擇的特征詞同該非特征詞集合匹配,將被匹配的特征詞從該類別的特征集合中刪除。非特征集合為配置的不可以作為特征的特征詞的集合。舉例而言,提取出來的特征詞如表l所示。其中,個數為類別的特征詞的個數,例子為類別的特征詞的舉例。<table>tableseeoriginaldocumentpage17</column></row><table>表l步驟114A,建立第一分類器,分類器用于判斷輸入的查詢結果網頁的標題中是否包括特征詞,如果包括則査詢結果網頁屬于該特征詞對應類別。對應輸入的查詢結果網頁,得到了它的網頁標題,査找網頁標題中出現了哪個類別的特征詞,出現了哪個類別的特征詞則屬于該類別。如果出現了導航類的特征詞,則判斷它為導航類。同樣,可以針對全文或是網頁的其他部分建立分類器。最終的第一類分類器,可以由l個或多個分類器組合,若是多個分類器,則現有的整合多分類器的辦法都可以使用,如投票機制、并行機制、串行機制等。在示例性系統中實現了對應于url(網頁鏈接)、title(網頁標題)、snippet(簡短正文)三個分類器,采用的整合辦法為投票機制,事先結果分類。步驟S100具體實施方式二如下所述。步驟S111B,預設的類別包括信息型搜索和非信息型搜索,預設的參考量為網頁中正文。步驟S112B,預設每個類別對應的訓練査詢詞,搜索引擎依據所述訓練査詢詞進行查詢,獲得的査詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合。預設的訓練查詢詞為具體實施方式一中的信息型搜索的特征詞。通過搜索引擎,具體實施方式中為谷歌,獲得的查詢結果網頁為訓練網頁文檔,提取每個結果的url,保存起來。由于每個網頁若按行提取,最終得到的文本內容會很龐大,因此該步驟中不對所有的url進行處理。在其中隨機抽取100個url,取得其代表的網頁內容,再對其做后續處理。對每個nrl得到的HTML網頁文本都是經過預處理的,如去除掉網頁中一些無關緊要的HTML標簽和空格等。在實施例中實驗后得到的文本行數為7924行,其中共有6900行是非正文行,1024個為正文行。步驟S113B,根據訓練網頁文檔抽取用于提取正文特征。步驟S113B通過現有技術中的事先對網頁文本進行提取,建立網頁正文文本數據庫的方法。該方法無需考慮時間問題,盡可能的采用準確率高的提取方法,如有基于視覺的,基于網頁標簽的等算法。基于視覺的算法是先對網頁內容進行塊狀劃分,根據位置不同,判斷其重要度,然后進行提取,像微軟提出的VIPS算法,VIPS算法如文獻aVision2basedPageSegmentationAlgorithm,MicrosoftTechnicalR印ort(MSR2TR22003-79),2003.中所述。步驟S113B的另一具體實施方式如下所述。步驟S1131B,從訓練網頁文檔中區分正文和非正文。通過簡單提取正文文本算法跳過對整個HTML的分析,即不需要知道HTML文件的結構和使用的標簽,而是針對網頁的每行文本進行判斷,最終得到網頁的正文文本的重要條件。區分方法,通過現有正文提取算法或者通過區分配置。步驟S1132B,輸入正文的候選屬性,對于每個候選屬性,在訓練網頁文檔的正文和非正文中分別統計所述候選屬性的數值。步驟1133B,根據統計結果從候選屬性中選擇作為特征的屬性,并確定選擇的各個屬性對應的正文和非正文的分界值。候選屬性包括每一行文本密度值;每一行HTML字節數;每一行文本長度;前一行文本的是否為正文的判斷結果。每一行文本密度值,在正文和非正文中的數值進行統計。實施例中,非正文部分中90%的文本密度值均小于0.4,而正文部分中有9%的文本密度值小于0.4。依據統計結果,密度值作為用于分類的一個特征。實施例,正文判斷正確率是成增加趨勢的,非正文判斷正確率是成降低趨勢的,而且非正文正確率降低的幅度要比正文正確率升高的幅度大。平均正確率每一個文本密度值的整體區分能力,在文本密度值為0.45的時候達到了最高點,平均正確率數值為0.922。因此選擇的文本密度值的閾值為0.45。針對具體實施例,其正文和非正文的分界值為0.4。每一行HTML字節數屬性,統計結果顯示該特征的數值在正文和非正文中的區分不明顯。該屬性不作為特征。每一行文本長度,進行統計,統計結果顯示HTML文本長度屬性在區分正文和非正文中數值區分明顯。經過數據分析,當長度小于30時,是非正文的概率大于是正文的概率,當長度在100200之間時,是正文的概率大于是非正文的概率。前一行文本是否為正文的判斷結果,統計結果顯示,如果前一行文本為正文,則后一行為正文的概率大于為非正文的概率;如果前一行為非正文,則后一行為非正文的概率大于為正文的概率。綜上所述,實施例中對四個候選屬性的選擇結果表2所示。特征結果閾值每一行文本密度值選中0.45每一行HTML字節數舍棄每一行文本長度選中x〈二30、100<=x<=200前一行文本的是否為正文判斷結果選中yy和nn組合表2yy表示前后均為正文;nn表示前后均為非正文。步驟S114B,建立第二分類器,所述分類器用于根據特征依據所述特征對應的提取正文算法從輸入的查詢結果網頁中提取正文,計算所述正文在所述查詢結果網頁中的占有率,根據所述占有率確定査詢結果網頁所屬類別。對應于現有技術中的提取正文算法,從輸入的查詢結果網頁中提取正文。對于上述的按屬性提取的具體實施方式,確定輸入的査詢結果網頁中各行的各個屬性對應的值,將屬性的值同屬性對應的閥值比較,以確定該行是否為正文。所述分類器在確定類別時進一步用于如果所述占有率超過閥值,則所述査詢結果網頁為信息型搜索,否則,為非信息型搜索。實施例中,如果一行的文本密度屬性、文本長度屬性、前一行文本的是否為正文判斷結果屬性都滿足為正文對應的范圍,則該行文本為正文;否則,該行文本為非正文。針對每一行進行如下判斷如果該行文本密度值大于0.45并且該行HTML文本長度小于30并且前一行判斷結果為非正文,那么該行為非正文。如果該行文本密度值大于0.45并且該行HTML文本長度小于30并且前一行判斷結果為正文,那么該行為正文。如果該行文本密度值大于0.45并且該行HTML文本長度大于等于30,那么該行為正文。如果該行文本密度值小于0.45并且該行HTML文本長度大于100小于200,并且前一行判斷結果為正文,那么該行為正文。如果該行文本密度值小于0.45并且該行HTML文本長度大于100小于200,并且前一行判斷結果為非正文,那么該行為非正文。如果該行文本密度值小于0.45并且該行HTML文本長度小于等于100或者大于等于200,那么該行為非正文。較佳的,分類器在計算占有率時進一步用于將正文中連續的行整合為段。實施例,通過現有技術中解析HTML文本的工具,例如Python編程語言的庫,得到網頁的每一行文本,并且去除網頁中的網頁字段;保存計算所需每一行文本密度值、每一行文本長度和前一行文本的是否為正文判斷結果的20三個特征涉及到的數據;將計算的結果與上述三個特征的閾值進行比較,判斷該行是否為正文。對每一行正文是否連續進行判斷。如果該行前面是正文,后面也是正文表示正文連續,則將兩個正文整合成為一段正文,以將連續的多行均是正文的文本將合并到一起。整合文本的原因是因為簡單提取正文文本算法并不能十分準確的提取出正文,有時候比較長的版本聲明、注釋等也會判斷為正文,而如果程序把所有的正文合起來形成一個段落,就會導致結果的不準確性,特別是對那些真正的正文很少,本身并不屬于信息類的網頁,會由于錯誤的正文判斷,再加上錯誤的整合,導致其被判斷到了信息類中。較佳的,分類器計算占有率時用于將段中的首字節的權重為預設初始權重值,對段中首字節后的字節依次增加權重值,非正文中字節的權重為預設非正文權重值,計算正文權重值加和同查詢結果網頁權重值加和比值作為所述占有率。計算正文文本占有率公式為正文的權重/(正文的權重+非正文的權重)。實施例,給每一個字節加入權重,第一個字節初始化權重為1,如果字節是連續的,則給下一個字節增加0.2的權重。如此以增加連續文本的權重,進而提高了正文文本所占比率。因為考慮到網頁代碼中,HTML標簽占有的字節數并不少,還經常會超過文本長度,如果僅僅根據字節長度進行比對,并不能得到很好的結果。考慮到正文文本的一個特點是多為連續文本,因此權重的計算方法采取的是本發明中給出兩種分類器的建立的具體實施方式。采用了投票和串行結構,將第一分類器和第二分類器進行整合。按照第一分類器的形成過程,可得到三個分類器,即導航類分類器(簡稱為navl)、信息類分類器(簡稱為infl)、事務類分類器(簡稱為tral);按照第二分類器的形成過程,可得到一個分類器,即信息類二分類器(簡稱為inf2)。前三個分類器得到的結果是該網頁是否屬于該類,最后一個分類器得到的結果是該正文文本占有率。將上述的四個分類器整合,整合后過程如下所示。步驟S301,用分類器navl判斷查詢結果網頁是否為導航類,若是則該查詢結果網頁為導航類,如不是,則進行步驟S302步驟。步驟S302,用分類器infl判斷該査詢結果網頁是否為信息類,用分類器tral判斷該査詢結果網頁是否為事務類。若是信息類,不是事務類,則判斷其為信息類若是事務類,不是信息類,則判斷其為事務類若既不是事務類又不是信息類,則判斷其為信息類。若既是事務類又是信息類,則執行步驟S303。步驟S303,用分類器inf2求該網頁的正文文本占有率,若計算結果大于等于0.75,則判斷其為信息類;若計算結果小于0.75,則判斷其同時屬于信息類以及事務類。此處,不排除一個網頁本身就屬于多個類的情況,本系統中的分類是屬于多類分配。圖3為輸入査詢詞后結果顯示頁。圖中左邊顯示的是三類的前三項,省略顯示三類,右邊顯示的某一類別的分類結果。用戶點擊左邊的類別,右邊會顯示對應的該類別結果。并且在頁面上加入了用戶判斷,即每個結果下面的right和wrong按鈕。由此得到用戶的判斷日志,反饋給系統,循環往復,會不斷提高系統最終的判斷準確率。一種網頁信息查詢系統,如圖4所示。分類器建立模塊410,用于預設查詢分類的類別和分類依據的參考量,根據所述類別和所述參考量建立分類器。査詢模塊420,用于輸入查詢詞,搜索引擎依據輸入的査詢詞進行査詢,獲得査詢結果網頁。查詢結果分類模塊430,用于應用所述分類器對査詢結果網頁進行分類,并按分類顯示查詢結果網頁。一較佳的實施方式,分類器建立模塊410進一步包括預設模塊411,用于預設所述類別和所述參考量。訓練網頁建立模塊412,用于根據所述類別建立訓練網頁集合。特征抽取模塊413,用于根據所述參考量從所述訓練網頁文檔集合中抽取用于分類的特征。分類器生成模塊414,用于根據所述特征建立所述分類器。一較佳的實施方式預設模塊411預設的所述類別包括導航型搜索、信息型搜索和事務型搜索,預設的所述參考量為網頁標題。訓練網頁建立模塊412進一步用于對于每個類別,預設所述類別對應的訓練查詢詞,搜索引擎依據所述訓練査詢詞進行査詢,獲得的查詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合。特征抽取模塊413進一步用于對每個類別的訓練網頁集合,將所述訓練網頁集合中的訓練網頁文檔的網頁標題進行分詞處理,將所述網頁標題分為詞的集合,按每個詞在所述類別中出現的次數從詞的集合中為所述類別選擇特征詞作為用于分類的特征。分類器生成模塊414進一步用于對每個類別建立所述分類器,所述分類器用于判斷輸入的査詢結果網頁的網頁標題中是否包括特征詞,如果包括則査詢結果網頁屬于所述特征詞對應類別。一較佳的實施方式對于每個類別,所述類別的特征組成特征集合;所述特征抽取模塊413還用于將特征集合同預設的非特征集合匹配,將所述特征集合中被匹配的特征刪除。一較佳的實施方式預設模塊411預設的所述類別包括信息型搜索和非信息型搜索,預設的所述參考量為網頁中正文。訓練網頁建立模塊412進一步用于預設每個類別對應的訓練查詢詞,搜索引擎依據所述訓練査詢詞進行査詢,獲得的查詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;特征抽取模塊413進一步用于根據訓練網頁文檔抽取用于提取正文的特征。分類器生成模塊414進一步用于建立所述分類器,所述分類器用于根據所述特征從輸入分類器的查詢結果網頁中提取正文,計算所述正文在所述査詢結果網頁中的占有率,根據所述占有率確定所述査詢結果網頁所屬類別。一較佳的實施方式特征抽取模塊413進一步用于確定所述訓練網頁文檔中的正文;輸入正文的候選屬性,對于每個候選屬性,在所述訓練網頁文檔的正文和非正文中分別統計所述候選屬性的數值;根據統計結果從候選屬性中選擇作為特征的屬性,并確定各個屬性對應的正文和非正文的分界值.分類器生成模塊414進一步用于生成所述分類器,所述分類器用于對輸入的查詢結果網頁的每行,根據所述行對應于特征的屬性和所述屬性對應的分界值,判斷所述行是否為正文,計算所述正文在所述查詢結果網頁中的占有率,根據所述占有率確定所述査詢結果網頁所屬類別。一較佳的實施方式所述分類器在計算占有率時進一步用于將正文中連續的行整合為段,段中的首字節的權重為預設初始權重值,對段中首字節后的字節依次增加權重值,非正文中字節的權重為預設非正文權重值,計算正文權重值加和同查詢結果網頁權重值加和比值作為所述占有率。所述分類器在確定類別時進一步用于如果所述占有率超過閥值,則所述查詢結果網頁為信息型搜索,否則,為非信息型搜索。一較佳的實施方式預設模塊411預設的所述類別包括導航型搜索、信息型搜索和事務型搜索,預設的所述參考量為網頁標題;預設模塊411預設的所述類別還包括信息型搜索和非信息型搜索,預設的所述參考量為網頁中正文。訓練網頁建立模塊412進一步用于對于每個類別,預設所述類別對應的訓練査詢詞,搜索引擎依據所述訓練査詢詞進行査詢,獲得的查詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合。特征抽取模塊413進一步用于對每個類別的訓練網頁集合,將所述訓練網頁集合中的訓練網頁文檔的網頁標題進行分詞處理,將所述網頁標題分為詞的集合,按每個詞在所述類別中出現的次數從詞的集合中為所述類別選擇特征詞作為用于分類的特征。分類器生成模塊414進一步用于對每個類別建立所述分類器,所述分類器用于判斷輸入的查詢結果網頁的網頁標題中是否包括特征詞,如果包括則查詢結果網頁屬于所述特征詞對應類別。所述訓練網頁建立模塊412還用于預設每個類別對應的訓練查詢詞,搜索引擎依據所述訓練查詢詞進行查詢,獲得的査詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合。所述特征抽取模塊413還用于根據訓練網頁文檔抽取用于提取正文的特征。所述分類器生成模塊414還用于建立第二分類器,所述分類器用于根據所述特征從輸入的査詢結果網頁中提取正文,計算所述正文在所述査詢結果網頁中的占有率,根據所述占有率確定所述查詢結果網頁所屬類別。所述導航型搜索類別的分類器為導航類分類器,所述信息型搜索類別的分類器為信息類分類器,所述事務型搜索類別的分類器為事務類分類器,査詢結果分類模塊430進一步用于應用導航類分類器判斷査詢結果網頁是否歸為導航類,如果是,則將所述査詢結果網頁歸歸為導航類;否則應用信息類分類器判斷査詢結果網頁是否歸為信息類,應用事務類分類器判斷查詢結果網頁是否歸為事務類,如果判斷結果為査詢結果網頁是信息類不是歸為事務類,則所述査詢結果網頁歸為信息類;如果判斷結果為査詢結果網頁事務類不是歸為信息類,則所述査詢結果網頁歸為事務類,如果判斷結果為査詢結果網頁既是歸為事務類又是歸為信息類,則所述査詢結果網頁歸為事務類;如果判斷結果為查詢結果網頁既不是歸為事務類又不是歸為信息類,則由所述第二類分類器判斷所述査詢結果網頁是否歸為信息類,如果是信息類,則所述查詢結果網頁歸為信息類,否則,所述査詢結果網頁歸為事務類。本領域的技術人員在不脫離權利要求書確定的本發明的精神和范圍的條件下,還可以對以上內容進行各種各樣的修改。因此本發明的范圍并不僅限于以上的說明,而是由權利要求書的范圍來確定的。權利要求1.一種網頁信息查詢方法,其特征在于,包括步驟1,預設查詢分類的類別和分類依據的參考量,根據所述類別和所述參考量建立分類器;步驟2,輸入查詢詞,搜索引擎依據輸入的查詢詞進行查詢,獲得查詢結果網頁;步驟3,所述分類器對查詢結果網頁進行分類,并按分類顯示查詢結果網頁。2.如權利要求1所述的網頁信息查詢方法,其特征在于,所述步驟1進一步為步驟21,預設所述類別和所述參考量;步驟22,根據所述類別建立訓練網頁集合;步驟23,根據所述參考量從所述訓練網頁文檔集合中抽取用于分類的特征;步驟24,根據所述特征建立所述分類器。3.如權利要求2所述的網頁信息査詢方法,其特征在于,所述步驟21進一步為,預設的所述類別包括導航型搜索、信息型搜索和事務型搜索,預設的所述參考量為網頁標題;所述步驟22進一步為,對于每個類別,預設所述類別對應的訓練查詢詞,搜索引擎依據所述訓練查詢詞進行查詢,獲得的査詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;所述步驟23進一步為,對于每個類別的訓練網頁集合,將所述訓練網頁集合中的訓練網頁文檔的網頁標題進行分詞處理,將所述網頁標題分為詞的集合,按每個詞在所述類別中出現的次數從詞的集合中為所述類別選擇特征詞作為用于分類的特征;所述步驟24進一步為,對于每個類別建立所述分類器,所述分類器用于判斷輸入的查詢結果網頁的網頁標題中是否包括特征詞,如果包括則查詢結果網頁屬于所述特征詞對應類別。4.如權利要求3所述的網頁信息査詢方法,其特征在于,對于每個類別,所述類別的特征組成特征集合;所述步驟23后還包括將特征集合同預設的非特征集合匹配,將所述特征集合中被匹配的特征刪除。5.如權利要求2所述的網頁信息査詢方法,其特征在于,所述步驟21進一步為預設的所述類別包括信息型搜索和非信息型搜索,預設的所述參考量為網頁中正文;所述步驟22進一步為預設每個類別對應的訓練査詢詞,搜索引擎依據所述訓練查詢詞進行查詢,獲得的查詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;所述步驟23進一步為根據訓練網頁文檔抽取用于提取正文的特征;所述步驟24進一步為建立所述分類器,所述分類器用于根據所述特征從輸入分類器的査詢結果網頁中提取正文,計算所述正文在所述查詢結果網頁中的占有率,根據所述占有率確定所述査詢結果網頁所屬類別。6.如權利要求5所述的網頁信息查詢方法,其特征在于,所述步驟23進一步為,步驟61,確定所述訓練網頁文檔中的正文;步驟62,輸入正文的候選屬性,對于每個候選屬性,在所述訓練網頁文檔的正文和非正文中分別統計所述候選屬性的數值;步驟63,根據統計結果從候選屬性中選擇作為特征的屬性,并確定各個屬性對應的正文和非正文的分界值;所述步驟24進一步為,步驟64,建立所述分類器,所述分類器用于對輸入的査詢結果網頁的每行,根據所述行對應于特征的屬性和所述屬性對應的分界值,判斷所述行是否為正文,計算所述正文在所述査詢結果網頁中的占有率,根據所述占有率確定所述査詢結果網頁所屬類別。7.如權利要求6所述的網頁信息査詢方法,其特征在于,所述分類器在計算占有率時進一步用于將正文中連續的行整合為段,段中的首字節的權重為預設初始權重值,對段中首字節后的字節依次增加權重值,非正文中字節的權重為預設非正文權重值,計算正文權重值加和同査詢結果網頁權重值加和比值作為所述占有率;所述分類器在確定類別時進一步用于如果所述占有率超過閥值,則所述査詢結果網頁為信息型搜索,否則,為非信息型搜索。8.如權利要求3所述的網頁信息査詢方法,其特征在于,所述步驟21還包括預設的所述類別包括信息型搜索和非信息型搜索,預設的所述參考量為網頁中正文;所述步驟22還包括為預設每個類別對應的訓練査詢詞,搜索引擎依據所述訓練查詢詞進行査詢,獲得的查詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;所述步驟23還包括為根據訓練網頁文檔抽取用于提取正文的特征;所述步驟24還包括建立第二分類器,所述分類器用于根據所述特征從輸入的查詢結果網頁中提取正文,計算所述正文在所述查詢結果網頁中的占有率,根據所述占有率確定所述査詢結果網頁所屬類別。9.如權利要求8所述的網頁信息査詢方法,其特征在于,所述導航型搜索類別的分類器為導航類分類器,所述信息型搜索類別的分類器為信息類分類器,所述事務型搜索類別的分類器為事務類分類器,所述步驟3進一步為,步驟901,導航類分類器判斷查詢結果網頁是否為導航類,如果是,則將所述査詢結果網頁歸為導航類,否則,執行步驟902;步驟902,信息類分類器判斷查詢結果網頁是否歸為信息類,事務類分類器判斷査詢結果網頁是否歸為事務類;如果判斷結果為査詢結果網頁是信息類不是歸為事務類,則所述査詢結果網頁歸為信息類;如果判斷結果為査詢結果網頁事務類不是歸為信息類,則所述査詢結果網頁歸為事務類;如果判斷結果為査詢結果網頁既是歸為事務類又是歸為信息類,則所述查詢結果網頁歸為事務類;如果判斷結果為査詢結果網頁既不是歸為事務類又不是歸為信息類,則由所述第二類分類器判斷所述査詢結果網頁是否歸為信息類,如果是信息類,則所述查詢結果網頁歸為信息類,否則,所述查詢結果網頁歸為事務類。10.—種網頁信息查詢系統,其特征在于,包括分類器建立模塊,用于預設查詢分類的類別和分類依據的參考量,根據所述類別和所述參考量建立分類器;查詢模塊,用于輸入査詢詞,搜索引擎依據輸入的査詢詞進行査詢,獲得査詢結果網頁;查詢結果分類模塊,用于應用所述分類器對査詢結果網頁進行分類,并按分類顯示查詢結果網頁。11.如權利要求10所述的網頁信息查詢系統,其特征在于,所述分類器建立模塊進一步包括預設模塊,用于預設所述類別和所述參考量;訓練網頁建立模塊,用于根據所述類別建立訓練網頁集合.,特征抽取模塊,用于根據所述參考量從所述訓練網頁文檔集合中抽取用于分類的特征;分類器生成模塊,用于根據所述特征建立所述分類器。12.如權利要求ll所述的網頁信息査詢系統,其特征在于,所述預設模塊預設的所述類別包括導航型搜索、信息型搜索和事務型搜索,預設的所述參考量為網頁標題;所述訓練網頁建立模塊進一步用于對于每個類別,預設所述類別對應的訓練查詢詞,搜索引擎依據所述訓練查詢詞進行查詢,獲得的査詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;所述特征抽取模塊進一步用于對每個類別的訓練網頁集合,將所述訓練網頁集合中的訓練網頁文檔的網頁標題進行分詞處理,將所述網頁標題分為詞的集合,按每個詞在所述類別中出現的次數從詞的集合中為所述類別選擇特征詞作為用于分類的特征;所述分類器生成模塊進一步用于對每個類別建立所述分類器,所述分類器用于判斷輸入的査詢結果網頁的網頁標題中是否包括特征詞,如果包括則查詢結果網頁屬于所述特征詞對應類別。13.如權利要求12所述的網頁信息査詢系統,其特征在于,對于每個類別,所述類別的特征組成特征集合;所述特征抽取模塊還用于將特征集合同預設的非特征集合匹配,將所述特征集合中被匹配的特征刪除。14.如權利要求ll所述的網頁信息查詢系統,其特征在于,所述預設模塊預設的所述類別包括信息型搜索和非信息型搜索,預設的所述參考量為網頁中正文;所述訓練網頁建立模塊進一步用于預設每個類別對應的訓練査詢詞,搜索引擎依據所述訓練査詢詞進行查詢,獲得的査詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;所述特征抽取模塊進一步用于根據訓練網頁文檔抽取用于提取正文的特征;所述分類器生成模塊進一步用于建立所述分類器,所述分類器用于根據所述特征從輸入分類器的査詢結果網頁中提取正文,計算所述正文在所述査詢結果網頁中的占有率,根據所述占有率確定所述査詢結果網頁所屬類別。15.如權利要求14所述的網頁信息查詢系統,其特征在于,所述特征抽取模塊進一步用于確定所述訓練網頁文檔中的正文;輸入正文的候選屬性,對于每個候選屬性,在所述訓練網頁文檔的正文和非正文中分別統計所述候選屬性的數值;根據統計結果從候選屬性中選擇作為特征的屬性,并確定各個屬性對應的正文和非正文的分界值;所述分類器生成模塊進一步用于生成所述分類器,所述分類器用于對輸入的查詢結果網頁的每行,根據所述行對應于特征的屬性和所述屬性對應的分界值,判斷所述行是否為正文,計算所述正文在所述査詢結果網頁中的占有率,根據所述占有率確定所述查詢結果網頁所屬類別。16.如權利要求15所述的網頁信息查詢系統,其特征在于,所述分類器在計算占有率時進一步用于將正文中連續的行整合為段,段中的首字節的權重為預設初始權重值,對段中首字節后的字節依次增加權重值,非正文中字節的權重為預設非正文權重值,計算正文權重值加和同査詢結果網頁權重值加和比值作為所述占有率;所述分類器在確定類別時進一步用于如果所述占有率超過閥值,則所述査詢結果網頁為信息型搜索,否則,為非信息型搜索。17.如權利要求12所述的網頁信息查詢系統,其特征在于,所述預設模塊預設的所述類別包括信息型搜索和非信息型搜索,預設的所述參考量為網頁中正文;所述訓練網頁建立模塊還用于預設每個類別對應的訓練查詢詞,搜索引擎依據所述訓練査詢詞進行査詢,獲得的査詢結果網頁為訓練網頁文檔,所述訓練網頁文檔組成訓練網頁集合;所述特征抽取模塊還用于根據訓練網頁文檔抽取用于提取正文的特征;所述分類器生成模塊還用于建立第二分類器,所述分類器用于根據所述特征從輸入的査詢結果網頁中提取正文,計算所述正文在所述査詢結果網頁中的占有率,根據所述占有率確定所述査詢結果網頁所屬類別。18.如權利要求17所述的網頁信息査詢系統,其特征在于,所述導航型搜索類別的分類器為導航類分類器,所述信息型搜索類別的分類器為信息類分類器,所述事務型搜索類別的分類器為事務類分類器,所述查詢結果分類模塊進一步用于應用導航類分類器判斷査詢結果網頁是否歸為導航類,如果是,則將所述査詢結果網頁歸歸為導航類;否則應用信息類分類器判斷査詢結果網頁是否歸為信息類,應用事務類分類器判斷査詢結果網頁是否歸為事務類,如果判斷結果為查詢結果網頁是信息類不是歸為事務類,則所述查詢結果網頁歸為信息類;如果判斷結果為査詢結果網頁事務類不是歸為信息類,則所述査詢結果網頁歸為事務類,如果判斷結果為査詢結果網頁既是歸為事務類又是歸為信息類,則所述查詢結果網頁歸為事務類;如果判斷結果為査詢結果網頁既不是歸為事務類又不是歸為信息類,則由所述第二類分類器判斷所述查詢結果網頁是否歸為信息類,如果是信息類,則所述查詢結果網頁歸為信息類,否則,所述査詢結果網頁歸為事務類。全文摘要本發明涉及網頁信息查詢方法及其系統,方法包括步驟1,預設查詢分類的類別和分類依據的參考量,根據所述類別和所述參考量建立分類器;步驟2,輸入查詢詞,搜索引擎依據輸入的查詢詞進行查詢,獲得查詢結果網頁;步驟3,所述分類器對查詢結果網頁進行分類,并按分類顯示查詢結果網頁。本發明能夠對查詢結果網頁進行分類。文檔編號G06F17/30GK101673306SQ20091023605公開日2010年3月17日申請日期2009年10月19日優先權日2009年10月19日發明者衛冰潔,森張,李亞楠,斌王申請人:中國科學院計算技術研究所