專利名稱:一種數據庫建立方法和裝置的制作方法
技術領域:
本發明涉及網絡技術,特別涉及一種對網絡上的數據進行有序整理和存儲的數據 庫建立方法和裝置。
背景技術:
當前,互聯網上的數據總體上雜亂無章,用戶如果需要查找某個具體的信息,比如 關于“ χ X學校”的介紹,通常需要借助于搜索弓I擎來進行搜索。但是,這種搜索方式存在一定的缺陷,即不能使用戶準確方便地找到所需信息,甚 至不能找到所需信息。這是因為按照現有搜索方式,用戶在輸入關鍵詞,比如“XX學校” 后,搜索引擎會顯示出包含該關鍵詞的所有信息,如“XX學校”的地址、用戶對“XX學 校”的評價、“ X X學校”的介紹、與“ X X學校”相關的歷史事件,以及“ X X學校”的相關 新聞等,而且這些信息在顯示時是混雜在一起的,不能進行有效區分,那么,用戶需要進行 進一步的篩選,才能從中找到自己所需的信息,很不方便。另外,對于某些比較不常用的關 鍵詞,比如“ X X學校”,該學校為用戶當地一個很小的學校,不知名,所以互聯網上沒有關 于該學校的相關介紹,那么如果用戶按照現有方式進行搜索,則根本就不能得到所需的信 肩、O
發明內容
有鑒于此,本發明的主要目的在于提供一種數據庫建立方法,能夠使用戶準確方 便地搜索到自己所需的信息。本發明的另一目的在于提供一種數據庫建立裝置,能夠使用戶準確方便地搜索到 自己所需的信息。為達到上述目的,本發明的技術方案是這樣實現的—種數據庫建立方法,包括確定目標數據網站;從每個目標數據網站上采集所需信息,并將采集到的所需信息按照所屬類別的不 同分別存儲到數據庫中;接收用戶編輯或創建的數據,并將該數據按照所屬類別的不同分別存儲到所述數 據庫中。所述確定目標數據網站包括獲取初選目標數據網站;按照預定規則,分別判斷每個初選目標數據網站是否符合要求,如果是,則將該初 選目標數據網站確定為目標數據網站。所述從每個目標數據網站上采集所需信息包括訪問每個目標數據網站,獲取每個目標數據網站上的每個網頁的網頁內容;利用關鍵詞匹配或正則表達式字符串匹配方式從網頁內容中采集所需信息。
所述訪問每個目標數據網站,獲取每個目標數據網站上的每個網頁的網頁內容包 括分析每個目標數據網站的統一資源定位符URL,確定該目標數據網站的網頁網址 是否有規律可循,如果是,則根據所述規律構造循環條件,并利用構造出的循環條件依次訪 問每個網頁,獲取網頁內容;否則,通過對目標數據網站的源代碼進行分析或利用搜索引擎進行搜索,獲取每 個網頁的網址,按照確定出的網址訪問每個網頁,獲取網頁內容。所述利用關鍵詞匹配或正則表達式字符串匹配方式從網頁內容中采集所需信息 之前,進一步包括剔除網頁內容中的超文本鏈接標示語言HTML標簽以及無用的空白字符;確定網頁內容的文字編碼方式是否符合要求,如果不符合,將其轉換為預定的文 字編碼方式。該方法進一步包括將所確定的每個目標數據網站,以及從每個目標數據網站上采集所需信息的方式 進行保存,依據所保存的信息,對所述數據庫進行實時或定時更新。該方法進一步包括生成搜索界面;接收用戶輸入的關鍵詞,并在所述數據庫中搜索包含所述關鍵詞的信息顯示給用 戶。所述搜索包含所述關鍵詞的信息顯示給用戶包括當所述關鍵詞的數量為一個時,在不同類別中分別搜索包含所述關鍵詞的信息, 并將搜索到的每個類別中包含所述關鍵詞的前N條信息顯示給用戶;所述N為正整數;當所述關鍵詞的數量為兩個以上時,確定用戶是否需要進行比較搜索,如果是,則 針對每個關鍵詞,分別在不同類別中搜索包含所述關鍵詞的信息,并將搜索到的每個關鍵 詞所對應的同一類別中的前N條信息以對照的形式同時顯示給用戶。該方法進一步包括按照預先設定的鏈接關系,搜索與包含所述關鍵詞的信息相 關的信息并顯示給用戶。一種數據庫建立裝置,包括數據庫、確定單元、第一存儲單元以及第二存儲單元, 其中所述確定單元,用于確定目標數據網站;所述第一存儲單元,用于從每個目標數據網站上采集所需信息,并將采集到的所 需信息按照所屬類別的不同分別存儲到所述數據庫中;所述第二存儲單元,用于接收用戶編輯或創建的數據,并將該數據按照所屬類別 的不同分別存儲到所述數據庫中。所述確定單元包括獲取子單元,用于獲取初選目標數據網站;確定子單元,用于按照預定規則,分別判斷每個初選目標數據網站是否符合要求, 如果是,則將該初選目標數據網站確定為目標數據網站。所述第一存儲單元包括
訪問子單元,用于訪問每個目標數據網站,獲取每個目標數據網站上的每個網頁 的網頁內容;采集子單元,用于利用關鍵詞匹配或正則表達式字符串匹配方式從網頁內容中采 集所需信息;存儲子單元,用于將采集到的所需信息按照所屬類別的不同分別存儲到所述數據 庫中。所述采集子單元進一步用于,剔除網頁內容中的超文本鏈接標示語言HTML標簽 以及無用的空白字符,并確定網頁內容的文字編碼方式是否符合要求,如果不符合,則將其 轉換為預定的文字編碼方式。該裝置進一步包括更新單元,用于將所確定的每個目標數據網站,以及從每個目標數據網站上采集 所需信息的方式進行保存,依據所保存的信息,對所述數據庫進行實時或定時更新。該裝置進一步包括顯示單元,用于生成搜索界面,并根據用戶輸入的關鍵詞,在所述數據庫中搜索包 含所述關鍵詞的信息顯示給用戶;其中,當所述關鍵詞的數量為一個時,在不同類別中分別搜索包含所述關鍵詞的信息, 并將搜索到的每個類別中包含所述關鍵詞的前N條信息顯示給用戶,所述N為正整數;當所 述關鍵詞的數量為兩個以上時,確定用戶是否需要進行比較搜索,如果是,則針對每個關鍵 詞,分別在不同類別中搜索包含所述關鍵詞的信息,并將搜索到的每個關鍵詞所對應的同 一類別中的前N條信息以對照的形式同時顯示給用戶。所述顯示單元進一步用于,按照預先設定的鏈接關系,搜索與包含所述關鍵詞的 信息相關的信息并顯示給用戶。可見,采用本發明的技術方案,可對互聯網上的雜亂無章的數據進行整理,進行有 效分類,利用整理好的數據建立數據庫,同時,可任由用戶編輯或創建新的數據,并將其保 存到數據庫中,這樣,即使是原有互聯網上沒有的信息,也能在本發明所述數據庫中保存下 來,從而降低了用戶搜索不到所需信息的概率;再有,本發明所述方案使得用戶在進行搜索 時,一次就能獲取到關于所輸入的關鍵詞的方方面面的所有信息,另外,與現有技術相比, 本發明所述方案按照不同類別對搜索到的信息進行顯示,從而方便了用戶從中準確查找到 自己所需的信息;再有,本發明所述方案可進一步顯示出與包含用戶輸入的關鍵詞的信息 相關的其它信息,從而為用戶提供了盡可能多的信息量,提升了用戶體驗。
圖1為本發明所述方案的整體流程示意圖。圖2為本發明方法實施例的流程圖。圖3為本發明裝置實施例的組成結構示意圖。
具體實施例方式針對現有技術中存在的問題,本發明中提出一種全新的數據庫建立方案,如圖1 所示,圖1為本發明所述方案的整體流程示意圖,即對互聯網上已有的數據進行整理,確定目標數據網站,并從每個目標數據網站上采集所需信息,將采集到的所需信息按照所屬類 別的不同分別存儲到數據庫中;同時,可由用戶根據需要,自己編輯或創建數據,并將用戶 編輯或創建的數據存儲到所建立的數據庫中,以便對數據庫中所存儲的信息進行完善。為使本發明的目的、技術方案及優點更加清楚明白,以下參照附圖并舉實施例,對 本發明作進一步地詳細說明。圖2為本發明方法實施例的流程圖。如圖2所示,包括以下步驟步驟201 確定目標數據網站。本步驟中,首先,利用已有的搜索引擎,搜索所有初選目標數據網站;然后,判斷各 初選目標數據網站是否符合預定要求,如果符合,則將該初選目標數據網站確定為目標數 據網站。舉例說明在現有的某一搜索引擎的搜索界面上輸入關鍵詞“餐館信息”,那么將 會得到一系列有關餐館信息匯總的網站(這些網站均需要是不會引起版權糾紛的網站,即 沒有版權保護的網站),這些網站即為初選目標數據網站;然后,逐個分析每個初選目標數 據網站上包括的餐館數目,如果大于某一閾值,比如一萬個,則將該初選目標數據網站確定 為目標數據網站。如何分析每個初選目標數據網站上包括的餐館數目為現有技術,不再贅 述。另外,通常無需對搜索出的所有初選目標數據網站均進行分析,比如可只分析顯示在首 頁的網站等,具體實現方式不限。步驟202 從所確定的目標數據網站上采集所需信息,并將采集到的所需信息按 照所屬類別的不同分別存儲到數據庫中。本步驟中,分別訪問確定出的每個目標數據網站,從每個目標數據網站上采集所 需的信息,比如餐館名稱、地址、聯系電話以及介紹等。在實際應用中,在采集所需信息之前,需要首先獲取每個目標數據網站上的每個 網頁的網頁內容,具體獲取方式如下分析每個目標數據網站的統一資源定位符(URL,Uniform ResourceLocator),確 定每個網頁的網址是否有規律可循,如果是,則根據所述規律構造循環條件,并利用構造出 的循環條件依次訪問每個網頁,獲取每個網頁的網頁內容;否則,通過對目標數據網站的源 代碼進行分析或利用搜索引擎進行搜索,獲取每個網頁的網址,按照確定出的網址訪問每 個網頁,獲取網頁內容。舉例說明假設某關于餐館信息匯總的網站共包括5000個網頁,其中,每個餐館對應的介 紹信息所在網頁的網址均為該網站的網址加上該網頁對應的數字編號,如,//www. mdbchina. cn/persons/123,則可利用其中的數字部分來構造循環條件。即首先訪問 //www. mdbchina. cn/persons/1,獲取該網頁的網頁內容,并采集其中的所需信息進 行存儲,然后訪問http //www. mdbchina. cn/persons/2,獲取該網頁的網頁內容,并采集其 中的所需信息進行存儲,依次類推。如果沒有上述規律可循,那么可通過對該網站的源代碼進行分析,獲取各個餐館 對應的介紹信息所在網頁的網址,通常,這種匯總類的網站會在首頁或前幾頁中以列表的 形式顯示出各個餐館,那么可通過分析依次確定出每個餐館對應的介紹信息所在網頁的網 址;或者,也可以借助于已有的搜索引擎,將各餐館的名稱作為關鍵詞,分別輸入到搜索引擎中,然后訪問搜索到的介紹該餐館的網頁的網址(如維基百科),并獲取網頁內容。按照上述任一方式獲取到網頁內容后,后續,剔除每個網頁的網頁內容中的超文 本鏈接標示語言(HTML,Hypertext Markup Language)標簽以及無用的空白字符。另外,由 于國內大多數網站的網頁文字編碼方式不統一,比如有的網站采用GB2312編碼方式,而有 的網站采用UTF-8編碼方式,所以,為避免后續采集所需信息時出錯,可預先判斷每個網頁 的網頁內容的文字編碼方式是否符合要求,如果不符合,則將其轉換為預定的文字編碼方 式,如何轉換為現有技術。之后,按照關鍵詞匹配或正則表達式字符串匹配等方式從每個網頁的網頁內容中 采集所需信息。這兩種方式的具體實現均為現有技術,不再贅述。另外,此處僅為舉例說明, 如果采用其它方式,只要能夠達到采集目的,也是可以的。需要說明的是,本實施例中所提到的所需信息,既包括文字,也包括圖片,可以將 采集到的圖片與相關文字建立對應關系,比如NBA球隊的LOGO,各個國家的國旗等。將采集到的信息按照所屬類別的不同,分別進行存儲,從而建立起數據庫。具體分 類方式不限,比如,可首先分為多個大類,包括“衣”、“食”、“住”、“行”、“娛樂”、“教育”等,然 后每個大類又可進一步分別一定數量的小類,比如“教育”可分為“大學”、“中學”、“小學”、 “幼兒園”以及“培訓班”等各小類,“食”可分為“中餐館”、“西餐館”、“韓國料理”等各小類。另外,本實施例中,還可對數據庫中存儲的數據進行實時或定時更新。具體更新方 式可以是重復步驟201 202所述過程。或者,也可以將在建立數據庫時所確定的每個目 標數據網站,以及從每個目標數據網站上采集所需信息的方式,包括如何獲取網頁內容以 及用哪種方式從網頁內容中采集所需信息等均進行保存,后續依據所保存的信息,對數據 庫進行實時或定時更新。簡單來說,就相當于是建立了一個表格,該表格中保存有每個目標 數據網站的網址與其對應的所需信息采集方式,當需要對數據庫進行更新時,將表格所示 內容依次執行一遍,如果采集到的所需信息與數據庫中已經存儲的信息不同,則進行更新。步驟203 接收用戶編輯或創建的數據,將該數據按照所屬類別的不同分別存儲 到數據庫中。在實際應用中,可根據數據庫中存儲的信息建立一網站,網站首頁可顯示各不同 的大類,用戶通過點擊相應的大類的名稱,可進入到其下的小類,依次類推。如何建立網站 為現有技術,不再贅述。假設用戶點擊打開了 “XX學校”對應的網頁,那么本實施例中,允許用戶對所顯 示的內容進行編輯,比如,可在界面上顯示一“編輯”按鈕,系統通過捕捉用戶鼠標動作確定 用戶點擊此按鈕后,為用戶顯示對應的編輯界面,然后當確定用戶編輯完畢(用戶點擊了 “保存”按鈕)后,將編輯后的內容存儲到數據庫中。另外,本實施例中,還允許用戶自己創 建數據,比如,用戶發現“學校”大類下的“幼兒園”小類中沒有自己曾所在的幼兒園,那么 可點擊界面上的“創建”按鈕,系統通過捕捉用戶鼠標的動作確定用戶點擊此按鈕后,為用 戶顯示對應的創建界面,需要說明的是,該創建界面的格式需要與已有的介紹其它幼兒園 網頁的格式相同,待確定用戶創建完畢后,將用戶所輸入的信息存儲到的數據庫中。由于對 于系統來說,用戶所創建的內容所屬的小類以及大類等都是已知的,所以在存儲時,能夠正 確地將用戶所輸入的信息存儲到相應的位置。步驟204:生成搜索界面,并根據用戶輸入的關鍵詞,在數據庫中搜索包含所述關鍵詞的信息顯示給用戶。結合步驟203,可在網站首頁上顯示一搜索窗口,供用戶輸入其要搜索的信息的關 鍵詞,待監測到用戶輸入了某一關鍵詞后,在數據庫所存儲的不同類別信息中分別搜索包 含該關鍵詞的信息,并將搜索到的每個類別中包含該關鍵詞的前N條信息顯示給用戶。假設用戶輸入的關鍵詞為“ X X大學”,那么系統將在所有的不同類別中分別搜索 包含“X χ大學”的信息,比如,在“大學”類別中搜索到了一條與該學校相關的信息,在“歷 史事件”類別中搜索到了 100條與該學校相關的信息,在“人物”類別中搜索到了 50條與該 學校相關的信息,在“旅游景點”類別中搜索到了 30條與該學校相關的信息,那么在實際顯 示時,為了方便用戶閱讀,可以只顯示每個類別中最熱門的前N條信息,比如前2條。這樣,對于用戶來說,采用本發明所述方案后,一次就能獲取到關于所輸入的關鍵 詞的方方面面的所有信息,提升了用戶體驗,而且,與現有技術相比,本發明所述方案按照 不同類別對搜索到的信息進行顯示,方便了用戶從中查找自己所需的信息。另外,本實施例還提供了 一種比較搜索方式。假設用戶輸入了兩個關鍵詞,那么首 先判斷用戶是否需要進行比較搜索(確定用戶是否點擊了“比較搜索”按鈕),如果是,則針 對每個關鍵詞,分別按照上述只輸入一個關鍵詞的方式進行處理,但顯示時,需要按照對照 的方式進行顯示。比如,假設用戶輸入了兩個學校的名字作為關鍵詞,那么在顯示時,可以 在頁面的左側顯示搜索到的關于第一個學校的信息,在頁面右側顯示搜索到的關于第二個 學校的信息,并且,屬于同一類別的信息在顯示時是一一對應的。另外,在建立數據庫時,可以為每個數據建立相關鏈接,比如,可以將與“XX大 學”屬于同一城市且屬于同一級別的學校作為“XX大學”的鏈接,這樣,當用戶搜索“XX 大學”時,可將與其相關的信息,即與“XX大學”有鏈接關系的其它學校的信息一并顯示 給用戶。再有,在實際應用中,也可不通過監測搜索窗口的方式確定用戶輸入的關鍵詞,而 是監測用戶的鼠標操作,如果監測到用戶通過層層點擊,最終點擊到了“X X大學”,那么則 可將“XX大學”作為關鍵詞,進行搜索和顯示。基于上述方法,圖3為本發明裝置實施例的組成結構示意圖。如圖3所示,包括 數據庫30、確定單元31、第一存儲單元32以及第二存儲單元33 ;其中確定單元31,用于確定目標數據網站;第一存儲單元32,用于從每個目標數據網站上采集所需信息,并將采集到的所需 信息按照所屬類別的不同分別存儲到數據庫30中;第二存儲單元33,接收用戶編輯或創建的數據,并將該數據按照所屬類別的不同 分別存儲到數據庫30中。其中,確定單元31中可具體包括獲取子單元311,用于獲取初選目標數據網站;確定子單元312,用于按照預定規則,分別判斷每個初選目標數據網站是否符合預 定要求,如果是,則將該初選目標數據網站確定為目標數據網站。第一存儲單元32中可具體包括訪問子單元321,用于訪問每個目標數據網站,獲取每個目標數據網站上的每個網 頁的網頁內容;
采集子單元322,用于利用關鍵詞匹配或正則表達式字符串匹配方式從網頁內容 中采集所需信息;存儲子單元323,用于將采集到的所需信息按照所屬類別的不同分別存儲到數據 庫30中。其中,采集子單元322可進一步用于,剔除網頁內容中的HTML標簽以及無用的空 白字符,并確定網頁內容的文字編碼方式是否符合要求,如果不符合,則將其轉換為預定的 文字編碼方式。另外,圖3所示裝置中還可進一步包括更新單元34,用于將所確定的每個目標數據網站,以及從每個目標數據網站上采 集所需信息的方式進行保存,依據所保存的信息,對數據庫30進行實時或定時更新。顯示單元35,用于生成搜索界面,并根據用戶輸入的關鍵詞,在數據庫30中搜索 包含所述關鍵詞的信息顯示給用戶;其中,當關鍵詞的數量為一個時,在不同類別中分別搜索包含所述關鍵詞的信息,并將 搜索到的每個類別中包含所述關鍵詞的前N條信息顯示給用戶,N為正整數;當關鍵詞的數 量為兩個以上時,確定用戶是否需要進行比較搜索,如果是,則針對每個關鍵詞,分別在不 同類別中搜索包含所述關鍵詞的信息,并將搜索到的每個關鍵詞所對應的同一類別中的前 N條信息以對照的形式同時顯示給用戶。進一步地,顯示單元35還可按照預先設定的鏈接關系,搜索與包含所述關鍵詞的 信息相關的信息,并顯示給用戶。圖3所示裝置實施例的具體工作流程請參照圖2所示方法實施例中的相應說明, 此處不再贅述。總之,采用本發明的技術方案,可對互聯網上的雜亂無章的數據進行整理,進行有 效分類,利用整理好的數據建立數據庫,同時,可任由用戶編輯或創建新的數據,并將其保 存到數據庫中,這樣,即使是原有互聯網上沒有的信息,也能在本發明所述數據庫中保存下 來,從而降低了用戶搜索不到所需信息的概率;再有,本發明所述方案使得用戶在進行搜索 時,一次就能獲取到關于所輸入的關鍵詞的方方面面的所有信息,另外,與現有技術相比, 本發明所述方案按照不同類別對搜索到的信息進行顯示,從而方便了用戶從中準確查找到 自己所需的信息;再有,本發明所述方案可進一步顯示出與包含用戶輸入的關鍵詞的信息 相關的其它信息,從而為用戶提供了盡可能多的信息量,提升了用戶體驗。綜上所述,以上僅為本發明的較佳實施例而已,并非用于限定本發明的保護范圍。 凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的 保護范圍之內。
權利要求
一種數據庫建立方法,其特征在于,包括確定目標數據網站;從每個目標數據網站上采集所需信息,并將采集到的所需信息按照所屬類別的不同分別存儲到數據庫中;接收用戶編輯或創建的數據,并將該數據按照所屬類別的不同分別存儲到所述數據庫中。
2.根據權利要求1所述的方法,其特征在于,所述確定目標數據網站包括 獲取初選目標數據網站;按照預定規則,分別判斷每個初選目標數據網站是否符合要求,如果是,則將該初選目 標數據網站確定為目標數據網站。
3.根據權利要求1所述的方法,其特征在于,所述從每個目標數據網站上采集所需信 息包括訪問每個目標數據網站,獲取每個目標數據網站上的每個網頁的網頁內容; 利用關鍵詞匹配或正則表達式字符串匹配方式從網頁內容中采集所需信息。
4.根據權利要求3所述的方法,其特征在于,所述訪問每個目標數據網站,獲取每個目 標數據網站上的每個網頁的網頁內容包括分析每個目標數據網站的統一資源定位符URL,確定該目標數據網站的網頁網址是否 有規律可循,如果是,則根據所述規律構造循環條件,并利用構造出的循環條件依次訪問每 個網頁,獲取網頁內容;否則,通過對目標數據網站的源代碼進行分析或利用搜索引擎進行搜索,獲取每個網 頁的網址,按照確定出的網址訪問每個網頁,獲取網頁內容。
5.根據權利要求3所述的方法,其特征在于,所述利用關鍵詞匹配或正則表達式字符 串匹配方式從網頁內容中采集所需信息之前,進一步包括剔除網頁內容中的超文本鏈接標示語言HTML標簽以及無用的空白字符; 確定網頁內容的文字編碼方式是否符合要求,如果不符合,將其轉換為預定的文字編 碼方式。
6.根據權利要求1 5中任一項所述的方法,其特征在于,該方法進一步包括將所確定的每個目標數據網站,以及從每個目標數據網站上采集所需信息的方式進行 保存,依據所保存的信息,對所述數據庫進行實時或定時更新。
7.根據權利要求1 5中任一項所述的方法,其特征在于,該方法進一步包括 生成搜索界面;接收用戶輸入的關鍵詞,并在所述數據庫中搜索包含所述關鍵詞的信息顯示給用戶。
8.根據權利要求7所述的方法,其特征在于,所述搜索包含所述關鍵詞的信息顯示給 用戶包括當所述關鍵詞的數量為一個時,在不同類別中分別搜索包含所述關鍵詞的信息,并將 搜索到的每個類別中包含所述關鍵詞的前N條信息顯示給用戶;所述N為正整數;當所述關鍵詞的數量為兩個以上時,確定用戶是否需要進行比較搜索,如果是,則針對 每個關鍵詞,分別在不同類別中搜索包含所述關鍵詞的信息,并將搜索到的每個關鍵詞所 對應的同一類別中的前N條信息以對照的形式同時顯示給用戶。
9.根據權利要求7所述的方法,其特征在于,該方法進一步包括按照預先設定的鏈接 關系,搜索與包含所述關鍵詞的信息相關的信息,并顯示給用戶。
10.一種數據庫建立裝置,其特征在于,包括數據庫、確定單元、第一存儲單元以及第 二存儲單元,其中所述確定單元,用于確定目標數據網站;所述第一存儲單元,用于從每個目標數據網站上采集所需信息,并將采集到的所需信 息按照所屬類別的不同分別存儲到所述數據庫中;所述第二存儲單元,用于接收用戶編輯或創建的數據,并將該數據按照所屬類別的不 同分別存儲到所述數據庫中。
11.根據權利要求10所述的裝置,其特征在于,所述確定單元包括 獲取子單元,用于獲取初選目標數據網站;確定子單元,用于按照預定規則,分別判斷每個初選目標數據網站是否符合要求,如果 是,則將該初選目標數據網站確定為目標數據網站。
12.根據權利要求10所述的裝置,其特征在于,所述第一存儲單元包括訪問子單元,用于訪問每個目標數據網站,獲取每個目標數據網站上的每個網頁的網 頁內容;采集子單元,用于利用關鍵詞匹配或正則表達式字符串匹配方式從網頁內容中采集所 需{曰息;存儲子單元,用于將采集到的所需信息按照所屬類別的不同分別存儲到所述數據庫中。
13.根據權利要求12所述的裝置,其特征在于,所述采集子單元進一步用于,剔除網頁 內容中的超文本鏈接標示語言HTML標簽以及無用的空白字符,并確定網頁內容的文字編 碼方式是否符合要求,如果不符合,則將其轉換為預定的文字編碼方式。
14.根據權利要求10 13中任一項所述的裝置,其特征在于,該裝置進一步包括更新單元,用于將所確定的每個目標數據網站,以及從每個目標數據網站上采集所需 信息的方式進行保存,依據所保存的信息,對所述數據庫進行實時或定時更新。
15.根據權利要求10 13中任一項所述的裝置,其特征在于,該裝置進一步包括 顯示單元,用于生成搜索界面,并根據用戶輸入的關鍵詞,在所述數據庫中搜索包含所述關鍵詞的信息顯示給用戶;其中,當所述關鍵詞的數量為一個時,在不同類別中分別搜索包含所述關鍵詞的信息,并將 搜索到的每個類別中包含所述關鍵詞的前N條信息顯示給用戶,所述N為正整數;當所述關 鍵詞的數量為兩個以上時,確定用戶是否需要進行比較搜索,如果是,則針對每個關鍵詞, 分別在不同類別中搜索包含所述關鍵詞的信息,并將搜索到的每個關鍵詞所對應的同一類 別中的前N條信息以對照的形式同時顯示給用戶。
16.根據權利要求15所述的裝置,其特征在于,所述顯示單元進一步用于,按照預先設 定的鏈接關系,搜索與包含所述關鍵詞的信息相關的信息并顯示給用戶。
全文摘要
本發明公開了一種數據庫建立方法,包括確定目標數據網站;從每個目標數據網站上采集所需信息,并將采集到的所需信息按照所屬類別的不同分別存儲到數據庫中;接收用戶編輯或創建的數據,并將該數據按照所屬類別的不同分別存儲到所述數據庫中。本發明同時公開了一種數據庫建立裝置。應用本發明所述的方法和裝置,能夠使用戶準確方便地搜索到自己所需的信息。
文檔編號G06F17/30GK101894109SQ200910084130
公開日2010年11月24日 申請日期2009年5月20日 優先權日2009年5月20日
發明者熊燁, 袁學軍 申請人:無錫比比網信息有限公司