專利名稱:一種用于間接爬行的系統和過程的制作方法
技術領域:
本發明領域總體上涉及到有關計算機的信息搜索和檢索,具體而言,涉及到結構化地搜索網上的內容。
作為理解本發明的背景,因特網(也稱為萬維網或者Web)在其普及方面作出的貢獻使得用戶可以利用的多媒體和流媒體文件供過于求。然而,查找淹沒于Web上的數以萬計的文件之中的具體多媒體或流媒體文件卻常常是一件極其困難的任務。可從Web上獲得的信息內容的容量和種類可能在以相當可觀的速度持續增加。這樣的增長結合Web的高度分散性使得在定位特定信息內容上產生相當大的困難。
流媒體是指這樣的音頻、視頻、多媒體、文本以及交互式數據文件,它們通過因特網或者其它網絡環境傳送到用戶的計算機,并在整個文件都傳送完畢之前,就開始在用戶的計算機上播放。流媒體的一個優點在于在整個文件都被下載之前,流媒體文件就開始播放,從而免去用戶長久等待,這種長久等待通常是與下載整個文件相關聯的。數字記錄的音樂、電影、預告片、新聞報道、無線廣播以及事件實況都有助于增加Web上的流內容。此外,不怎么昂貴的高帶寬連接(諸如電纜、DSL以及T1)使因特網用戶能更加快速、更加可靠地訪問新聞機構、好萊塢電影制片商、獨立生產商、記錄標記、甚至家庭用戶的流媒體內容。
用戶通常使用搜索引擎搜索因特網上的具體信息。搜索引擎包括一組在網絡(例如局域網(LAN)或者因特網以及萬維網)中的網絡站點上可被訪問的程序。一種被稱為“機器人”或“蜘蛛”的程序在搜索文檔(例如網頁)以及其它程序時預先遍歷網絡,并建立在所述文檔中發現的關鍵字的大型索引文件。典型地,用戶形成包含一個或多個搜索詞的查詢,然后將查詢提交給搜索引擎的另一個程序。在響應時,所述搜索引擎檢查自己的索引文件,并且顯示與搜索查詢相匹配的文檔列表(通常作為超鏈接)。然后,用戶可以激活一個超鏈接來查看在所述文檔中包含的信息。
然而,搜索引擎存在有缺陷。例如,許多典型的搜索引擎是適用于僅僅發現文本信息的。具體而言,它們并不能很好地用于對包含在結構化的數據庫(例如關系數據庫)中的信息、與語音有關的信息、與音頻有關的信息、多媒體以及流媒體作索引等等。此外,混合來自不相兼容的數據源的數據對于常規搜索引擎是很困難的。此外,當搜索引擎搜索(也稱為爬行)網絡時,它典型地采用隨機的方式通過跟蹤它所遇到的web鏈接進行爬行。典型地,搜索引擎(例如,網上爬行器(web crawler))對所有網站進行分類。這種低效類型的搜索常常產生非常大量的數據,這些數據對于生成可搜索的索引而言是沒用的。這尤其適用于像流媒體這樣的對象。
本發明是一種用于搜索基于網絡的內容中的目標內容的方法,包括確定結構化數據存儲的選定層,以便搜索與目標內容有關的內容。本方法還包括搜索選定層中與目標內容有關的內容。
對于本發明,通過結合附圖閱讀以下詳細的描述能夠得到最好的理解。附圖的各種技術特征可以是不按照比例的。包括在附圖中的是以下的圖圖1是互聯的計算機系統網絡的系統的形式化概要說明;圖2是根據本發明一個實施例的用于數據存儲的示范性結構化格式的框圖;圖3是根據本發明一個實施例的示范性站點地圖的框圖;圖4是在本發明一個示范性實施例的數據庫400中存儲的信息的圖解;以及圖5是根據本發明的示范性搜索過程的流程圖。
因特網是世界范圍的計算機網絡系統,它是其中一臺計算機的用戶能夠從任何其他計算機中獲得信息以及與其他計算機的用戶進行通信的網絡的網絡。因特網最廣泛應用的部分是萬維網(常縮寫為“WWW”或者稱為“Web”)。Web的突出特征是它使用超文本,它是一種交叉引用的方法。在大多數的網站中,某些單詞或者短語是以不同于周圍文本顏色的文本出現的。這種文本常常還有下劃線。有時,是“可點擊”的按鈕、圖像或者部分圖像。使用Web可以訪問數以萬計的信息頁。網上“沖浪”是通過網頁瀏覽器(諸如NETSCAPE NAVIGATOR以及MICROSOFT INTERNET EXPLORER)實現的。特定網站的外觀可以有些許變化,這取決于所使用的特定瀏覽器。最近版本的瀏覽器帶有“插件(plugins)”,它們提供動畫、虛擬現實、聲音和音樂。
本發明是這樣一種系統和方法,所述系統和方法用于通過搜索系統使用元數據在計算機網絡上檢索基于網絡的內容,包括媒體文件和與媒體文件有關的數據。在此所使用的術語“媒體文件”包括音頻、視頻、文本、多媒體數據文件以及流媒體文件。多媒體文件包括文本、圖像、視頻以及音頻數據的任意組合。流媒體包括音頻、視頻、多媒體、文本以及交互式數據文件,它們是通過因特網或者其它通信網絡環境傳送到用戶的計算機的,在整個文件都傳送完畢之前,它們就開始在用戶的計算機/設備上播放。流媒體的一個優勢在于在整個文件都被下載之前,流媒體文件就開始播放,從而免去了用戶長久等待,這種長久等待通常是與下載整個文件相關聯的。數字記錄的音樂、電影、預告片、新聞報道、無線廣播以及事件實況都有助于增加Web上的流內容。此外,通過使用高帶寬連接(諸如電纜、DSL、T1線以及無線網絡(例如基于2.5G或者3G的蜂窩網絡))而在通信網絡成本上的降低會使因特網用戶能更加快速、更加可靠地訪問新聞機構、好萊塢電影制片商、獨立生產商、記錄標記、甚至家庭用戶他們自己的流媒體內容。
流媒體的例子包括歌曲、政治演講、新聞廣播、電影預告片、實況廣播、無線廣播、財政新聞發布會、現場音樂廳、網絡攝像機(web-cam)的連續鏡頭以及其他特殊事件。流媒體的編碼采用各種格式,包括REALAUDIO,REALVIDEO,REALMEDIA,APPLE QUICKTIME,MICROSOFT WINDOWSMEDIA FORMAT,QUICKTIME,MPEG-2 LAYERIII AUDIO以及MP3。通常,媒體文件指定有擴展名(后綴),用于指示與具體格式的兼容性。例如,以擴展名.ram,.rm,.rpm之一結尾的媒體文件(例如音頻和視頻文件)與REALMEDIA格式相兼容。在下表中列出了文件擴展名以及與它們相兼容的格式的一些例子。更詳盡的媒體類型、擴展名以及兼容格式的列表可以在http//www.bowers.cc/extensions 2.htm中查找到。
表1
作為描述性數據的元數據字面意思是“關于數據的數據”。元數據是這樣的數據,它包括描述其他數據(例如媒體文件)的內容或者屬性的信息。例如,標題為“用于資源發現的都柏林核心元數據”(http//www.ietf.org/rfc/rfc 2413.txt)的文檔將元數據分為三組,它們概略地指示在其中所包含的信息的類別或者范圍。這三個組是(1)主要與資源的內容有關系的元素,(2)按知識產權觀看時主要與資源有主要關系的元素,以及(3)主要與資源的實例化有關系的元素。落在這些組的元數據的例子表示在下表中。
表2
元數據的來源包括網頁內容、統一資源指示符(URI)、媒體文件以及用于傳送媒體文件的傳輸流。網頁內容包括HTML、XML、元標記以及在網頁上的任何其它文本。如在此更加詳細的解釋,元數據還可以從URL、網頁、媒體文件以及其它元數據中獲得。在媒體文件之中的元數據可能包括在媒體文件中所包含的信息,例如多媒體或者流文件的諸如頭標和尾標。元數據還可以從例如媒體/元數據的傳輸流諸如TCP/IP(例如包)、ATM、幀中繼、基于蜂窩的傳輸模式(例如基于蜂窩的電話模式)、MPEG傳輸、HDTV廣播以及基于無線的傳輸中獲得。元數據還可以在流中并行地傳輸或者作為用于傳輸媒體文件的流的一部分傳輸(高清晰度電視廣播在一個流上傳輸,元數據則采用電子可編程向導的形式在第二流上傳輸)。
參考圖1,它表示互聯的計算機系統網絡102和112的系統100的形式化的概要說明。每個計算機系統網絡102和112包括至少一個對應的本地計算機處理器單元104(例如服務器)以及本地網絡用戶108,其中所述本地計算機處理器單元104與至少一個對應的本地數據存儲單元106(例如數據庫)相連。例如,計算機系統網絡可以是局域網(LAN)102或者是廣域網(WAN)112。本地計算機處理器單元104通過所述網絡(例如因特網)114選擇性地連到多個媒體設備110。多個本地計算機處理器單元104中的每個、網絡用戶處理器108和/或媒體設備110具有與其本地計算機系統相連接的各種設備,諸如掃描儀,條形碼讀取器,打印機以及其它接口設備。為了訪問網頁的內容,本地計算機處理器104,網絡用戶處理器108和/或媒體設備110(與WEB瀏覽器一起被編程)(例如通過使用鼠標點擊)定位和選擇特定網頁,所述特定網頁的內容位于計算機系統網絡102,112的本地數據存儲單元106中。網頁可以包含至其它計算機系統和其它網頁的鏈接。
本地計算機處理器104,網絡用戶處理器108和/或媒體設備110可以是計算機終端、能夠使用網際協議(IP)通過因特網進行通信的尋呼機、具有因特網接入的公用電話亭、相連接的電子規劃器(planner)(例如Palm公司所制造的掌上(Palm)設備)或者能夠通過網絡進行交互式通信的其它設備(諸如電子個人規劃器)。本地計算機處理器104,網絡用戶處理器108和/或媒體設備110也可以是使用無線訪問協議(WAP)連接到因特網以及通過因特網進行通信的無線設備,諸如手持式裝置(例如蜂窩電話)。網絡102和112可以通過調制解調器連接、局域網(LAN)、電纜調制解調器、數字用戶線(DSL)、雙絞線、基于無線的接口(蜂窩,紅外,無線電波)或者利用數據信號的等效的連接與網絡114相連接。數據庫106可以通過本領域已知的任何裝置與本地計算機處理器單元104相連接。數據庫106可以采用任何類型合適的存儲器形式(例如磁、光等等)。數據庫106可以是外部存儲器或者位于本地計算機處理器104、網絡用戶處理器108和/或媒體設備110之中。
計算機還可以包括嵌入在消費產品之中的計算機以及其它計算機。例如,本發明的實施例可以包括嵌入在電視機、機頂盒、音頻/視頻接收機、CD播放器、VCR、DVD播放器、多媒體使能設備(例如電話)以及因特網使能的設備中的計算機(充當處理器)。
在本發明的示范性實施例中,網絡用戶處理器108和/或媒體設備110包括通過網絡114使用戶處理器108和/或媒體設備110能與本地處理器104相互通信并且彼此相通信的一個或多個程序模塊以及一個或多個數據庫。程序模塊包括程序代碼,所述程序代碼是用PERL、擴展標記語言(XML)、Java、超文本標記語言(HTML)或者使網絡用戶處理器108能夠通過存儲在網絡用戶處理器108之中的瀏覽器程序訪問本地處理器104的程序模塊的任何其它等效的語言編寫的。
網站和網頁位于網絡(諸如因特網)上,信息(內容)駐留在所述網絡中。網站可以包括單一的或者若干個網頁。網頁是通過統一資源定位符(URL)來標識的,所述統一資源定位符作為URI的例子包括網絡上的網頁的位置(地址)。網站以及網頁可以位于局域網102、廣域網112、網絡114、處理單元(例如服務器)104、用戶處理器108和/或媒體設備110之中。信息或者內容可以存儲在例如任何存儲設備(諸如硬盤、光盤以及主機設備)之中。內容可以采用各種格式存儲,所述格式可以隨網站的不同,甚至是網頁的不同而不同。
典型地,當搜索網絡上的內容時,代理器(諸如,“網上爬行器”或者“機器人”)采用偽隨機方式循著它所遇到的每個Web鏈接來爬行(搜索)網絡。爬行只是從網絡收集描述性數據(諸如元數據)的一個說明性的例子。這種類型的偽隨機搜索過程常常會導致去搜索非常大量的非必要數據。本發明人已經發現了這樣一種技術,其中搜索是受到限制的,以便避免搜索非必要的內容。簡而言之,第一次碰到網站(或者內容的任何位置,諸如文件目錄)時,實施窮舉式搜索,并且生成站點地圖。此外,將網站的URL添加到所遇到的網站的目錄。下一次遇到所述網站時,所述代理器利用所述目錄以及相應的站點地圖來僅搜索相關的內容(稱為聚焦式爬行)。此外,因為因特網的動態性質,為了更新所述站點地圖和所述目錄,不時地對網站進行重新訪問來實施另一次窮舉式搜索/爬行。站點地圖包括結構化的數據存儲格式,其中所述網站的內容(或者文件目錄)是按照層次組織的(也稱為分層)。
圖2是根據本發明一個實施例的用于數據存儲的示范性結構化格式的框圖。所述結構化數據存儲被格式化為層。所述結構化數據存儲可以包括任意數目的層。數據存儲的每一層可以包括與公共內容有關的任意數目的鏈接、對象、元數據、混雜文本,或者它們的任意組合。對象是網絡上的可搜索的實體。例如,對象可以是多媒體文件或者流媒體文件。在本發明的一個示范性實施例中,每一層代表在搜索特定網站時所遇到的網頁、另一個網站、對象(例如多媒體、流媒體)、元數據、混雜文本或者它們的任意組合。更具體而言,每一層包括至網頁、另一個網站、對象、元數據、混雜文本、或者它們的任意組合的鏈接。例如,如圖2所示,第一層代表網站的主頁(例如頂層頁212)。頂層頁212可以包括諸如所述網站的主頁的URL這樣的信息以及可選地在所述網站上包含的URL列表。第二層代表在進行搜索時在所述網站上所遇到的下一網頁。第三層代表在進行所述搜索時當退出第二層時在所述網站上遇到的下一網頁。層的數目和/或每一層的內容是可以重新配置的。也就是說,層的數目和/或每一層的內容可以周期性地和/或按需加以更新。
站點地圖包括根據結構化數據存儲格式而格式化的網站內容。圖3是根據本發明一個實施例的示范性站點地圖300的框圖。站點地圖300被格式化為五層。這五層相當于所遇到的網站的網頁。站點地圖300的第一層包括頂層頁312(主頁)。頂層312包括所述網站的主頁的URL,并且可以包括其它信息(諸如在該網站上的網頁的URL)。站點地圖300的第二層包括位于從主頁向下的下一層網頁上的內容。站點地圖300的第二層包括音樂對象314和316以及網頁318。對象314和316代表至在該網站所包含的音樂對象的鏈接。網頁318包含在該網站上具有音樂對象的網頁的的URL列表。站點地圖300的第三層包括具有公共視頻媒體屬性的內容。站點地圖300的第三層包括視頻對象320、網頁322以及至外部網站的鏈接324。對象320代表至在該網站上包含的視頻對象的鏈接。網頁322包括在該網站上的具有視頻媒體對象的網頁的URL列表。至外部網站的鏈接324包括其它網站的URL,所述其它網站包括屬于視頻對象的對象和/或元數據。站點地圖300的第四層包括網頁326和至外部網站的鏈接328。站點地圖300的第五層包括與目標內容有關的元數據和文本數據。
站點地圖300的格式是示范性的。本發明的站點地圖可包括多于或者小于五層。在本發明的一個實施例中,對第一次所遇到的每個網站都進行窮舉式搜索(例如爬行),并且,相應建立的站點地圖包括用于包含所述網站上所有實體(例如對象、網頁、外部網站、元數據、文本)所需要的層數。在本發明的另一個實施例中,在所述站點地圖中的層數被設置為不超過預定閾值。例如,在單個站點地圖中的層數可以設置為不超過3層。在本發明的又一個實施例中,探試性地確定站點地圖的層數。例如,當第一次遇到特定網站時,對其進行窮舉式搜索,并且,判定出六層包括與流媒體和/或多媒體有關的信息(即目標內容)。在以后的時間可以對同樣的網站進行重新訪問以便實施附加的窮舉式搜索。通過這種探試性技術,可以判定出流媒體和/或多媒體內容一致性地包含在六層站點地圖中。因此。這個例子的站點地圖的層數被設置為六。
當第一次遇到網站時,建立站點地圖,并且將屬于所遇到的網站的信息和對應的站點地圖存儲在數據庫中。圖4是在本發明一個示范性實施例的數據庫400中存儲的信息的圖解。在對目標內容進行搜索的過程中,會遇到各種網站。第一遇到網站時,就為所遇到的網站建立站點地圖。每個站點地圖(例如站點地圖414、416)存儲在數據庫400中。為了確定網站是否前次曾遇到過,通過指示站點地圖存在于所述網站的數據庫中,而將每個所遇到的網站與遇到的網站的目錄412加以比較。遇到的網站的目錄412包括已經建立有站點地圖的每個遇到的網站的URL以及屬于每個網站的內容的信息。遇到的網站的目錄412可以重新配置,并且隨著新站點地圖的建立和/或刪除而繼續進行更新。
根據本發明,搜索網站中的目標內容。目標內容包括查找中的特定詞以及與所述詞有關的信息。數據庫是使用網站搜索的結果來構成的。為了構成這些數據庫,對所述網站不采用隨機形式搜索,而實施聚焦式搜索過程。歷史數據(例如,站點被訪問的頻率、有多少用戶訪問過站點)以及元數據被利用來輔助搜索。此外,如果網站以前遇到過,并且存在有所述網站的站點地圖,則不對該網站進行窮舉式搜索;而實施聚焦式搜索過程。聚焦式搜索(也稱為聚焦式爬行)過程包括僅僅搜索前次已經判定出包含有屬于所述目標內容的內容的網站和/或站點地圖的實體。如圖4所示,條紋實體(諸如實體418)代表包含與目標內容有關的內容的實體。非條紋實體(諸如實體420)代表不包含屬于目標內容的內容的實體。此外,與站點地圖414和416相比,站點地圖422和424包括更多的屬于目標內容的內容。因此,在聚焦式搜索期間,本發明的系統搜索所述站點地圖(例如422和424)的條紋實體(例如418)。
注意,站點地圖416與站點地圖414相比,包含更多的條紋實體;而與站點地圖422或424相比則包含更少的條紋實體。根據預定的閾值,在聚焦式搜索過程中,可以或者不必對站點地圖進行搜索。閾值包括要加以搜索的網站的最大數目,要加以搜索的層的最大數目、要加以搜索的實體的最大數目和/或要加以檢索為搜索結果的數據的最大量。在本發明的示范性實施例中,探試性地確定每個閾值。
圖5所示為根據本發明的示范性搜索過程的流程圖。蜘蛛或者其它適當的代理器搜索網站中的目標內容。在步驟514,定位包含目標的網站。在步驟516,搜索數據庫400以便確定所定位的網站是否是前次遇到的網站。如果所定位的網站是前次遇到的網站,則在步驟518,系統決定根據指示所述網站的站點地圖實施聚焦式搜索。如果所定位的網站不是前次遇到的網站,則在步驟518,系統決定不實施聚焦式搜索,而是對所述網站執行窮舉式搜索。如果判定出所定位的網站不是以前次遇到的網站,則在步驟522對所述網站實施窮舉式搜索。因此,在步驟524建立站點地圖。在步驟526,對數據庫400加以更新以便包括新建立的站點地圖,并且還對遇到的站點目錄412加以更新以便包括新遇到的網站的URL。如果還沒有達到任何閾值,則在步驟528判定搜索包括目標內容的更多的網站。一旦某個網站被定位,過程從步驟514繼續。如果已達到閾值(例如所搜索的網站總數),則在步驟528判定出檢索并提供對目標內容的搜索結果給系統、用戶和/或另一個搜索系統(步驟530)。
如果(在步驟518)判定出將要實施聚焦式搜索,則在步驟614根據相應站點地圖對定位的網站加以搜索。在步驟526對數據庫400進行更新,以便適當地更新相應站點地圖以及遇到的站點目錄412。例如,如果數據庫400指示特定網站包括與目標內容有關的內容,則用相應站點地圖來搜索僅包含與目標內容有關的內容的實體。如果發現所述特定網站不再包含與目標內容有關的內容,就從數據庫400刪除所述站點地圖,并從所述站點目錄412刪除所述網站的URL。如果未達到閾值,則在步驟528確定要搜索包含目標內容的更多網站。一旦定位了網站,所述過程就從步驟514繼續進行。如果已達到了閾值(例如所搜索的網站的總數目),則在步驟528判定出檢索并提供對所述目標內容的搜索結果給系統、用戶和/或另一個搜索系統(步驟530)。
在本發明的另一個示范性實施例中,系統100將屬于所遇到網站的輔助信息存儲在數據庫400中。使用這一輔助信息來確定閾值,諸如要搜索的網站的最大數目、要搜索的層的最大數目、要搜索的實體的最大數目和/或要作為搜索結果檢索的數據的最大量。這些閾值可以統計性地、探試性地和/或按照用戶的輸入加以確定。
在本發明的又一個實施例中,系統100對前次遇到的網站實施后續的徹底搜索(稱為重新爬行)以便更新數據庫400(例如,更新網站的相應站點地圖;更新遇到的站點的目錄412;刪除站點地圖;從目錄412中刪除URL)。所述系統使用輔助信息來確定要實施重新爬行的頻率。實施重新爬行的頻率和時間可以統計性地、探試性地和/或按照用戶的輸入加以確定。
為了實施上述過程,本發明可以按用計算機實現的過程和設備的形式來加以實現。本發明也可以按計算機程序代碼的形式來加以實現,所述計算機程序代碼包括在實際的媒體中,所述媒體例如是軟盤、只讀存儲器(ROM)、CD-ROM、硬盤、高密度盤或者任何其它的計算機可讀存儲媒體,其中,當計算機程序代碼加載到計算機中并由計算機執行時,計算機就成為實施本發明的設備。本發明還可以按計算機程序代碼的形式來加以實現,例如,所述計算機程序代碼或者是存儲到存儲媒體中,或者加載到計算機中并由計算機執行,或者通過某些傳輸媒體(諸如通過電線或者電纜、通過光纖,通過電磁輻射)進行傳輸,其中,當計算機程序代碼被加載到計算機中并由計算機執行時,計算機就變成實踐本發明的設備。當在通用計算機上實施時,計算機程序代碼段就配置處理器以便建立具體的邏輯電路。
與現有技術的搜索代理器相比,本發明的系統100能以更加有效的方式搜索網絡中的目標內容。系統100根據站點地圖提供目標搜索,通過消除對網站中不包含與目標內容有關的內容的網站和目錄的搜索來提供更有效的搜索。這尤其適于屬于沒有被包含在網站中的大多數網站和/或目錄的內容的目標內容(例如流媒體)。此外,本發明的系統100利用統計性地和/或探試性地確定的標準來實施后續的搜索,從而確保系統數據庫的準確性。
權利要求
1.一種搜索基于網絡的內容中的目標內容的方法,所述方法包括如下步驟確定結構化數據存儲的選定層,以便搜索與所述目標內容有關的內容,其中所述結構化數據存儲包括基于網絡的內容;以及搜索所述選定層中與所述目標內容有關的內容。
2.權利要求1的方法,其中所述目標內容包括多媒體、流媒體、多媒體元數據以及流媒體元數據中的至少之一。
3.權利要求1的方法,還包括如下步驟建立所述結構數據存儲。
4.權利要求1的方法,還包括如下步驟確定更新所述結構化數據存儲的時間間隔。
5.權利要求1的方法,還包括如下步驟搜索至少一個網站中的與所述目標內容有關的內容;以及為每個新遇到的網站建立相應的站點地圖。
6.權利要求5的方法,其中每個站點地圖包括至少一層,每一層包括鏈接、對象、以及與公共內容有關的元數據中的至少之一。
7.權利要求5的方法,其中所述數據存儲包括每個遇到的網站的相應站點地圖、以及遇到的站點的目錄。
8.權利要求5的方法,還包括如下步驟確定所遇到的網站是否是前次遇到的網站;如果遇到的網站是前次遇到的網站,則搜索相應站點地圖的選定層;以及如果遇到的網站不是前次遇到的網站,則窮舉式地搜索該網站中的所述目標內容,并建立相應的站點地圖。
9.一種搜索基于網絡的內容中的目標內容的計算機系統,所述計算機系統包括至少一臺計算機,所述系統中的所有計算機都通信地互相連接,其中所述至少一臺計算機中的每一個包括在其中存儲有用于實現所述至少一臺計算機中的每一個和各個之間的通信的至少一個程序,所述至少一個程序中的每個互相結合地操作以便使所述至少一臺計算機執行如下步驟確定結構化數據存儲的選定層,以便搜索與所述目標內容有關的內容(516),其中所述結構化數據存儲包括基于網絡的內容;以及搜索所述選定層中與所述目標內容有關的內容。
10.權利要求9的計算機系統,其中所述目標內容包括多媒體、流媒體、多媒體元數據以及流媒體元數據中的至少之一。
11.權利要求9的計算機系統,其中所述至少一個程序中的每個互相結合地操作以使所述至少一臺計算機還執行如下步驟建立所述結構數據存儲。
12.權利要求9的計算機系統,其中所述至少一個程序中的每個互相結合地操作以使所述至少一臺計算機還執行如下步驟確定更新所述結構化數據存儲的時間間隔。
13.權利要求9的計算機系統,其中所述至少一個程序中的每個互相結合地操作以使所述至少一臺計算機還執行如下步驟搜索至少一個網站中的與所述目標內容有關的內容(522);以及為每個新遇到的網站建立相應的站點地圖(524)。
14.權利要求13的計算機系統,其中每個站點地圖包括至少一層,每一層包括鏈接、對象、以及與公共內容有關的元數據中的至少之一。
15.權利要求13的計算機系統,其中所述數據存儲包括每個遇到的網站的各自的站點地圖、以及遇到的站點的目錄。
16.權利要求13的計算機系統,其中所述至少一個程序中的每個互相結合地操作以使所述至少一臺計算機還執行如下步驟確定所遇到的網站是否是前次遇到的網站;如果遇到的網站是前次遇到的網站,則搜索相應站點地圖的選定層;以及如果遇到的網站不是前次遇到的網站,則窮舉式地搜索該網站中的所述目標內容,并建立相應的站點地圖。
17.一種在其上包含有用于使處理器來搜索基于網絡的內容中的目標內容的程序的程序可讀媒體,所述程序可讀媒體包括用于使所述處理器確定結構化數據存儲的選定層以便搜索與所述目標內容有關的內容的裝置,其中所述結構化數據存儲包括基于網絡的內容;以及用于使所述處理器搜索所述選定層中與所述目標內容有關的內容的裝置。
18.權利要求17的程序可讀媒體,其中所述目標內容包括多媒體、流媒體、多媒體元數據以及流媒體元數據中的至少之一。
19.權利要求17的程序可讀媒體,所述程序可讀媒體還包括用于使所述處理器建立所述結構數據存儲的裝置。
20.權利要求17的程序可讀媒體,所述程序可讀媒體還包括使所述處理器確定更新所述結構化數據存儲的時間間隔的裝置。
21.權利要求17的程序可讀媒體,所述程序可讀媒體還包括使所述處理器搜索至少一個網站中的與所述目標內容有關的內容的裝置;以及使所述處理器為每個新遇到的網站建立相應站點地圖的裝置。
22.權利要求21的程序可讀媒體,其中每個站點地圖包括至少一層,每一層包括鏈接、對象、以及與公共內容有關的元數據中的至少之一。
23.權利要求21的程序可讀媒體,其中所述數據存儲包括每個遇到的網站的相應站點地圖、以及遇到的站點的目錄。
24.權利要求21的程序可讀媒體,所述程序可讀媒體還包括用于使所述處理器確定所遇到的網站是否是前次遇到的網站的裝置;用于在遇到的網站是前次遇到的網站的情況下使所述處理器搜索相應站點地圖的選定層的裝置;以及用于在遇到的網站不是前次遇到的網站的情況下使所述處理器窮舉式地搜索網站中的所述目標內容并建立相應站點地圖的裝置。
25.一種體現為載波的數據信號,包括用于確定結構化數據存儲的選定層以便搜索與所述目標內容有關的內容的確定選定層代碼段,其中所述結構化數據存儲包括基于網絡的內容;以及用于搜索所述選定層中與所述目標內容有關的內容的搜索選定層代碼段。
26.權利要求25的數據信號,其中所述目標內容包括多媒體、流媒體、多媒體元數據以及流媒體元數據中的至少之一。
27.權利要求25的數據信號,還包括用于建立所述結構數據存儲的建立數據存儲代碼段。
28.權利要求25的數據信號,還包括用于確定更新所述結構化數據存儲的時間間隔的確定時間間隔代碼段。
29.權利要求25的數據信號,還包括用于搜索至少一個網站中的與所述目標內容有關的內容的搜索網絡代碼段;以及用于為每個新遇到的網站建立相應站點地圖的建立站點地圖代碼段。
30.權利要求29的數據信號,其中每個站點地圖包括至少一層,每一層包括鏈接、對象、以及與公共內容有關的元數據中的至少之一。
31.權利要求29的數據信號,其中所述數據存儲包括每個遇到的網站的相應站點地圖、以及遇到的站點的目錄。
32.權利要求29的數據信號,還包括用于確定所遇到的網站是否是前次遇到的網站的確定前次遇到的網絡的代碼段;用于在遇到的網站是前次遇到的網站的情況下,搜索相應站點地圖的選定層的搜索層代碼段;以及用于在遇到的網站不是前次遇到的網站的情況下,窮舉式地搜索網站中的所述目標內容并建立相應站點地圖的搜索網站代碼段。
全文摘要
一種用于搜索基于網絡的內容的系統和方法可限制搜索非必要的內容。第一次遇到網站時,實施窮舉式搜索(522),并且生成(524)站點地圖(300),將網站的URL添加到遇到的網站的目錄(526)。下一次遇到所述網站時,所述系統利用站點地圖和目錄來搜索僅相關的內容(614)。根據前次訪問得出的信息,對網站進行重新訪問,以便實施后續的窮舉式搜索從而更新站點地圖和目錄。站點地圖包括結構化的數據存儲格式,其中網站內容是按照層組織的。
文檔編號G06F17/30GK1486457SQ01822163
公開日2004年3月31日 申請日期2001年11月20日 優先權日2000年11月21日
發明者P·C·埃文斯, P C 埃文斯, R·A·亞歷山大, 亞歷山大, P·T·桑農, 桑農 申請人:湯姆森許可公司