一種網絡地理信息更新方法及系統的制作方法
【專利摘要】本發明公開了一種網絡地理信息更新方法及系統,包括如下步驟:建立篩選數據庫,所述篩選數據庫中包含有網絡地理信息的特征條件;根據所述篩選數據庫檢索,獲取符合所述篩選數據庫的網頁信息;分析所述網頁信息,確定所述網頁信息中是否包含更新的網絡地理信息,若包含,整理所述包含更新的網絡地理信息的網頁信息并做結構化處理,得到更新的網絡地理信息的屬性數據;根據所述屬性數據將所述更新的網絡地理信息空間化標注在地圖中。本發明中,提高了地理信息數據庫更新變化信息發現的效率,以及及時對網絡地理信息數據庫的更新。
【專利說明】
一種網絡地理信息更新方法及系統
技術領域
[0001]本發明涉及地理信息科學技術領域,特別是涉及一種網絡地理信息更新方法及系統。
【背景技術】
[0002]I)地形數據庫更新步伐加快
[0003]我國目前已基本建成了覆蓋全國的從1:100萬到1:1萬的地形數據庫,為了不斷提升維持數據的現勢性,更好地滿足國民經濟建設與社會發展對基礎地理信息現勢性的要求,需要對已建成的地形數據庫進行快速更新。
[0004]“十二五”期間,國家1: 5萬地形數據庫重點要素實現年度更新,每年更新一次。部分省級1:1萬地形數據庫也實現了年度更新,少數發達地區每年對I: I萬地形數據庫更新兩次。
[0005]2)持續動態更新對更新信息變化發現與收集提出了更高的要求
[0006]當前的更新技術系統仍然架構在初始建庫和全面更新的基礎上,其數據生產手段仍以靜態方式為主,無法滿足動態更新生產的技術需要,尤其是在地理信息搜集與變化發現方面,缺少先進有效的技術手段,難以滿足數據更新生產所需要的變化信息快速搜集與分析的需求,導致變化發現不夠及時,生產成本高等問題,嚴重制約著動態更新生產效率及其更新完整性的提高。
【發明內容】
[0007]本發明提供一種網絡地理信息更新方法及系統,以提高地理信息數據庫更新變化信息發現的效率,以及及時對網絡地理信息數據庫的更新。
[0008]為了達到上述目的,本發明提供一種網絡地理信息更新方法,包括如下步驟:
[0009]建立篩選數據庫,所述篩選數據庫中包含有網絡地理信息的特征條件;
[0010]根據所述篩選數據庫檢索,獲取符合所述篩選數據庫的網頁信息;
[0011]分析所述網頁信息,確定所述網頁信息中是否包含更新的網絡地理信息,若包含,整理所述包含更新的網絡地理信息的網頁信息并做結構化處理,得到更新的網絡地理信息的屬性數據;
[0012]根據所述屬性數據將所述更新的網絡地理信息空間化標注在地圖中。
[0013]進一步地,所述根據所述篩選數據庫檢索,獲取符合所述篩選數據庫的網頁信息,具體包括:
[0014]根據所述篩選數據庫進行檢索,篩選出符合網絡地理信息的特征條件的網頁,獲取所述網頁的網頁信息。
[0015]進一步地,所述根據所述篩選數據庫檢索,獲取符合所述篩選數據庫的網頁信息之后,還包括:
[0016]提取符合所述篩選數據庫的網頁信息中的種子站點信息,根據所述符合所述篩選數據庫的網頁信息確定預設的種子站點庫中是否存儲有所述網頁信息對應的種子站點信息,若預設的種子站點庫中未存儲有所述網頁信息對應的種子站點信息,將所述符合所述篩選數據庫的網頁信息中的種子站點信息存儲在所述種子站點庫中;和/或,
[0017]提取符合所述篩選數據庫的網頁信息中的種子站點信息,根據所述符合所述篩選數據庫的網頁信息確定預設的種子站點庫中是否存儲有所述網頁信息對應的種子站點信息,若預設的種子站點庫中已存儲有所述網頁信息對應的種子站點信息,進一步確定所述符合所述篩選數據庫的網頁信息對應的種子站點信息與所述種子站點庫中所述網頁信息對應的種子站點信息是否相同,若不同,則將所述種子站點庫中所述網頁信息對應的種子站點信息更新替換為所述符合所述篩選數據庫的網頁信息的種子站點信息。
[0018]進一步地,所述整理所述包含更新的網絡地理信息的網頁信息并做結構化處理,得到網絡地理信息的屬性數據,具體包括:
[0019]將包含相同的更新的網絡地理信息且其余部分內容相同的網頁信息合并,得到具有不同更新的網絡地理信息的網頁信息,定位具有不同更新的網絡地理信息在所述網頁中的位置并標記,確定所述具有不同更新的網絡地理信息所屬行政區域,根據得到的位置信息和行政區域進行結構化分類并存儲。
[0020]進一步地,所述對所述屬性數據空間化標注在地圖中,具體包括:
[0021 ]根據所述屬性數據對所述更新的網絡地理信息做空間化定位,根據定位位置將所述更新的網絡地理信息標注在地圖上。
[0022]本發明還提供了一種網絡地理信息更新系統,包括:
[0023]建立模塊,用于建立篩選數據庫,所述篩選數據庫中包含有網絡地理信息的特征條件;
[0024]檢索獲取模塊,用于根據所述篩選數據庫檢索,獲取符合所述篩選數據庫的網頁信息;
[0025]分析模塊,用于分析所述網頁信息,確定所述網頁信息中是否包含更新的網絡地理信息;
[0026]結構處理模塊,用于在所述分析模塊分析確定出所述網頁信息中包含更新的網絡地理信息時,整理所述包含更新的網絡地理信息的網頁信息并做結構化處理,得到更新的網絡地理信息的屬性數據;
[0027]標注模塊,用于根據所述屬性數據將所述更新的網絡地理信息空間化標注在地圖中。
[0028]進一步地,
[0029]所述檢索獲取模塊,具體用于根據所述篩選數據庫進行檢索,篩選出符合網絡地理信息的特征條件的網頁,獲取所述網頁的網頁信息。
[0030]進一步地,還包括:
[0031]提取處理模塊,用于提取符合所述篩選數據庫的網頁信息中的種子站點信息,根據所述符合所述篩選數據庫的網頁信息確定預設的種子站點庫中是否存儲有所述網頁信息對應的種子站點信息,若預設的種子站點庫中未存儲有所述網頁信息對應的種子站點信息,將所述符合所述篩選數據庫的網頁信息中的種子站點信息存儲在所述種子站點庫中;和/或,
[0032]提取處理模塊,用于提取符合所述篩選數據庫的網頁信息中的種子站點信息,根據所述符合所述篩選數據庫的網頁信息確定預設的種子站點庫中是否存儲有所述網頁信息對應的種子站點信息,若預設的種子站點庫中已存儲有所述網頁信息對應的種子站點信息,進一步確定所述符合所述篩選數據庫的網頁信息對應的種子站點信息與所述種子站點庫中所述網頁信息對應的種子站點信息是否相同,若不同,則將所述種子站點庫中所述網頁信息對應的種子站點信息更新替換為所述符合所述篩選數據庫的網頁信息的種子站點?目息O
[0033]進一步地,
[0034]所述結構處理模塊,具體用于將包含相同的更新的網絡地理信息且其余部分內容相同的網頁信息合并,得到具有不同更新的網絡地理信息的網頁信息,定位具有不同更新的網絡地理信息在所述網頁中的位置并標記,確定所述具有不同更新的網絡地理信息所屬行政區域,根據得到的位置信息和行政區域進行結構化分類并存儲。
[0035]進一步地,
[0036]所述標注模塊,具體用于根據所述屬性數據對所述更新的網絡地理信息做空間化定位,根據定位位置將所述更新的網絡地理信息標注在地圖上。
[0037]與現有技術相比,本發明至少具有以下優點:
[0038]提高了地理信息數據庫更新變化信息發現的效率,以及及時對網絡地理信息數據庫的更新。
【附圖說明】
[0039]圖1是本發明所提供的網絡地理信息更新方法的步驟示意圖。
【具體實施方式】
[0040]本發明提出一種網絡地理信息更新方法及系統,下面結合附圖,對本發明【具體實施方式】進行詳細說明。
[0041]如圖1所示,具體的包括如下步驟:
[0042]步驟101,建立篩選數據庫。
[0043]其中,該所述篩選數據庫中包含有網絡地理信息的特征條件。
[0044]由于網絡地理信息的變化發現不同于常規性的網絡信息變化發現,其變化發現的對象主要是地理要素,地理要素除了具有屬性信息的變化,同時還具有空間信息的變化,為此,構建了篩選數據庫,也即規則數據庫,對網絡地理信息變化的發現至關重要。
[0045]網絡地理信息變化發現的規則數據庫主要包括以下兩個規則:
[0046](I)網絡變化發現網址源篩選規則
[0047]I)網頁規則
[0048]搜索網頁主要來源于區域各級政府的新聞網以及政府機構網,比如搜索網頁主要來源于區域各級政府的新聞網以及政府機構網,比如測繪、規劃、國土等政府機構網站。這樣可以在很大程度上限定了目標搜索范圍(按照政府網站按照行政區域劃分),不會得到跨地域相同地名的搜索結果,同時,政府網站具有的權威性與時效性也為搜索結果的真實可靠提供了保證;最后有針對性的搜索也確保了搜索的效率。
[0049]2)專題規則
[0050]由于網頁里的信息繁多,為了更加快速的查找到所需要的地理信息要素發現的內容,因此需要對網頁上版面信息中的各項專題信息進行篩選和確定,如:新聞專題,時事專題,重大工程專題等,這些專題確定,可以更有針對性地確定搜索到所需要的地理信息變化的信息。
[0051 ] 3)時效規則
[0052]由于搜索的網頁較多,為了確保尋找到最新的地理要素變化信息,而不是已經失去時效性的搜索結果,因此對搜索的網頁的時效進行篩選,結合1:50000更新需求,只對當年的網頁信息進行搜索,保證搜索到的結果能滿足1:50000更新工程的需要。
[0053](2)網絡變化發現關鍵詞庫規則
[0054]I)地理要素分類關鍵詞
[0055]地理要素是變化發生的主體,其要素種類多、涉及范圍廣,且不同用途的要素分類方法也不相同。此外,網頁中闡述的地理信息要素尺度也存在很大差異。本技術方法中通過調研大量網頁文本中地理信息要素出現的頻率和語言表述特點,最終確定參照《基礎地理信息要素分類與代碼》(GB/T13923-2006)中大類分類標準的基礎上,結合1:50000動態更新項目的更新需求選取水系及其附屬要素、居民地及設施、交通、管線四個大類,對各類別中對應的要素關鍵詞和典型要素進行了總結和歸納。在檢索時,利用這些關鍵詞進行檢索,可大大提高檢索效率。但要素關鍵關鍵詞只能表明某一類具有相同關鍵詞匯的要素,當要素本身分屬不同類別時,便無法進行區別。因而設計的地理信息要素關鍵關鍵詞分為兩個等級,當檢測范圍較小時,典型要素關鍵詞對應的要素實體數目相對較少,這時還可以將地名中與地理信息要素相關的地名作為第三級添加到地理信息要素關鍵詞匯中,以提高檢索的精準度。
[0056]2)地理要素變化關鍵詞
[0057]要素變化關鍵詞用于表達要素發生了何種類型的變化,一般以動詞形式存在,所以又可以稱為要素變化動詞。要素變化動詞很多,一個要素關鍵詞可以對應多個變化動詞,不同地理信息要素關鍵詞匯既可能對應完全相同的變化動詞,也可以對應不完全相同或完全不相同的變化動詞。此外,某些語境下變化動詞之間也存在語義關系上的相似性,因此參照地理要素分類關鍵詞,本技術方法總結了要素變化動詞15個,并從事物發展角度,將要素變化關鍵詞匯劃分為創建、變更、消失三種類型;根據要素變化關鍵詞和要素分類關鍵詞之間的關聯關系,將兩者之間的對應關系進行了映射,并依據詞語之間的語義相似性,將某些語境下語義相近的變化動詞進行了歸納。地理信息要素變化關鍵詞的三個類別中,很多詞匯既可以隸屬于一個變化類型,也可以隸屬于多個變化類型。此外,地理信息要素變化關鍵詞與地理信息要素共同作為檢索關鍵字,還可以消除要素關鍵字在所屬類別上的歧義。
[0058]3)空間關系關鍵詞
[0059]空間關系詞匯包括拓撲關系詞匯、距離關系詞匯和方向關系詞匯,在判斷變化地理信息要素與檢索區域的空間關系時具有十分重要的作用。現有的相關研究已經對空間關系詞匯進行了系統的總結和歸納,但這些研究成果只是詞匯的簡單羅列,并沒有將地理要素之間的關聯關系考慮在內,本技術方法中充分考慮地理要素之間所存在的各種空間關系,并對這些空間關系的表述進行了提煉和總結,形成了一套空間關系的關鍵詞。
[0060]步驟102,根據所述篩選數據庫檢索,獲取符合所述篩選數據庫的網頁信息。
[0061 ]其中,所述根據所述篩選數據庫檢索,獲取符合所述篩選數據庫的網頁信息,具體包括:
[0062]根據所述篩選數據庫進行檢索,篩選出符合網絡地理信息的特征條件的網頁,獲取所述網頁的網頁信息。
[0063]所述根據所述篩選數據庫檢索,獲取符合所述篩選數據庫的網頁信息之后,還包括:
[0064]提取符合所述篩選數據庫的網頁信息中的種子站點信息,根據所述符合所述篩選數據庫的網頁信息確定預設的種子站點庫中是否存儲有所述網頁信息對應的種子站點信息,若預設的種子站點庫中未存儲有所述網頁信息對應的種子站點信息,將所述符合所述篩選數據庫的網頁信息中的種子站點信息存儲在所述種子站點庫中;和/或,
[0065]提取符合所述篩選數據庫的網頁信息中的種子站點信息,根據所述符合所述篩選數據庫的網頁信息確定預設的種子站點庫中是否存儲有所述網頁信息對應的種子站點信息,若預設的種子站點庫中已存儲有所述網頁信息對應的種子站點信息,進一步確定所述符合所述篩選數據庫的網頁信息對應的種子站點信息與所述種子站點庫中所述網頁信息對應的種子站點信息是否相同,若不同,則將所述種子站點庫中所述網頁信息對應的種子站點信息更新替換為所述符合所述篩選數據庫的網頁信息的種子站點信息。
[0066]具體的,變化發現檢索主要是基于海量的網絡數據開展數據抓取工作,因此,按照指定的網絡地理信息變化發現規則知識庫,從互聯網中檢索和獲取所需網頁信息,并將網頁信息抓取并保存到數據庫中。數據檢索的實現主要需要支持規則配置,能夠檢索不同類型的網頁信息,并且只抓取地理信息變化發現需要的信息,減少噪音。
[0067]變化檢索系統實現功能如下:
[0068](I)種子解析,生成抓取列表。
[0069](2)分布式網頁采集,保存為網頁快照。
[0070](3)分布式網頁分析,提取進一步抓取的URL,過濾掉重復URL網頁。
[0071](4)抓取規則配置,針對不同的URL可以配置不同的抓取規則。抓取規則可以控制在指定站點內延伸抓取的方向,避免抓取無用信息。
[0072](5)過濾規則配置,針對不同的站點,設置過濾規則。根據過濾規則對抓取到的無用信息進行過濾,如過濾掉廣告,引用連接等。
[0073](6)支撐增量抓取,可以判斷同一 URL內容是否更新,不重復抓取同一內容頁面。
[0074]變化檢索工作主要包括種子站點編輯管理,抓取規則配置管理。
[0075](I)種子站點管理
[0076]I)添加種子站點
[0077]發現有新的種子站點或者通過對已抓取頁面鏈接信息的分析,能夠發現一些頻繁被引用,但未在種子站點庫中登記的網站,可以對這些網站作進一步的甄別,從中發現新的相關種子站點,并存入種子站點庫,納入新的抓取任務中。
[0078]2)修改/更新種子站點
[0079]某些種子站點發生變更后需要修改或者更新種子站點來確保種子站點的有效性。
[0080]3)瀏覽查詢種子站點
[0081]依據關鍵字,分類,狀態單一條件或者多條件組合進行種子網站的查詢瀏覽。
[0082](2)抓取規則配置
[0083]抓取規則主要分為兩類:網頁抓取規則和搜索引擎抓取規則。網頁的抓取規則主要指對對抓取鏈接的規定;搜索引擎的抓取規則主要指關鍵詞的分類整理。抓取規則是通過正則表達式來進行配置的。系統運維階段需要專門人員來對種子網站的抓取規則進行維護和更新。
[0084]步驟103,分析所述網頁信息,確定所述網頁信息中是否包含更新的網絡地理信息。
[0085]其中,若包含,轉到步驟104,否則轉到步驟106。
[0086]步驟104,整理所述包含更新的網絡地理信息的網頁信息并做結構化處理,得到更新的網絡地理信息的屬性數據。
[0087]其中,所述整理所述包含更新的網絡地理信息的網頁信息并做結構化處理,得到網絡地理信息的屬性數據,具體包括:
[0088]將包含相同的更新的網絡地理信息且其余部分內容相同的網頁信息合并,得到具有不同更新的網絡地理信息的網頁信息,定位具有不同更新的網絡地理信息在所述網頁中的位置并標記,確定所述具有不同更新的網絡地理信息所屬行政區域,根據得到的位置信息和行政區域進行結構化分類并存儲。
[0089]具體的,信息分析抽取是對變化發現檢索到的網頁數據進行進一步分析抽取,獲取到地理要素變化的信息。處理抓取到的目標網頁數據,判斷網頁信息是否包含更新信息,過濾掉不具有地理要素更新信息的網頁;對含更新信息的網頁內容進行定位,找到信息點在整個網頁中的位置;通過地名識別,找出更新實體對應的地區;通過文檔相似度及關鍵詞,找到不同信息源的重復網頁,對內容不同的部分進行歸并,刪除重復的內容;將網頁信息進行結構化,標示出各個屬性,存儲到數據庫。
[0090]信息分析抽取系統實現功能如下:
[0091 ] (I)分析抓取頁面的內容,查找是否包含有效變化信息。過濾掉無地理要素更新變化信息的頁面。
[0092](2)定位變化信息在標題及正文中的位置,并標記。
[0093](3)分析變化信息對應的行政區域。
[0094](4)利用文檔相似度模型,將內容重復的網頁URL歸并,去除內容重復的網頁信息。
[0095](5)分析網頁內容的標題、正文、發布時間、地理要素類別、變化屬性,將信息結構化并保存到數據庫。
[0096]步驟105,根據所述屬性數據將所述更新的網絡地理信息空間化標注在地圖中。
[0097]其中,所述對所述屬性數據空間化標注在地圖中,具體包括:
[0098]根據所述屬性數據對所述更新的網絡地理信息做空間化定位,根據定位位置將所述更新的網絡地理信息標注在地圖上。
[0099]具體的,信息空間化標注是對信息分析抽取后得到的文本信息進行空間化,通過與地名地址數據庫的匹配搜索等方法,將變化的地理要素文本信息在天地圖或者googlemap上標注顯示,從而形成一套更為直觀可見的地理要素變化數據。
[0100]通過該網絡地理信息更新方法的運用,可有效提升各比例尺地形數據庫快速更新的能力和水平,縮短地形數據庫更新的周期和效率,降低了成本,同時提高了地形數據庫管理和服務水平。
[0101]步驟106,結束本流程。
[0102]基于與上述本發明所提供的網絡地理信息更新方法相同或相似的設計,本發明還提供了一種網絡地理信息更新系統,包括:
[0103]建立模塊,用于建立篩選數據庫,所述篩選數據庫中包含有網絡地理信息的特征條件。
[0104]檢索獲取模塊,用于根據所述篩選數據庫檢索,獲取符合所述篩選數據庫的網頁信息;具體用于根據所述篩選數據庫進行檢索,篩選出符合網絡地理信息的特征條件的網頁,獲取所述網頁的網頁信息。
[0105]提取處理模塊,用于提取符合所述篩選數據庫的網頁信息中的種子站點信息,根據所述符合所述篩選數據庫的網頁信息確定預設的種子站點庫中是否存儲有所述網頁信息對應的種子站點信息,若預設的種子站點庫中未存儲有所述網頁信息對應的種子站點信息,將所述符合所述篩選數據庫的網頁信息中的種子站點信息存儲在所述種子站點庫中;和/或,
[0106]提取處理模塊,用于提取符合所述篩選數據庫的網頁信息中的種子站點信息,根據所述符合所述篩選數據庫的網頁信息確定預設的種子站點庫中是否存儲有所述網頁信息對應的種子站點信息,若預設的種子站點庫中已存儲有所述網頁信息對應的種子站點信息,進一步確定所述符合所述篩選數據庫的網頁信息對應的種子站點信息與所述種子站點庫中所述網頁信息對應的種子站點信息是否相同,若不同,則將所述種子站點庫中所述網頁信息對應的種子站點信息更新替換為所述符合所述篩選數據庫的網頁信息的種子站點?目息O
[0107]分析模塊,用于分析所述網頁信息,確定所述網頁信息中是否包含更新的網絡地理信息;
[0108]結構處理模塊,用于在所述分析模塊分析確定出所述網頁信息中包含更新的網絡地理信息時,整理所述包含更新的網絡地理信息的網頁信息并做結構化處理,得到更新的網絡地理信息的屬性數據;具體用于將包含相同的更新的網絡地理信息且其余部分內容相同的網頁信息合并,得到具有不同更新的網絡地理信息的網頁信息,定位具有不同更新的網絡地理信息在所述網頁中的位置并標記,確定所述具有不同更新的網絡地理信息所屬行政區域,根據得到的位置信息和行政區域進行結構化分類并存儲。
[0109]標注模塊,用于根據所述屬性數據將所述更新的網絡地理信息空間化標注在地圖中;具體用于根據所述屬性數據對所述更新的網絡地理信息做空間化定位,根據定位位置將所述更新的網絡地理信息標注在地圖上。
[0110]其中,本發明裝置的各個模塊可以集成于一體,也可以分離部署。上述模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。
[0111]本領域技術人員可以理解附圖只是一個優選實施例的示意圖,附圖中的模塊或流程并不一定是實施本發明所必須的。
[0112]本領域技術人員可以理解實施例中的裝置中的模塊可以按照實施例描述進行分布于實施例的裝置中,也可以進行相應變化位于不同于本實施例的一個或多個裝置中。上述實施例的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。
[0113]上述本發明序號僅僅為了描述,不代表實施例的優劣。
[0114]以上公開的僅為本發明的幾個具體實施例,但是,本發明并非局限于此,任何本領域的技術人員能思之的變化都應落入本發明的保護范圍。
【主權項】
1.一種網絡地理信息更新方法,其特征在于,包括如下步驟: 建立篩選數據庫,所述篩選數據庫中包含有網絡地理信息的特征條件; 根據所述篩選數據庫檢索,獲取符合所述篩選數據庫的網頁信息; 分析所述網頁信息,確定所述網頁信息中是否包含更新的網絡地理信息,若包含,整理所述包含更新的網絡地理信息的網頁信息并做結構化處理,得到更新的網絡地理信息的屬性數據; 根據所述屬性數據將所述更新的網絡地理信息空間化標注在地圖中。2.如權利要求1所述的網絡地理信息更新方法,其特征在于,所述根據所述篩選數據庫檢索,獲取符合所述篩選數據庫的網頁信息,具體包括: 根據所述篩選數據庫進行檢索,篩選出符合網絡地理信息的特征條件的網頁,獲取所述網頁的網頁信息。3.如權利要求1或2所述的網絡地理信息更新方法,其特征在于,所述根據所述篩選數據庫檢索,獲取符合所述篩選數據庫的網頁信息之后,還包括: 提取符合所述篩選數據庫的網頁信息中的種子站點信息,根據所述符合所述篩選數據庫的網頁信息確定預設的種子站點庫中是否存儲有所述網頁信息對應的種子站點信息,若預設的種子站點庫中未存儲有所述網頁信息對應的種子站點信息,將所述符合所述篩選數據庫的網頁信息中的種子站點信息存儲在所述種子站點庫中;和/或, 提取符合所述篩選數據庫的網頁信息中的種子站點信息,根據所述符合所述篩選數據庫的網頁信息確定預設的種子站點庫中是否存儲有所述網頁信息對應的種子站點信息,若預設的種子站點庫中已存儲有所述網頁信息對應的種子站點信息,進一步確定所述符合所述篩選數據庫的網頁信息對應的種子站點信息與所述種子站點庫中所述網頁信息對應的種子站點信息是否相同,若不同,則將所述種子站點庫中所述網頁信息對應的種子站點信息更新替換為所述符合所述篩選數據庫的網頁信息的種子站點信息。4.如權利要求1所述的網絡地理信息更新方法,其特征在于,所述整理所述包含更新的網絡地理信息的網頁信息并做結構化處理,得到網絡地理信息的屬性數據,具體包括: 將包含相同的更新的網絡地理信息且其余部分內容相同的網頁信息合并,得到具有不同更新的網絡地理信息的網頁信息,定位具有不同更新的網絡地理信息在所述網頁中的位置并標記,確定所述具有不同更新的網絡地理信息所屬行政區域,根據得到的位置信息和行政區域進行結構化分類并存儲。5.如權利要求1所述的網絡地理信息更新方法,其特征在于,所述對所述屬性數據空間化標注在地圖中,具體包括: 根據所述屬性數據對所述更新的網絡地理信息做空間化定位,根據定位位置將所述更新的網絡地理信息標注在地圖上。6.一種網絡地理信息更新系統,其特征在于,包括: 建立模塊,用于建立篩選數據庫,所述篩選數據庫中包含有網絡地理信息的特征條件; 檢索獲取模塊,用于根據所述篩選數據庫檢索,獲取符合所述篩選數據庫的網頁信息; 分析模塊,用于分析所述網頁信息,確定所述網頁信息中是否包含更新的網絡地理信息; 結構處理模塊,用于在所述分析模塊分析確定出所述網頁信息中包含更新的網絡地理信息時,整理所述包含更新的網絡地理信息的網頁信息并做結構化處理,得到更新的網絡地理信息的屬性數據; 標注模塊,用于根據所述屬性數據將所述更新的網絡地理信息空間化標注在地圖中。7.如權利要求6所述的網絡地理信息更新系統,其特征在于, 所述檢索獲取模塊,具體用于根據所述篩選數據庫進行檢索,篩選出符合網絡地理信息的特征條件的網頁,獲取所述網頁的網頁信息。8.如權利要求7所述的網絡地理信息更新系統,其特征在于,還包括: 提取處理模塊,用于提取符合所述篩選數據庫的網頁信息中的種子站點信息,根據所述符合所述篩選數據庫的網頁信息確定預設的種子站點庫中是否存儲有所述網頁信息對應的種子站點信息,若預設的種子站點庫中未存儲有所述網頁信息對應的種子站點信息,將所述符合所述篩選數據庫的網頁信息中的種子站點信息存儲在所述種子站點庫中;和/或, 提取處理模塊,用于提取符合所述篩選數據庫的網頁信息中的種子站點信息,根據所述符合所述篩選數據庫的網頁信息確定預設的種子站點庫中是否存儲有所述網頁信息對應的種子站點信息,若預設的種子站點庫中已存儲有所述網頁信息對應的種子站點信息,進一步確定所述符合所述篩選數據庫的網頁信息對應的種子站點信息與所述種子站點庫中所述網頁信息對應的種子站點信息是否相同,若不同,則將所述種子站點庫中所述網頁信息對應的種子站點信息更新替換為所述符合所述篩選數據庫的網頁信息的種子站點信息。9.如權利要求6所述的網絡地理信息更新系統,其特征在于, 所述結構處理模塊,具體用于將包含相同的更新的網絡地理信息且其余部分內容相同的網頁信息合并,得到具有不同更新的網絡地理信息的網頁信息,定位具有不同更新的網絡地理信息在所述網頁中的位置并標記,確定所述具有不同更新的網絡地理信息所屬行政區域,根據得到的位置信息和行政區域進行結構化分類并存儲。10.如權利要求6所述的網絡地理信息更新系統,其特征在于, 所述標注模塊,具體用于根據所述屬性數據對所述更新的網絡地理信息做空間化定位,根據定位位置將所述更新的網絡地理信息標注在地圖上。
【文檔編號】G06F17/30GK106055638SQ201610371047
【公開日】2016年10月26日
【申請日】2016年5月30日
【發明人】劉建軍, 張元杰, 劉劍煒, 杜曉, 楊眉
【申請人】國家基礎地理信息中心