地質資料數據清洗方法及系統的制作方法
【技術領域】
[0001 ] 本發明涉及地理信息系統(Geographic Informat1n System,GIS)領域,尤其涉及一種地質資料數據清洗方法及系統。
【背景技術】
[0002]地質資料是地質工作形成的重要基礎信息資源,具有可被重復開發利用、能夠長期提供服務的重要功能。盡管國土資源部發文(國土資發
[2006]210號)明確了成果地質資料電子文件匯交格式要求,但由于各類專業技術工作的成果文件不盡相同,技術要求中的具體細節也并未細化,加上地質資料匯交單位的水平和態度不一,因此所接收到的匯交數據存在著各類的異構性、不一致性和質量問題,如數據與目錄的不一致性,數據存儲目錄中存在的不合法性,或檔案標識的重復性等。
[0003]由于地質資料數據有著從組卷、接收、管理、加工直至服務全過程獨有的工作特點和應用需求,以往的地質資料從匯交到管理,再到查閱的諸多環節所應用的管理手段或者較為粗陋,如以檔為單位的案卷文件夾形式保存資料,但每檔文件夾下的文件管理則任由匯交人組織,不再做細分的工作,這樣難以滿足數據精細化管理的需求;或者采用的技術方法和工具自動化程度較低,絕大多數工作還依賴于人工清洗來完成。這一情況極大地限制了資料管理工作的效率,降低了地質資料的利用率,阻礙了國家地質工作的開展。
[0004]目前常見的數據清洗技術方案一般是針對結構化數據的,而進行針對多元異構數據的數據清洗技術方案并不多見。數據清洗技術一般主要可以包括數據檢測和數據修正兩個步驟或模塊。數據檢測用來檢測文件錯誤(包括不完整數據和異常數據)和重復與相似重復記錄。在進行統計后,挑出全面的臟數據信息。其中,對于重復與相似重復記錄一般采用字段匹配和記錄匹配等檢測操作。對檢測出的臟數據進行清洗的步驟,一般是對不完整數據或重復數據采用人工判斷后的刪除、替代的清洗方法,從而使文件中的錯誤問題得到修正。
[0005]在現有的數據清洗技術方案中,通常是按照由算法庫或規則庫提供的預先定義好的清洗算法和清洗規則進行清洗工作。然而,在實際的操作工程中,經常要針對遇到的不同問題進行調算法和規則的重新定義和調整,因此,現有技術的方案難以做到規則的通用性。
[0006]另外,對于大量錯誤數據而言,現有技術方案是無法給出有效的清洗建議或統計數據的,往往需要提交給用戶,由其手動處理,耗時、費力,也很難保障質量。
[0007]另外,對于數據的錯誤類型及其他統計信息的統計與分析也很難通過目前的技術方案簡便地實現。
【發明內容】
[0008]技術問題
[0009]有鑒于此,本發明要解決的技術問題是如何自動地對多元異構、來源廣泛的地質資料數據進行清洗。
[0010]解決方案
[0011]為了解決上述技術問題,根據本發明一實施例,提供了一種地質資料數據清洗方法,包括:
[0012]文件名稱校驗步驟,根據待處理地質資料文件的匯交格式要求,來校驗各所述待處理地質資料文件的文件名稱;
[0013]文件格式校驗步驟,對進行所述文件名稱校驗步驟之后保留的地質資料數據的文件格式進行校驗與記錄;以及
[0014]文件信息采集步驟,在進行所述文件格式校驗步驟之后,針對所記錄的地質資料數據的文件,分別記錄相對應的格式與配置信息。
[0015]對于上述地質資料數據清洗方法,在一種可能的實現方式中,所述文件名稱校驗步驟包括:
[0016]根據所述待處理地質資料文件的文件名稱的長度來判斷所述待處理地質資料文件的有效性;以及
[0017]在所述待處理地質資料文件有效的情況下,分別校驗所述待處理地質資料文件的文件名稱中的所有字符。
[0018]對于上述地質資料數據清洗方法,在一種可能的實現方式中,在所述待處理地質資料文件有效的情況下,分別校驗所述待處理地質資料文件的文件名稱中的所有字符,包括:
[0019]校驗所述待處理地質資料文件的文件名稱中的每一個字符是否為有效字符,對于存在無效字符的文件進行記錄與預判;
[0020]根據所述待處理地質資料文件的文件名稱中的類別位來判斷所述待處理地質資料文件的文件類型是否符合規定類型,對于不符合規定類型的文件進行記錄;
[0021]根據所述待處理地質資料文件的文件名稱中的文件序號位,來判斷文件序號的有效性以及該文件序號在地質資料數據中的連續性和唯一性。
[0022]對于上述地質資料數據清洗方法,在一種可能的實現方式中,所述文件格式校驗步驟包括:
[0023]對于進行所述文件名稱校驗步驟之后保留的地質資料數據中的文件,進行識別并記錄對應的文件格式;
[0024]在存在文件名稱相同但文件格式不同的文件的情況下,按照文件格式優先級規則來確定文件的主格式,所述文件格式優先級從高到低的順序為空間數據格式、結構化數據格式、矢量數據格式、制圖數據格式、表數據格式、文檔數據格式、柵格數據格式;
[0025]判斷并記錄是否能夠有效地讀取各文件的文件頭信息以及是否能夠有效地打開各文件的內容。
[0026]對于上述地質資料數據清洗方法,在一種可能的實現方式中,所述文件信息采集步驟包括:
[0027]對于空間數據格式的文件,記錄文件的格式、版本號、工程文件的信息、投影坐標參數、表達輔助信息庫信息、以及各圖層的數據量信息;
[0028]對于結構化數據格式的文件,記錄文件的格式、版本號、記錄數、字段數和數據量大小;
[0029]對于矢量數據或制圖數據的文件,記錄文件的格式、版本號和表達輔助信息庫信息;
[0030]對于表數據格式的文件,記錄文件的格式、版本號、記錄數、字段數和數據量大小;
[0031]對于文檔數據格式的文件,記錄文件的格式、版本號、字符數量和數據量大小;以及
[0032]對于柵格數據格式的文件,記錄文件的格式、壓縮比、點陣和數據量大小。
[0033]為了解決上述技術問題,根據本發明另一實施例,提供了一種地質資料數據清洗系統,包括:
[0034]文件名稱校驗模塊,用于根據待處理地質資料文件的匯交格式要求,來校驗各所述待處理地質資料文件的文件名稱;
[0035]文件格式校驗模塊,與所述文件名稱校驗模塊連接,用于對利用所述文件名稱校驗模塊處理所述地質資料數據之后保留的地質資料數據的文件格式進行校驗與記錄;以及
[0036]文件信息采集模塊,與所述文件格式校驗模塊連接,用于針對所記錄的地質資料數據的文件,分別記錄相對應的格式與配置信息。
[0037]對于上述地質資料數據清洗系統,在一種可能的實現方式中,所述文件名稱校驗模塊用于:
[0038]根據所述待處理地質資料文件的文件名稱的長度來判斷所述待處理地質資料文件的有效性;以及
[0039]在所述待處理地質資料文件有效的情況下,分別校驗所述待處理地質資料文件的文件名稱中的所有字符。
[0040]對于上述地質資料數據清洗系統,在一種可能的實現方式中,在所述待處理地質資料文件有效的情況下,分別校驗所述待處理地質資料文件的文件名稱中的所有字符,包括:
[0041]校驗所述待處理地質資料文件的文件名稱中的每一個字符是否為有效字符,對于存在無效字符的文件進行記錄與預判;
[0042]根據所述待處理地質資料文件的文件名稱中的類別位來判斷所述待處理地質資料文件的文件類型是否符合規定類型,對于不符合規定類型的文件進行記錄;
[0043]根據所述待處理地質資料文件的文件名稱中的文件序號位,來判斷文件序號的有效性以及該文件序號在地質資料數據中的連續性和唯一性。
[0044]對于上述地質資料數據清洗系統,在一種可能的實現方式中,所述文件格式校驗模塊用于:
[0045]對于進行所述文件名稱校驗步驟之后保留的地質資料數據中的文件,進行識別并