分布式數據存儲方法、裝置及系統的制作方法
【專利摘要】本發明公開了一種分布式數據存儲方法、裝置及系統。其中,該方法包括:對獲取到的基礎數據進行篩選,確定基礎數據的類型,其中,類型至少包括:結構化類型和非結構化類型;將基礎數據按照類型存儲至第一子存儲集群和/或第二子存儲集群。本發明解決了現有分布式數據存儲系統的數據訪問延遲高的技術問題。
【專利說明】
分布式數據存儲方法、裝置及系統
技術領域
[0001]本發明涉及互聯網領域,具體而言,涉及一種分布式數據存儲方法、裝置及系統。
【背景技術】
[0002]Apache Nutch是Hadoop的源頭,Hadoop技術已經在互聯網領域得以廣泛的應用,同時也得到研究界的普遍關注。如Yahool使用4000節點的機群運行Hadoop,支持廣告系統和Web搜索的研究;Facebook使用1000節點的機群運行Hadoop,存儲日志數據,支持其上的數據分析和機器學習;百度用Hadoop處理每周200TB的數據,進行搜索日志分析和網頁數據挖掘工作;中移動研究院基于Hadoop開發了 “大云”(BigCloud)系統,不但用于相關數據分析,還對外提供服務;淘寶的Hadoop系統用于存儲并處理電子商務的交易相關數據。
[0003]并且,國內的高校和科研院所也基于Hadoop在數據存儲、資源管理、作業調度、性能優化、系統高可用性和安全性方面進行研究。
[0004]但是,現有的Hadoop技術中,存在如下問題:
[0005]1、數據訪問延遲高,不適合低延遲的數據訪問操作。
[0006]2、數據訪問延遲高,導致無法高效存儲大量的小文件。
[0007]3、不支持多用戶管理,無法實現多用戶寫入和修改。
[0008]針對上述現有分布式數據存儲系統的數據訪問延遲高的問題,目前尚未提出有效的解決方案。
【發明內容】
[0009]本發明實施例提供了一種分布式數據存儲方法、裝置及系統,以至少解決現有分布式數據存儲系統的數據訪問延遲高的技術問題。
[0010]根據本發明實施例的一個方面,提供了一種分布式數據存儲系統,包括:數據采集服務器,用于對基礎數據進行采集;數據處理服務器,與數據采集服務器連接,用于對基礎數據進行分類,確定基礎數據的類型,其中,類型至少包括:結構化類型和非結構化類型;分布式存儲集群,與數據處理服務器連接,用于將結構化類型的基礎數據存儲至第一子存儲集群,將非結構化類型的基礎數據存儲至第二子存儲集群。
[0011 ]進一步地,上述分布式存儲集群還包括:索引服務器,與第一子存儲集群連接,用于根據結構化類型的基礎數據生成數據索引信息。
[0012]進一步地,上述系統還包括:緩存存儲服務器,與數據處理服務器連接,用于將數據采集服務器采集到的基礎數據進行緩存。
[0013]進一步地,第二子存儲集群采用HadoopHDFS分布式文件存儲構架。
[0014]進一步地,上述系統還包括:應用服務器,與分布式存儲集群連接,用于提供對分布式存儲集群中存儲的基礎數據進行訪問的數據接口。
[0015]根據本發明實施例的另一方面,還提供了一種分布式數據存儲方法,包括:對獲取到的基礎數據進行篩選,確定基礎數據的類型,其中,類型至少包括:結構化類型和非結構化類型;將基礎數據按照類型存儲至第一子存儲集群和/或第二子存儲集群。
[0016]進一步地,在對獲取到的基礎數據進行篩選,確定基礎數據的類型之后,方法還包括:根據非結構化類型的基礎數據,生成與基礎數據對應的元數據;將元數據作為結構化類型的基礎數據存儲至第一子存儲集群。
[0017]進一步地,在將基礎數據按照類型存儲至第一子存儲集群和/或第二子存儲集群之后,方法還包括:根據基礎數據生成數據索引信息,其中,數據索引信息至少包括:基礎數據的描述信息和存儲位置信息;將數據索引信息存儲至索引服務器。
[0018]進一步地,將基礎數據按照類型存儲至第一子存儲集群和/或第二子存儲集群,包括:按照類型將基礎數據存儲至緩存服務器;根據預先設置的存儲策略,將結構化類型的基礎數據存儲至第一子存儲集群,將非結構化類型的基礎數據存儲值第二子存儲集群。
[0019]根據本發明實施例的另一方面,還提供了一種分布式數據存儲方法,包括:篩選模塊,用于對獲取到的基礎數據進行篩選,確定基礎數據的類型,其中,類型至少包括:結構化類型和非結構化類型;第一存儲模塊,用于將基礎數據按照類型存儲至第一子存儲集群和/或第二子存儲集群。
[0020]進一步地,上述裝置還包括:第一生成模塊,用于根據非結構化類型的基礎數據,生成與基礎數據對應的元數據;第二存儲模塊,用于將元數據作為結構化類型的基礎數據存儲至第一子存儲集群。
[0021 ]進一步地,上述裝置還包括:第二生成模塊,用于根據結構化類型的基礎數據生成數據索引信息,其中,數據索引信息至少包括:基礎數據的描述信息和存儲位置信息;第三存儲模塊,用于將數據索引信息存儲至索引服務器。
[0022]在本發明實施例中,采用對獲取到的基礎數據進行篩選,確定基礎數據的類型,其中,類型至少包括:結構化類型和非結構化類型;將基礎數據按照類型存儲至第一子存儲集群和/或第二子存儲集群的方式,從而達到提高分布式存儲集群整體存儲效率的目的,實現了降低分布式存儲集群的延遲時間的技術效果,解決了現有分布式數據存儲系統的數據訪問延遲高的技術問題。
【附圖說明】
[0023]此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:
[0024]圖1是根據本發明實施例的分布式數據存儲系統的系統框架圖;
[0025]圖2是根據本發明實施例的一種可選的分布式數據存儲系統的系統框架圖;
[0026]圖3是根據本發明實施例的一種可選的分布式數據存儲系統的系統框架圖;
[0027]圖4是根據本發明實施例的一種可選的分布式數據存儲系統的系統框架圖;
[0028]圖5是根據本發明實施例的分布式數據存儲方法的流程圖;
[0029]圖6是根據本發明實施例的一種可選的分布式數據存儲裝置的示意圖;
[0030]圖7是根據本發明實施例的一種可選的分布式數據存儲裝置的示意圖;以及[0031 ]圖8是根據本發明實施例的一種可選的分布式數據存儲裝置的示意圖。
【具體實施方式】
[0032]為了使本技術領域的人員更好地理解本發明方案,下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分的實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬于本發明保護的范圍。
[0033]需要說明的是,本發明的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數據在適當情況下可以互換,以便這里描述的本發明的實施例能夠以除了在這里圖示或描述的那些以外的順序實施。此外,術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統、產品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產品或設備固有的其它步驟或單元。
[0034]根據本發明實施例,提供了一種分布式數據存儲系統的系統實施例,圖1是根據本發明實施例的分布式數據存儲系統的系統框架圖,如圖1所示,該系統包括:數據采集服務器21、數據處理服務器23和分布式存儲集群25。
[0035]其中,數據采集服務器21,用于對基礎數據進行采集;數據處理服務器23,與數據采集服務器21連接,用于對基礎數據進行分類,確定基礎數據的類型,其中,類型至少包括:結構化類型和非結構化類型;分布式存儲集群25,與數據處理服務器23連接,用于將結構化類型的基礎數據存儲至第一子存儲集群251,將非結構化類型的基礎數據存儲至第二子存儲集群253。
[0036]具體的,通過上述數據采集服務器21、數據處理服務器23和分布式存儲集群25,在對基礎數據進行分布式存儲之前,通過數據處理服務器23對采集到的基礎數據的類型進行分類處理,并根據基礎數據的類型,將基礎數據存入分布式存儲集群中的不同子存儲集群中。根據基礎數據的類型,將不同類型的基礎數據存儲至采用與其適應的存儲形式的子存儲集群當中。
[0037]基礎數據的類型至少可以被分為結構化類型和非結構化類型,其中,結構化類型的基礎數據即為行數據,可以直接存儲在數據庫中,以二維表結構來邏輯表達實現的數據。非結構化類型的基礎數據相對于結構化類型的基礎數據而言,不便用數據庫二維邏輯表來表現,其包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等。
[0038]作為一種可選的實施方式,數據處理服務器23在對基礎數據進行分類之后,還可以進一步的對類型為非結構化類型的基礎數據進行進一步篩查,將用于記錄文字信息的文件中的內容進行提取,以及對圖片格式中的內容通過光學字符識別OCR技術進行識別,提取與其對應的元數據,將元數據作為結構化類型的數據存儲至第一子存儲集群當中。
[0039]通過上述數據采集服務器21、數據處理服務器23和分布式存儲集群25,可以根據類型將基礎數據,以與其適應的存儲方式進行存儲,從而達到提高分布式存儲集群整體存儲效率的目的,實現了降低分布式存儲集群的延遲時間的技術效果,解決了現有分布式數據存儲系統的數據訪問延遲高的技術問題。
[0040]作為一種可選的實施方式,如圖2所示,上述分布式存儲集群25,還可以包括:索引服務器255。
[0041]其中,索引服務器255,與第一子存儲集群251連接,用于根據結構化類型的基礎數據生成數據索引信息。
[0042]其中,通過索引服務器255,可以根據結構化類型的基礎數據的存儲位置生成索引數據,還可以根據非結構化類型的基礎數據的存儲位置和與其對應的元數據的存儲位置,生成索引數據。通過索引服務器255,在原有的精確索引查詢、元數據查詢、結構化數據查詢的基礎上,實現通過多種索引組合對非結構化數據進行高速檢索的查詢方式。
[0043]作為一種可選的實施方式,如圖3所示,系統還包括:緩存存儲服務器27。
[0044]其中,緩存存儲服務器27,與數據處理服務器21連接,用于將數據采集服務器采集到的基礎數據進行緩存。
[0045]具體的,通過緩存存儲服務器27,可以將數據處理服務器21采集到的基礎數據進行臨時性的存儲,并按照預先設置的存儲策略,將基礎數據集中上傳至分布式存儲集群25當中。
[0046]作為一種可選的實施方式,緩存存儲服務器可以根據數據規模,進行分層設置。通過逐層獲取基礎數據,并按照預先設置的存儲策略逐層匯總上傳的形式,對基礎數據進行采集和整理。
[0047]在實際應用當中,在緩存存儲服務器27中至少可以設置:省前置緩存服務器(一級緩存服務器)、全國中心前置緩存服務器(二級緩存服務器)、以及與系統交互的后臺處理服務器(三級緩存服務器)。
[0048]其中,可以通過插件將掃描、上傳的非結構類型的基礎數據,利用緩存存儲服務器逐層上傳至用于存儲非結構類型的第二子存儲集群。第二子存儲集群中的非結構化數據管理平臺以基本存儲單位的結構將非結構化數據存儲起來,并對相應的業務系統反饋關聯信息。其中,在第二子存儲集群中的基本存儲單位可以根據業務系統的要求或者預先設置的存儲策略對文件塊大小切割。
[0049]在對基礎數據進行調閱時,可以通過前端應用服務直接請求和發送調閱報文至第二子存儲集群中的非結構化數據管理平臺,非結構化數據管理平臺解析請求報文,并利用調閱引擎分離出業務系統所需的非結構化數據,及時反饋給調閱前端服務器,在業務系統中集成顯示出來。
[0050]作為一種可選的實施方式,第二子存儲集群253采用HadoopHDFS分布式文件存儲構架。
[0051 ]在實際應用當中,以Hadoop HDFS分布式文件存儲構架的來替換現有的存儲架構,主要考慮到Hadoop HDFS的特點,以便更好的對基礎數據進行管理和對業務系統提供基礎數據的支撐。
[0052]Hadoop HDFS可以支持線性擴展以及多副本備份,該優勢可以充分滿足非結構化數據管理平臺對全國中心數據存儲水平擴容、安全性以及節點數據的存儲動態均衡的要求;Hadoop可以構建高可用的HA Namenode。業內對Hadoop HA的高可用性已有很多成熟且可靠的解決方案,為全國中心的Master HA部署模式提供了指導;利用Hadoop提供的豐富的功能,來存儲及管理海量的非結構化數據、以及結構化數據,并且數據類型可以是多樣的。該特點可以為非結構化數據管理平臺實現非結構化數據分類存儲提供了基礎;利用Hadoop,可以使用map reduce靈活的實現云計算。以滿足未來使用分布式存儲基礎上,提供云計算構建擴充基礎;利用Hadoop,可以更容易集成第三方的工具或組件,比如hbase、hive、zookeeper等,從而實現更強大的統籌分析功能,自身管理能力,也為下一步提供大數據統計提供了一個環境條件。
[0053]作為一種可選的實施方式,第二子存儲集群253可以進一步采用MasterHA存儲構架。
[0054]在實際應用當中,用于管理非結構化類型的非結構化數據管理平臺的分布式存儲采用的可以是Master-Sal ve模式實現對存儲節點做節點分析、數據管理等工作。從而使得Master服務成為平臺的處理核心。進一步的,可以利用現有的Hadoop HA的成熟方案并結合應用實際進行部署,從而使Master的雙機具有高可用性,且保證在意外情況下平臺的健壯和穩定。
[0055]作為一種可選的實施方式,如圖4所示,在上述分布式數據存儲系統中,還可以包括:應用服務器29。
[0056]其中,應用服務器29,與分布式存儲集群25連接,用于提供對分布式存儲集群中存儲的基礎數據進行訪問的數據接口。
[0057]在實際應用當中,為保證全面、高效的完成業務系統接入,通過規范接口服務和系統接入標準。統一接口服務通過應用服務器29提供給外系統多種協議訪問支持,通過一系列接入實現對非結構化數據管理平臺基礎服務框架內各種服務元組的使用。根據不同系統的業務邏輯和需求定制化訪問接口服務組合,實現快速簡潔的系統接入模式,以達到節省時間、投資等成本。
[0058]由上可知,上述分布式數據存儲系統較現有技術,具有如下特點:
[0059]采用開源的分布式系統創建統一的分布式數據存儲系統,實現海量數據存儲和管理。由于銀行類企業的非結構化類型的基礎數據量巨大,每天產生各類憑證和檔案數據高達到2TB,存儲和管理的數據量高達到PB級。在這種情況下,Hadoop作為Apache組織采納Google存儲和管理海量數據的思想推出的開源項目框架正適合于設計要求。分布式數據存儲系統采用Hadoop框架搭建分布式環境,對海量小文件進行文件合并存儲,使用ZooKeeper管理構建的集群。
[0060]采用大量廉價PCServer集群和低端陣列代替傳統高端存儲解決方案的系統硬件架構。基于hadoop開源技術的分布式數據存儲系統采用開源的技術架構不僅滿足了銀行海量數據全國集中存儲管理、為業務系統接入提供松耦合服務等自身特色的要求,也為未來進一步深度挖掘非結構化和半結構化基礎數據使用價值打下架構基礎,更是實現了采用大量廉價PC Server集群和低端陣列代替傳統高端存儲解決方案的系統硬件架構。這不但為企業節約大量資金投入、降低數據基礎設施的成本,還絲毫不遜色于專業高端存儲的訪問效率,在海量非結構化數據存儲的情況下甚至更高,更是提高了大數據環境下非結構化數據的價值。
[0061 ]基于hadoop開源技術的分布式數據存儲系統具有非常好的擴展性和穩定性。分布式存儲架構不僅解決了擴展帶來的性能壓力,還十分易于設備擴充以及調試和部署,能夠為企業節省升級改造帶來的大量人力、物力成本,降低系統升級帶來的潛在風險、維持平臺長期穩定生產運行。
[0062]基于hadoop開源技術的分布式數據存儲系統以大數據管理為基礎,可以在為銀行類企業的海量非結構化數據存儲與共享提供了解決方案的同時,還提供對于非結構化類型的基礎數據完整生命周期的管理,擁有完善的安全認證機制,能夠為銀行類企業以內容為驅動的業務提供完整的流程實現。
[0063]分布式全文索引技術能夠與關系型數據庫查詢互補,滿足高效數據檢索要求。基于關系數據庫存儲的元數據,面臨存儲數據量巨大,檢索效率不高等問題。利用分布式全文索引解決關系型數據庫無法模糊檢索問題,而批量精確檢索利用傳統數據庫優勢實現。如此形成文件檢索模式的互補,能夠滿足銀行對于非結構化數據使用的要求。
[0064]基于hadoop開源技術的分布式數據存儲系統實現了非結構化類型的基礎數據的采集、管理及在各個業務系統中共享;實現業務流程的優化和再造,使檔案等非結構化數據管理更加科學、合理。為銀行類企業未來各類業務發展提供圖像檔案、數據文件集中控制和規范化管理的有力基礎平臺支撐。實現內控制度流程化,實現規章制度植入業務流程,最終實現業務流程優化和再造,為從傳統的部門銀行向流程銀行邁進奠定良好的基礎。
[0065]根據本發明實施例,提供了一種分布式數據存儲方法的方法實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執行指令的計算機系統中執行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執行所示出或描述的步驟。
[0066]圖5是根據本發明實施例的分布式數據存儲方法的流程圖,如圖5所示,該方法包括如下步驟:
[0067]步驟S21,對獲取到的基礎數據進行篩選,確定基礎數據的類型,其中,類型至少包括:結構化類型和非結構化類型。
[0068]步驟S23,將基礎數據按照類型存儲至第一子存儲集群和/或第二子存儲集群。
[0069]具體的,在上述步驟S21至步驟S23中,通過數據篩選確定獲取到的基礎數據的類型,并根據類型將基礎數據以相應的存儲形式存儲至預定存儲集群當中。從而達到提高分布式存儲集群整體存儲效率的目的,實現了降低分布式存儲集群的延遲時間的技術效果,解決了現有分布式數據存儲系統的數據訪問延遲高的技術問題。
[0070]作為一種可選的實施方式,在步驟S21對獲取到的基礎數據進行篩選,確定基礎數據的類型之后,該方法還包括:
[0071]步驟S221,根據非結構化類型的基礎數據,生成與基礎數據對應的元數據。
[0072]步驟S223,將元數據作為結構化類型的基礎數據存儲至第一子存儲集群。
[0073]具體的,通過步驟S221至步驟S223,在對基礎數據進行分類后,再對類型為非結構化類型的基礎數據中的內容進行提取,獲取到用于描述非結構化類型的基礎數據的元數據。進一步,將元數據作為結構化類型的基礎數據存儲至第一子存儲集群當中,以提高讀寫效率。
[0074]作為一種可選的實施方式,在步驟S23將基礎數據按照類型存儲至第一子存儲集群和/或第二子存儲集群之后,該方法還包括:
[0075]步驟S25,根據基礎數據生成數據索引信息,其中,數據索引信息至少包括:基礎數據的描述信息和存儲位置信息。
[0076]步驟S27,將數據索引信息存儲至索引服務器。
[0077]具體的,通過步驟S25至步驟S27,根據基礎數據的內容描述信息、存儲位置和/或關聯關系生成數據索引信息,并將數據索引信息存儲至索引服務器當中。從而降低分布式存儲集群的負載,并提高整體分布式存儲系統的系統效率。
[0078]作為一種可選的實施方式,在步驟S23將基礎數據按照類型存儲至第一子存儲集群和/或第二子存儲集群中,該步驟包括:
[0079]步驟S231,按照類型將基礎數據存儲至緩存服務器。
[0080]步驟S233,根據預先設置的存儲策略,將結構化類型的基礎數據存儲至第一子存儲集群,將非結構化類型的基礎數據存儲值第二子存儲集群。
[0081]具體的,可以在分布式數據存儲系統中設置緩存服務器,并且這些緩存服務器可以分級設置。緩存服務器可以用戶臨時存儲數據采集服務器采集到的基礎數據。按照預先設置的存儲策略,將基礎數據按照類型集逐層上傳至第一子存儲集群和第二子存儲集群當中。
[0082]根據本發明實施例,還提供了一種分布式數據存儲裝置的裝置實施例,如圖6所示,上述分布式數據存儲裝置包括:篩選模塊31和第一存儲模塊33。
[0083]其中,篩選模塊31,用于對獲取到的基礎數據進行篩選,確定基礎數據的類型,其中,類型至少包括:結構化類型和非結構化類型;第一存儲模塊33,用于將基礎數據按照類型存儲至第一子存儲集群和/或第二子存儲集群。
[0084]具體的,在上述篩選模塊31和第一存儲模塊33中,通過數據篩選確定獲取到的基礎數據的類型,并根據類型將基礎數據以相應的存儲形式存儲至預定存儲集群當中。從而達到提高分布式存儲集群整體存儲效率的目的,實現了降低分布式存儲集群的延遲時間的技術效果,解決了現有分布式數據存儲系統的數據訪問延遲高的技術問題。
[0085]作為一種可選的實施方式,如圖7所示,上述裝置還可以包括:第一生成模塊321和第二存儲模塊323。
[0086]其中,第一生成模塊321,用于根據非結構化類型的基礎數據,生成與基礎數據對應的元數據;第二存儲模塊323,用于將元數據作為結構化類型的基礎數據存儲至第一子存儲集群。
[0087]具體的,通過上述第一生成模塊321和第二存儲模塊323,在對基礎數據進行分類后,再對類型為非結構化類型的基礎數據中的內容進行提取,獲取到用于描述非結構化類型的基礎數據的元數據。進一步,將元數據作為結構化類型的基礎數據存儲至第一子存儲集群當中,以提尚讀與效率。
[0088]作為一種可選的實施方式,如圖8所示,上述裝置還可以包括:第二生成模塊35和第三存儲模塊37。
[0089]第二生成模塊35,用于根據結構化類型的基礎數據生成數據索引信息,其中,數據索引信息至少包括:基礎數據的描述信息和存儲位置信息;第三存儲模塊37,用于將數據索引信息存儲至索引服務器。
[0090]具體的,通過上述第二生成模塊35和第三存儲模塊37,根據基礎數據的內容描述信息、存儲位置和/或關聯關系生成數據索引信息,并將數據索引信息存儲至索引服務器當中。從而降低分布式存儲集群的負載,并提高整體分布式存儲系統的系統效率。
[0091]進一步的,作為一種可選的實施方式,在上述第一存儲模塊33中,可以執行如下步驟:
[0092]按照類型將基礎數據存儲至緩存服務器。并根據預先設置的存儲策略,將結構化類型的基礎數據存儲至第一子存儲集群,將非結構化類型的基礎數據存儲值第二子存儲集群。
[0093]具體的,可以在分布式數據存儲系統中設置緩存服務器,并且這些緩存服務器可以分級設置。緩存服務器可以用戶臨時存儲數據采集服務器采集到的基礎數據。按照預先設置的存儲策略,將基礎數據按照類型集逐層上傳至第一子存儲集群和第二子存儲集群當中。
[0094]上述本發明實施例序號僅僅為了描述,不代表實施例的優劣。
[0095]在本發明的上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。
[0096]在本申請所提供的幾個實施例中,應該理解到,所揭露的技術內容,可通過其它的方式實現。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統,或一些特征可以忽略,或不執行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
[0097]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個單元上。可以根據實際的需要選擇其中的部分或者全部單元來實現本實施例方案的目的。
[0098]另外,在本發明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現,也可以采用軟件功能單元的形式實現。
[0099]所述集成的單元如果以軟件功能單元的形式實現并作為獨立的產品銷售或使用時,可以存儲在一個計算機可讀取存儲介質中。基于這樣的理解,本發明的技術方案本質上或者說對現有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質中,包括若干指令用以使得一臺計算機設備(可為個人計算機、服務器或者網絡設備等)執行本發明各個實施例所述方法的全部或部分步驟。而前述的存儲介質包括:U盤、只讀存儲器(R0M,Read-0nly Memory)、隨機存取存儲器(RAM,Random Access Memory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質。
[0100]以上所述僅是本發明的優選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發明的保護范圍。
【主權項】
1.一種分布式數據存儲系統,其特征在于,包括: 數據采集服務器,用于對基礎數據進行采集; 數據處理服務器,與所述數據采集服務器連接,用于對所述基礎數據進行分類,確定所述基礎數據的類型,其中,所述類型至少包括:結構化類型和非結構化類型; 分布式存儲集群,與所述數據處理服務器連接,用于將所述結構化類型的所述基礎數據存儲至第一子存儲集群,將所述非結構化類型的所述基礎數據存儲至第二子存儲集群。2.根據權利要求1所述的系統,其特征在于,所述分布式存儲集群包括: 索引服務器,與所述第一子存儲集群連接,用于根據所述結構化類型的所述基礎數據生成數據索引信息。3.根據權利要求2所述的系統,其特征在于,所述系統還包括: 緩存存儲服務器,與所述數據處理服務器連接,用于將所述數據采集服務器采集到的所述基礎數據進行緩存。4.根據權利要求1所述的系統,其特征在于,所述第二子存儲集群采用HadoopHDFS分布式文件存儲構架。5.根據權利要求1至4中任意一項所述的系統,其特征在于,所述系統還包括: 應用服務器,與所述分布式存儲集群連接,用于提供對所述分布式存儲集群中存儲的所述基礎數據進行訪問的數據接口。6.—種應用于權利要求1至5中任意一項所述的系統的分布式數據存儲方法,其特征在于,包括: 對獲取到的基礎數據進行篩選,確定所述基礎數據的類型,其中,所述類型至少包括:結構化類型和非結構化類型; 將所述基礎數據按照所述類型存儲至第一子存儲集群和/或第二子存儲集群。7.根據權利要求6所述的方法,其特征在于,在對獲取到的基礎數據進行篩選,確定所述基礎數據的類型之后,所述方法還包括: 根據所述非結構化類型的所述基礎數據,生成與所述基礎數據對應的元數據; 將所述元數據作為所述結構化類型的所述基礎數據存儲至所述第一子存儲集群。8.根據權利要求7所述的方法,其特征在于,在將所述基礎數據按照所述類型存儲至第一子存儲集群和/或第二子存儲集群之后,所述方法還包括: 根據所述基礎數據生成數據索引信息,其中,所述數據索引信息至少包括:所述基礎數據的描述信息和存儲位置信息; 將所述數據索引信息存儲至索引服務器。9.根據權利要求8所述的方法,其特征在于,將所述基礎數據按照所述類型存儲至所述第一子存儲集群和/或所述第二子存儲集群,包括: 按照所述類型將所述基礎數據存儲至緩存服務器; 根據預先設置的存儲策略,將所述結構化類型的所述基礎數據存儲至第一子存儲集群,將所述非結構化類型的所述基礎數據存儲值第二子存儲集群。10.一種分布式數據存儲裝置,其特征在于,包括: 篩選模塊,用于對獲取到的基礎數據進行篩選,確定所述基礎數據的類型,其中,所述類型至少包括:結構化類型和非結構化類型; 第一存儲模塊,用于將所述基礎數據按照所述類型存儲至第一子存儲集群和/或第二子存儲集群。
【文檔編號】G06F17/30GK106095796SQ201610371832
【公開日】2016年11月9日
【申請日】2016年5月30日
【發明人】呂家進, 徐朝輝, 胡軍鋒, 段永政, 張振山, 戚翯, 劉博聞, 崔金虎, 瞿紅來, 鐘亮
【申請人】中國郵政儲蓄銀行股份有限公司