中文字幕无码日韩视频无码三区

一種基于大數據的信息處理方法

文檔序號:8258939閱讀:361來源:國知局
一種基于大數據的信息處理方法
【技術領域】
[0001]本發明涉及數據存儲,特別涉及一種基于大數據的處理方法。
【背景技術】
[0002]大數據存儲與處理日益成為數據存儲領域的研宄熱點。其中,大數據具有較高的復雜性。傳統關系型數據庫在數據管理方面解決了數據一致性和完整性問題,但是,在大數據存儲、訪問與維護,非結構化和半結構化數據管理,以及數據庫易用性和擴展性等方面,關系型數據庫存在難以克服的問題。其讀取性能和數據處理性能不適用于海量大數據的存儲和訪問。
[0003]因此,針對相關技術中所存在的上述問題,目前尚未提出有效的解決方案。

【發明內容】

[0004]為解決上述現有技術所存在的問題,本發明提出了一種基于大數據的信息處理方法,用于在存儲平臺中處理大數據文件,其特征在于,包括:利用Nosql數據庫作為數據存儲層存儲多用戶上傳的文件數據,分別創建集合來實現不同類型數據的存儲,并使用分布式文件系統存儲并行計算過程中的中間數據;采用HTML5構建B/S架構作為表現層,實現了用戶頁面與存儲層之間的交互;在存儲層與表現層之間設置事務層,對數據庫進行訪問,將API進行封裝,為用戶提供應用功能。
[0005]優選地,所述事務層包括輸入模塊、下載模塊、檢索模塊、更新模塊、刪除模塊和數據處理模塊;其中,輸入模塊、下載模塊、檢索模塊、更新模塊、刪除模塊利用Nosql驅動程序與Nosql數據庫進行交互;數據處理模塊將數據庫適配器作為與Nosql之間的數據操作中間件,并結合預設算法庫支持大數據文件分析與挖掘。
[0006]優選地,該方法包括:創建文件數據集用于存放文件數據,并創建元數據集用于存儲文件數據的元數據項,所述存儲平臺面向多用戶提供數據存儲服務,將數據分為共享數據和私有數據,針對共享數據,所述文件數據集存儲在統一的數據庫中,并采用過濾器的安全模式;針對私有數據,每個用戶擁有單獨的數據庫,并采用權限控制的安全模式;所述文件數據集可由用戶選擇已存在的數據集,或新建數據集存儲上傳的數據,每一個文件對象存儲為一個json對象,文件對象在存儲過程中,增加文件屬性,用于表示該文件對象所屬的資源及屬性;元數據集用于記錄文件的元數據信息、上傳者對數據的描述,以及文件與數據庫中集合的對應關系;所述存儲平臺在Nosql集群架構設計上采用分片副本集架構;如果用戶需要新的字段,在上傳文檔之前直接添加元數據集,表示資源與數據庫中集合的對應關系的元數據信息在存儲過程中自動生成。
[0007]優選地,該方法還包括:為不同的數據格式提供不同的數據轉換與存儲接口,主要是實現數據文件的在線導入、導出功能,用戶上傳數據時,通過瀏覽器頁面以FTP協議上傳到服務器,并根據數據格式選擇接口讀取大數據并寫入到數據庫中,而下載數據過程中,接收用戶選擇的不同輸出數據格式;所述數據處理模塊使用數據適配器完成與Nosql數據庫的連接與交互,所述將Nosql分布式存儲與集群構建在同一計算機集群,并通過Nosql的分片機制支持并行計算。
[0008]優選地,該方法利用預設算法庫分析和挖掘大數據文件,包括文件統計分析、關聯規則挖掘、聚類分析,所述存儲平臺直接從Nosql的配置服務器中獲取塊相關參數,并將數據分片作為數據塊提交給映射器處理;在讀取過程中定義查詢語言,并與索引過濾相結合過濾輸出數據;首先檢測Nosql數據集,并計算數據分割;每一個數據分割分配到集群的一個計算節點;集群計算節點根據數據分割的分配情況從Nosql中獲取數據,并通過映射器進行本地計算;集群合并計算結果,將結果輸出到Nosql中;
[0009]當使用數據處理模塊在指定范圍內文件對象統計、文件聚類、關聯規則挖掘功能時,通過客戶端選擇數據源、數據項、處理算法,以及相應的參數、輸出位置,將處理結果統一存儲到Nosql中,并將計算進度、預計結束時間和存儲位置發送給客戶端。
[0010]本發明相比現有技術,具有以下優點:
[0011]本發明針對大數據存儲、查詢、檢索與并行處理,利用Nosql數據庫特性,以及與集群平臺的交互能力,適合于大數據的處理,以滿足用戶對異構數據存儲與網絡服務的需求。
【附圖說明】
[0012]圖1是根據本發明實施例的基于大數據的信息處理方法的流程圖。
【具體實施方式】
[0013]下文與圖示本發明原理的附圖一起提供對本發明一個或者多個實施例的詳細描述。結合這樣的實施例描述本發明,但是本發明不限于任何實施例。本發明的范圍僅由權利要求書限定,并且本發明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細節以便提供對本發明的透徹理解。出于示例的目的而提供這些細節,并且無這些具體細節中的一些或者所有細節也可以根據權利要求書實現本發明。
[0014]本文針對大數據存儲、查詢、檢索與并行處理等問題,利用Nosql數據庫特性,以及與集群平臺的交互能力,提出適合于大數據的存儲與處理方法,以滿足用戶對異構大數據存儲與網絡服務的需求。
[0015]本發明的一方面提供了一種基于大數據的信息處理方法。圖1是根據本發明實施例的基于大數據的信息處理方法流程圖。
[0016]本發明的基于大數據的信息處理方法運行于存儲平臺,該存儲平臺由3個層次組成,包括數據存儲層、事務層和表現層。
[0017](I)數據存儲層用于存儲多用戶上傳的文件數據。存儲平臺主要利用Nosql數據庫存儲數據,并使用分布式文件系統存儲并行計算過程中的中間數據。
[0018](2)事務層構建在存儲層之上,用于對數據庫進行訪問。事務層將相關的API進行封裝,為用戶提供常用的應用功能,隱藏了數據存儲層內部的復雜處理邏輯,簡化了用戶對數據的讀寫和管理流程。事務層主要包括6個模塊:輸入模塊、下載模塊、檢索模塊、更新模塊、刪除模塊和數據處理模塊。其中,輸入模塊、下載模塊、檢索模塊、更新模塊、刪除模塊利用Nosql驅動程序與Nosql數據庫進行交互;數據處理模塊將數據庫適配器作為與Nosql之間的數據操作中間件,并結合預設算法庫支持大數據文件分析與挖掘。
[0019](3)表現層:是整個存儲平臺的功能體現。存儲平臺整體采用B/S架構,使用瀏覽器作為上傳、下載、檢索、更新、刪除和數據處理等功能的客戶端。表現層采用HTML5等技術構建,實現了用戶頁面與存儲層之間的交互。
[0020]針對大數據在類型、結構上不同的特點,本發明創建2類不同的集合來滿足數據的存儲:一類是文件數據集,用于存放文件數據;一類是元數據集,用于存儲文件數據的元數據項。存儲平臺面向多用戶提供數據存儲服務,將數據分為共享數據和私有數據。針對共享數據,文件數據集存儲在統一的數據庫中,并采用過濾器的安全模式;針對私有數據,每個用戶擁有單獨的數據庫,并采用權限控制的安全模式。
[0021]文件數據集用于存儲數據。用戶可選擇已存在的數據集,或新建數據集存儲上傳的數據。每一個文件對象存儲為一個json對象,文件對象在存儲過程中,增加文件屬性,用于表示該文件對象所屬的資源及相應屬性。元數據集主要用于記錄文件的元數據信息、上傳者對數據的描述,以及文件與數據庫中集合的對應關系等信息。存儲平臺對默認元數據集進行了設計,滿足用戶對數據進行描述的需求。如果需要新的字段,可在上傳文檔之前直接添加,無需事先設計完整的元數據集。這種方式可以弱化初始的數據結構設計,無需存儲無用的字段,降低數據存儲冗余,避免產生大量的稀疏數據集,適合多用戶條件下不同格式、不同屬性數據的存儲。部分元數據信息在存儲過程中自動生成,例如資源與數據庫中集合的對應關系信息。在Nosql集群架構設計上,采用分片副本集架構。
[0022]針對不同的數據格式,存儲平臺提供不同的數據轉換與存儲接口。轉換接口主要是實現數據文件的在線導入、導出功能。用戶上傳數據時,通過瀏覽器頁面以FTP協議上傳到服務器,并根據數據格式選擇接口讀取大數據并寫入到數據庫中。下載數據是上傳數據的逆過程,用戶可以根據需要選擇不同輸出數據格式。
[0023]以矢量圖層格式為例,存儲過程如下:⑴注冊驅動;(2)獲取圖層數和圖層名,將圖層名寫入元數據集中,并遍歷每一個圖層;(3)讀取圖層屬性表的表
當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1