本發明涉及數據處理技術領域,尤其是大數據分析應用領域,具體涉及一種結合Spark技術構建靈活業務模型的方法。
背景技術:
大數據蘊含大信息,大信息提煉大知識,大知識將在更高的層面、更廣的視角、更大的范圍幫助用戶提高專項領域的數據應用能力,目前圍繞大數據分析領域的技術手段越來越多,基于海量數據存儲及分析的分布式計算技術越來越多的得到應用推廣,比如目前較為流行的基于Hadoop技術存儲及分析手段,該類手段在海量數據挖掘過程中日益體現出優勢,然后圍繞Hadoop技術的海量數據存儲及分析也存在諸多問題,比如要求開發人員具備較強的算法模型構建能力以及業務模型轉數據模型的轉換能力,這些阻礙了圍繞Hadoop技術的海量數據存儲及分析深入應用。
技術實現要素:
本發明旨在解決基于Hadoop技術的海量數據存儲及分析過程中存在業務模型構建繁瑣、業務人員無法深入參與構建算法模型等問題,通過對支撐Spark架構運行技術服務進行改造,暴露相關服務接口,在通過建設一套服務工具,依托Spark服務接口構建面向業務人員的靈活建模工具,實現用戶在頁面上就可以輕松構建業務模型,不需要關注業務模型向算法模型轉換的細節,然而這些轉換執行由本發明的提供技術實現。
本發明的技術方案如下:
一種結合Spark技術構建靈活業務模型的方法,其特征在于:
(1)Spark封裝:通過對Spark運行相關接口進行二次開發,對外暴露可以動態調整參數的接口;依托Spark接口服務提供接口進行應用開發,為不同領域的業務模型構建人員提供數據和服務支撐;
(2)搭建靈活建模工具,自定義模型配置功能,最大程度挖掘數據中心信息的價值,并可共享使用;為用戶提供配置界面,根據業務需要,通過簡單的配置,實現數據的可視化展示;根據綜合數據庫的情況建立軌跡分析模型;將原本需要根據業務場景定制的分析模型 抽象化為可配置的功能組件;
(3)監控服務:對Spark封裝服務調用接口使用情況的實時監控,提供各種數據的訪問統計功能,根據不同的條件進行各種數據的統計服務。
本發明產生消除了傳統計算模式中的I/O性能瓶頸,大規模數據的處理性能將獲得顯著提升,并為海量數據實時處理打造了一條寬廣的“高速公路”。
該發明能夠不同業務數據分析的需求,基于特定的分析數據源定制開發的業務主題分析模塊,釋放業務建模人員建立算法模型壓力,具有較好的實際應用推廣價值。
具體實施方式
基于Hadoop海量數據處理流程包括Map(映射)和Reduce(化簡)兩個階段,可以進行海量數據分割、任務分解與結果匯總,從而完成海量數據的并行處理。本發明通過對Hadoop\Spark運行服務的優化,實現算法模型可根據靈活建模工具提供的可視化頁面靈活定制。
本發明的設計技術方案內容包括Spark封裝服務、靈活建模工具、監控服務子系統三個部分,以下將詳細闡明各個子系統內容。
(1)Spark封裝服務:
Spark是一種與Hadoop相似的開源集群計算環境,但是兩者之間還存在一些不同之處,這些有用的不同之處使Spark在某些工作負載方面表現得更加優越,換句話說,Spark啟用了內存分布數據集,除了能夠提供交互式查詢外,它還可以優化迭代工作負載。
在Spark的核心機制方面,主要有兩個層面:首先是RDD(Resilient Distributed Datasets),RDD是Spark的最基本抽象,是對分布式內存的抽象使用,實現了以操作本地集合的方式來操作分布式數據集的抽象實現,它表示已被分區,不可變的并能夠被并行操作的數據集合,并且通常緩存到內存中,并且每次對RDD數據集的操作之后的結果,都可以存放到內存中。其次,就是在RDD上面執行的算法操作(Operator),在Spark的支持算法操作方面,主要有轉換(Transformation)和操作(Action)這兩大類。本發明通過對Spark運行相關接口進行二次開發,對外暴露可以動態調整參數的接口。第二部分,靈活建模工具將依托Spark接口服務提供接口進行應用開發,為不同領域的業務模型構建人員提供數據和服務支撐。
(2)靈活建模工具:
根據自己需要自行靈活搭建符合自身業務的分析模型外,靈活建模工具提供自定義模型 配置功能,最大程度挖掘數據中心信息的價值,并可共享使用。
可視化分析工具基于WEB技術實現的,為用戶提供配置界面,根據業務需要,通過簡單的配置,實現數據的可視化展示。
分析模型配置功能模塊用戶可通過拖拽、填充表格等方式,以可視化形式,方便地進行數據源配置、數據對象配置、字典管理、方案模版配置以及方案調度策略配置,根據綜合數據庫的情況建立軌跡分析模型。
將業務分析模型通過“分析模型配置”模塊予以實現。即將原本需要根據業務場景定制的分析模型抽象化為可配置的功能組件,高端用戶或管理員可直接自定義所需的分析模型。
(3)監控服務:
監控服務子系統主要實現對Spark封裝服務調用接口使用情況的實時監控,另外還提供各種數據的訪問統計功能,可以靈活地進行統計,根據不同的條件進行各種數據的統計服務,主要包括數據訪問量統計、用戶/IP訪問量統計等功能。
監控服務子系統組成部分包括:消息監控、服務異常監控、服務流量監控、統計分析、負載均衡、服務日志監控等內容。