中文字幕无码日韩视频无码三区

基于云計算平臺的海量數據處理方法

文檔序號:10570028閱(yue)讀:353來源:國知局
基于云計算平臺的海量數據處理方法
【專利摘要】本發明涉及互聯網信息處理技術領域,特別涉及基于云計算平臺的海量數據處理方法,通過設置字段等過濾條件,對原始數據中每篇文檔中的關鍵信息單元進行提取,并形成相應的數據記錄,并將各個數據記錄存儲存儲于數據庫中,在此基礎上,根據不同數據記錄中所包含的相同信息單元,應用云計算平臺下的大數據處理框架抽象出信息單元之間的關聯關系。本發明可以在海量互聯網信息中,根據需要分析出海量目標信息背后隱含的關聯信息和對應關聯路徑并將分析結果通過查詢端口提供給用戶,極大的節省了用戶進行相關資料整理分析的時間和人力成本。為目標背景分析,市場推廣,市場細分,風險預測和風險防控等提供了有效技術支撐。
【專利說明】
基于云計算平臺的海量數據處理方法
技術領域
[0001]本發明涉及互聯網技術領域,特別涉及基于云計算平臺的海量數據處理方法。
【背景技術】
[0002]隨著社會的發展和科技的進步,個體或者團體之間的聯系變得更加緊密,緊密的聯系促進了信息的快速傳播和增長,而當今世界早就進入了信息時代,隨著信息的爆發式增長和積累,大數據時代已近來臨,大數據的基本特征可以用4個“V”來描述,即數據量大(Volume)、類型繁多(Variety)、價值密度低(Value)、速度快時效高(Velocity);作為其中最重要的特點:數據量大和價值密度低卻是困擾如此海量數據信息挖掘利用的難題,在海量的數據里面,如何精確的獲得人們關心的信息,就如同海底撈針困難重重;與此同時面對海量的信息,如何去分析某類信息之間的相關性,并以此分析出信息背后隱含價值,才在更高、更深的層面體現數據信息的價值,在大數據分析中相關性比因果關系更重要,但是面對如此海量的數據,想要快速準確的分析出數據之間的關聯關系,十分困難。
[0003]實際上在紛繁復雜的信息海洋中,某些信息之間的聯系往往比與其他信息之間的聯系要緊密得多,而這些具有某種緊密聯系的信息往往反映的是現實生活中的人與人之間或者團體之間的特定關系,這些特定關系會使其在相關的社會或者經濟活動中相互影響或者牽制;從網絡信息傳播角度來說,掌握一些關鍵的信息聯系節點對于社會管理和商業活動具有極大的積極意義,因為從信息傳播的角度來說,這些重要的信息聯系節點的信息(或者風險)傳播速度或者影響范圍會比其他信息點更快更廣;這樣的分析可以用在比如輿情監督、疾病傳播的控制或者廣告投放等領域。
[0004]從另外一個角度來說,針對特定的信息目標,如何分析該目標與其他目標之間的關聯關系在很多領域具有更加實際的意義,因為具有關聯關系的目標在進彳丁各種活動時往往比單獨的簡單個體具有更大的影響面,而且具有關聯關系的目標在對外建立各種活動時,受到內部的關聯關系的相互牽制或者支持,會比簡單目標的活動軌跡更加復雜。而在現實生活中,信息目標之間的關聯關系非常復雜,而且一般是隱藏的,人們并不能通過表面活動或者表面信息察覺到,更加不易找出該目標是否和其他目標具有關聯關系,或者是何種關聯關系。在這樣的情況下,這些隱含的關聯關系會對人們的社會經濟活動帶來很多潛在的價值或者風險。要分析這些的隱含關聯關系在海量的數據面前將變得更加困難,如果這些任務通過個人逐個實現,將耗費巨大的人力和時間成本;急需一種處理方法,幫助分析者來實現這種巨大繁瑣的計算過程,提供這種分析結果。

【發明內容】

[0005]本發明的目的在于克服現有技術中所存在的不足,提供基于云計算平臺的海量數據處理方法,在數據庫中提取需要處理的原始數據,通過云計算平臺的大數據處理框架,利用不同數據記錄中相同的信息單元分析出海量目標信息之間的關聯關系;本發明方法系統可以在海量互聯網信息中,根據需要設置分析目標,進而分析出不同目標之間是否具有關聯關系以及是何種關聯關系,為數據信息的深度挖掘和應用提供了一種十分可靠便捷的途徑,為目標背景分析,市場推廣,市場細分,風險預測和防控等提供了一種新型的有效途徑。
[0006]為實現上述目的,本發明提供基于云計算平臺的海量數據處理方法:通過設置字段等過濾條件,對原始數據每篇文檔中的關鍵信息單元進行提取,將提取出的關鍵信息單元按照設定的順序排列成一條數據記錄,并將各條數據記錄存儲于數據庫中(通常為非關系型數據庫),在此基礎上,根據不同數據記錄中所包含相同的信息單元,應用云計算框架下的分布式處理模型抽象出信息單元之間的關聯關系。
[0007]具體的,所述發明方法包含以下實現步驟:
[0008](I)從原始數據中的每條基礎數據中,根據設置的字段提取出對應的信息,形成相應的數據記錄;
[0009](2)在一條數據記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關聯信息;在第二數據記錄中包含第二信息和第三信息,其中所述第三信息為所述第二信息的一度關聯信息;;通過云計算平臺下的分布式處理框架將所述第三信息抽象成所述第一信息的二度關聯信息;并且抽象出從第一信息經過第二信息到第三信息的關聯路徑;
[0010](3)如在第三數據記錄中包含第四信息和第三信息,其中第四信息為第三信息的一度關聯信息,通過云計算平臺下的分布式處理框架將第四信息擴展為第一信息的二度關聯信息;并且抽象出從第一信息經過第二信息到第三信息到第四信息的關聯路徑;
[0011]依次類推,抽象出以第一信息為起點的N度關聯信息以及對應的關聯路徑,其中N
^lo
[0012]其中所述第一信息、第二信息、第三信息以及第四信息是指信息的內容,不代表信息的順序。通過本發明方法可以目標信息為起點(起點的選擇根據分析需要來設置),逐級查找出與目標相關聯的其他信息和對應的關聯路徑,通過關聯路徑可以很清晰的顯示出分析目標與關聯信息之間的具體關聯途徑。而且本發明關聯關系的計算是以云計算平臺的大數據處理框架來實現的,可以同時對海量的目標并行的處理,也就是說,從基礎數據到N度關聯信息的計算,都是多個目標同時并列處理。可以看出隨著關聯度N的逐級增加,計算的復雜度和數據維度不斷增加,而這樣復雜的數據處理過程通過云計算平臺的大數據處理框架(比如Hadoop下的MapReduce和Spark等大數據處理框架)得以順利快速的實現;MapReduce和Spark等大數據處理框架能夠使用戶只需按照計算框架提供的接口設計上層指令,在不關心底層運行過程的情況下,處理框架根據上層指令自動調用內部的相關資源,并且將任務自動切分,分配到內部的多個節點進行處理,實現了數據的并行高效計算,在處理完成后還自動將處理結果整合后提供給用戶;任務完成過程高度自動化,極大的節省了人力,提高了數據的處理效率。本發明利用云計算平臺的大數據處理框架為海量目標的關聯背景分析提供了快速可靠的處理途徑。
[0013]本發明中的原始數據存儲于數據庫中,所述原始數據的來源可以是從互聯中根據需要爬取的數據,互聯中包含廣泛豐富的信息來源,從互聯網中根據需要爬取相關信息,并將獲取的信息進行深度處理,為信息的精細化處理,和深度應用提供一種全新的途徑。
[0014]進一步的,所述N度關聯關系中的計算過程,均以一度關聯關系為基礎,即是上述關聯信息的追蹤(計算)過程中,第N度關聯信息為第N-1度關聯信息的一度關聯信息。這樣逐級追蹤關聯信息的計算,計算邏輯清晰,運行過程簡單,保證了運算結果的準確率。
[0015]進一步的,所述步驟(I)中提取出來的數據信息可以先通過清洗進行數據預處理。
[0016]進一步的,所述步驟(I)中,所述數據記錄中的信息單元(所述信息單元是指每個字段對應的內容)之間使用分隔符隔開,比如說空格、逗號,頓號。將信息單元之間使用分隔符隔開,避免不同信息單元內容的相互粘連,為后續關聯信息內容的提取和計算提供基礎。
[0017]進一步的,將所述步驟(I)中提取出的數據信息的字段和內容作為鍵值對:其中字段作為“鍵”,而字段對應的內容為“值”;根據分析需要可選擇其中一個字段對應的內容作為關聯信息追蹤的起點(被關聯信息),而將每條數據記錄中的其他字段對應的內容作為被關聯信息的一度關聯信息,從而完成一度關聯關系的計算。一度關聯信息的計算是后續N度關聯?目息計算的基礎。
[0018]進一步的,將所述步驟(2)中形成的一度關聯信息按照設定的結構順序,進行存儲。將一度關聯信息按照設定的結構和順序進行存儲,使得不同目標所形成的一度關聯信息數據存儲格式統一,便于后續步驟的數據處理。
[0019]進一步的,所述步驟(2)中形成的一度關聯信息,可以按照目標(起點信息)、一度關聯信息、關系標簽的結構順序進行存儲。所述關聯標簽是對該一度關聯信息與目標信息之間的關聯關系的描述,可以為關聯數據的查詢提供簡潔直觀的描述。
[0020]進一步地,所述步驟(3)中形成的二度關聯信息按照:一度關聯數據、二度關聯數據的順序結構進行存儲;并將屬于不同關聯度的信息單元打上對應的標記,一度關聯關系和二度關聯關系的內部的數據存儲結構與上一步結構相同;通過相應的標記,可以很方便的將屬于不同關聯度的信息區別開來,方便關聯信息逐級計算時的數據提取和區分。
[0021 ]進一步的,所述N度關聯信息,按照關聯度依次增加的順序結構進行存儲;并將屬于不同關聯度的信息單元打上對應的標記。
[0022]作為一種優選,所述數據記錄以及N度關聯信息以數據表的形式進行存儲,以數據表形式存儲的數據,存儲結構規范,便于查詢和進一步計算。
[0023]進一步的,所述數據記錄以及N度關聯信息存儲于非關系型數據庫中,比如說HBase、CouchDB、Cassandra、Mongodb等NoSQL非關系型數據庫中。與傳統的關系型數據庫相比,非關系型數據庫具有操作簡單、完全免費、源碼公開、隨時下載、應用成本低等特點;并且在面對體量急劇增加的多維度弱模式數據時,比如說音頻數據、視頻數據,傳統的非關系型數據庫的存儲已經不能滿足需求。
[0024]進一步的,所述步驟(2)、(3)中形成的關聯關系存儲于于非關系型數據庫的分布式文件系統中(比如HDFS),HDFS作為Hadoop下面的分布式文件系統,具有高度容錯性,適合部署在廉價的機器上,運行和維護成本較低。同時HDFS非常適合用于存儲大規模數據集;采用HDFS來存儲待處理數據可以滿足海量數據存儲,高容錯性的需要,并且為采用Hadoop的其他分布式計算框架提供了便利。
[0025]作為一種優選,所述步驟(2)、步驟(3)中的關聯關系通過Hadoop下的MapReduce計算框架來實現。
[0026]進一步的,所述步驟(2)、步驟(3)中的二度關聯關系通過Spark計算框架來實現。使用Spark大數據處理框架來實現關聯關系的計算,Spark作為MapReduce的替代方案,可以兼容HDFS分布式存儲層,可以融入Hadoop的生態系統圈。Spark是可以搭建大數據內存計算平臺,并充分利用內存計算,實現海量數據的快速處理。
[0027]進一步的,所述步驟(3)中的二度關聯關系通過Spark計算框架中的SQL語句來實現,具體的使用SQL中的join算法來實現:比如說:在一張數據表中包含結構化的兩列信息:第一信息,第二信息;第二信息,第三信息;則通過join算法,可以很方便的將第一信息和第二信息經過第二信息連接到一起,形成了第一信息,第二信息,第三信息的新數據結果。
[0028]與現有技術相比,本發明的有益效果:本發明基于云計算平臺的海量數據處理方法,從海量的基礎數據中,提取分析目標的相關關鍵信息,利用不同數據記錄中相同的信息單元,將具有隱含聯系的相關信息挖掘出來,根據關聯的度數將信息之間的關聯遠近程度進行量化;而且通過關聯信息的逐級追蹤,清晰而簡潔的勾勒出了相關信息的關聯路徑和關聯方式,為相關問題追蹤和背景查找提供了一種快速可靠的通道。
[0029]不僅如此本發明以云計算平臺的大數據處理框架來實現海量關聯數據的同時并行的處理,使用戶只需按照計算框架提供的接口設計上層指令,在不關心底層運行過程的情況下,任務的切分和資源的調用由大數據處理框架自動實現,并在處理完成后還自動將處理結果整合后提供給用戶;任務完成的高度自動化,極大的節省了人力,提高了數據的處理效率。
[0030]總之,本發明方法為數據信息的深度挖掘和應用提供了一種十分可靠便捷的途徑,目標背景分析,市場推廣,市場細分,風險預測和防控等提供了有效技術支撐。
【附圖說明】
:
[0031]圖1是本基于云計算平臺的海量數據處理方法的實現流程示意圖。
[0032]圖2是本基于云計算平臺的海量數據處理方法的關聯算法示意圖。
[0033]圖3是實施例1中的步驟(I)中提取出的3條數據記錄示意圖。
[0034]圖4是實施例1中的步驟(2)中形成一度關聯關系數據表存儲結構示意圖。
[0035]圖5是實施例1中的步驟(3)中形成的二度關聯關系數據表存儲結構示意圖。
[0036]圖6是實施例1中三度關聯關系數據表存儲結構示意圖。
[0037]圖7是實施例1中以目標以A為起點的一度關聯關系路徑不意圖。
[0038]圖8是實施例1中以目標以C為起點的一度關聯關系路徑不意圖。
[0039]圖9是實施例1中以目標以H為起點的一度關聯關系路徑示意圖。
[0040]圖10是實施例1中以目標以A為起點的一■度關聯關系路徑不意圖。
[0041 ]圖11是實施例1中以目標以C為起點的一■度關聯關系路徑不意圖。
[0042]圖12是實施例1中以目標以H為起點的二度關聯關系路徑示意圖。
[0043]圖13是實施例1中以目標以A為起點的二度關聯關系路徑不意圖。
[0044]圖14是實施例1中以目標以C為起點的二度關聯關系路徑不意圖。
[0045]圖15是實施例1中以目標以H為起點的二度關聯關系路徑不意圖。
[0046]應該理解本發明附圖均為示意性的,不代表具體的步驟和路徑。
【具體實施方式】
[0047]下面結合試驗例及【具體實施方式】對本發明作進一步的詳細描述。但不應將此理解為本發明上述主題的范圍僅限于以下的實施例,凡基于本
【發明內容】
所實現的技術均屬于本發明的范圍。
[0048]本發明的目的在于克服現有技術中所存在的不足,提供基于云計算平臺的海量數據處理方法,在數據庫中提取需要處理的原始數據,通過云計算平臺的大數據處理框架,利用不同數據記錄中相同的信息單元分析出海量目標信息之間的關聯關系;本發明方法系統可以在海量互聯網信息中,根據需要設置分析目標,進而分析出不同目標之間是否具有關聯關系以及是何種關聯關系,為數據信息的深度挖掘和應用提供了一種十分可靠便捷的途徑,為目標背景分析,市場推廣,市場細分,風險預測和防控等提供了一種新型的有效途徑。
[0049]為實現上述目的,本發明提供基于云計算平臺的海量數據處理方法:通過設置字段等過濾條件,對原始數據每篇文檔中的關鍵信息單元進行提取,將提取出的關鍵信息單元按照設定的順序排列成一條數據記錄,并將各條數據記錄存儲于數據庫中(通常為非關系型數據庫),在此基礎上,根據不同數據記錄中所包含相同的信息單元,應用云計算框架下的分布式處理模型抽象出信息單元之間的關聯關系。
[0050]具體的,所述發明方法包含如圖1所示的實現步驟:
[0051](I)從原始數據中的每條基礎數據中,根據設置的字段提取出對應的信息,形成相應的數據記錄;
[0052](2)在一條數據記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關聯信息;在第二數據記錄中包含第二信息和第三信息,其中所述第三信息為所述第二信息的一度關聯信息;通過云計算平臺下的分布式處理框架將所述第三信息抽象成所述第一信息的二度關聯信息;并且抽象出從第一信息經過第二信息到第三信息的關聯路徑;
[0053](3)如在第三數據記錄中包含第四信息和第三信息,其中第四信息為第三信息的一度關聯信息,通過云計算平臺下的分布式處理框架將第四信息擴展為第一信息的二度關聯信息;并且抽象出從第一信息經過第二信息到第三信息到第四信息的關聯路徑;
[0054]依次類推,抽象出以第一信息為起點的N度關聯信息以及對應的關聯路徑,其中N
>lo
[0055]其中所述第一信息、第二信息以及第三信息是指信息的內容,不代表信息的順序。通過本發明方法可以目標信息為起點(起點的選擇根據分析需要來設置),逐級查找出與目標相關聯的其他信息和對應的關聯路徑,通過關聯路徑可以很清晰的顯示出分析目標與關聯信息之間的具體關聯途徑。而且本發明關聯關系的計算是以云計算平臺的大數據處理框架來實現的,可以同時對海量的目標并行的處理,也就是說,從基礎數據到N度關聯信息的計算,都是多個目標同時并列處理。可以看出隨著關聯度N的逐級增加,計算的復雜度和數據維度不斷增加,而這樣復雜的數據處理過程通過云計算平臺的大數據處理框架(比如Hadoop下的MapReduce和Spark等大數據處理框架)得以順利快速的實現;MapReduce和Spark等大數據處理框架能夠使用戶只需要按照計算框架提供的接口設計上層指令,在不關心底層運行過程的情況下,處理框架根據上層指令自動調用內部的相關資源,并且將任務自動切分,分配到內部的不同節點進行處理,實現了數據的并行高效計算,在處理完成后還自動將處理結果整合后提供給用戶;任務完成過程高度自動化,極大的節省了人力,提高了數據的處理效率。本發明利用云計算平臺的大數據處理框架為海量目標的關聯背景分析提供了快速可靠的處理途徑。
[0056]本發明中的原始數據存儲于數據庫中,所述原始數據的來源可以是從互聯中根據需要爬取的數據,互聯中包含廣泛豐富的信息來源,從互聯網中根據需要爬取相關信息,并將獲取的信息進行深度處理,為信息的精細化處理和深度應用提供一種全新的途徑。
[0057]進一步的,所述N度關聯關系中的計算過程,均以一度關聯關系為基礎,即是上述關聯信息的追蹤(計算)過程中,第N度關聯信息為第N-1度關聯信息的一度關聯信息。這樣逐級追蹤關聯信息的計算,計算邏輯清晰,運行過程簡單,保證了運算結果的準確率。
[0058]進一步的,所述步驟(I)中提取出來的數據信息可以先通過清洗進行數據預處理,從基礎數據中根據字段提取出來的數據信息一般為JSON型,其數據的相關性不強,而且可能存在一些數據結構不規范,數據清潔程度不夠(包含一些不相關、無用或者錯誤的數據)的情況,即是所謂的弱結構;想要將這些弱結構數據信息抽象成一度關聯信息,需要先將這些數據進行相應的整理,這個整理的過程就是數據預處理過程,所述數據預處理可采用包括字段過濾、字段派生、空值處理、數據抽樣記錄篩選、記錄匯總、記錄附加、記錄合并和記錄排序等方法,對數據預處理可以解決數據中的缺值、冗余和數據不一致等問題;總之所述數據清洗就是根據分析的需要對基礎數據實現ETL(提取-轉換-加載)的過程。
[0059]進一步的,所述步驟(I)中,所述數據記錄中的信息單元(所述信息單元是指每個字段對應的內容)之間使用分隔符隔開,比如說空格、逗號,頓號。將信息單元之間使用分隔符隔開,避免不同信息單元內容的相互粘連,為后續關聯信息內容的提取和計算提供基礎。
[0060]進一步的,將所述步驟(I)中提取出的數據信息的字段和內容作為鍵值對:其中字段作為“鍵”,而字段對應的內容為“值”;根據分析需要可選擇其中一個字段對應的內容作為關聯信息追蹤的起點(被關聯信息),而將每條數據記錄中的其他字段對應的內容作為被關聯信息的一度關聯信息,從而完成一度關聯關系的計算。一度關聯信息的計算是后續N度關聯?目息計算的基礎。
[0061]進一步的,將所述步驟(2)中形成的一度關聯信息按照設定的結構順序,進行存儲。將一度關聯信息按照設定的結構和順序進行存儲,使得不同目標所形成的一度關聯信息數據存儲格式統一,便于后續步驟的數據處理。
[0062]進一步的,所述步驟(2)中形成的一度關聯信息,可以按照目標(起點信息)、一度關聯信息、關系標簽的結構順序進行存儲。所述關聯標簽是對該一度關聯信息與目標信息之間的關聯關系的描述,可以為關聯數據的查詢提供簡潔直觀的描述。
[0063]進一步的,所述步驟(2)中形成的二度關聯信息按照:一度關聯數據、二度關聯數據的順序結構進行存儲;并將屬于不同關聯度的信息單元打上對應的標記,一度關聯關系和二度關聯關系的內部的數據存儲結構與上一步結構相同;通過相應的標記,可以很方便的將屬于不同關聯度的信息區別開來,方便關聯信息逐級計算時的數據提取和區分。
[0064]進一步的,所述N度關聯信息,按照關聯度依次增加的順序結構進行存儲;并將屬于不同關聯度的信息單元打上對應的標記。
[0065]作為一種優選,所述數據記錄以及N度關聯信息以數據表的形式進行存儲,以數據表形式存儲的數據,存儲結構規范,便于查詢和進一步計算。
[0066]進一步的,所述數據記錄以及N度關聯信息存儲于非關系型數據庫中,比如說HBase、CouchDB、Cassandra、Mongodb等非關系型數據庫中。與傳統的關系型數據庫相比,非關系型數據庫具有操作簡單、完全免費、源碼公開、隨時下載、應用成本低等特點;并且在面對體量急劇增加的多維度無結構數據時,比如說音頻數據、視頻數據,傳統的非關系型數據庫的存儲已經不能滿足需求。
[0067]進一步的,所述步驟(2)、(3)中形成的關聯關系存儲于于非關系型數據庫的分布式文件系統中(比如HDFS),HDFS作為Hadoop下面的分布式文件系統,具有高度容錯性,適合部署在廉價的機器上,運行和維護成本較低。同時HDFS非常適合用于大規模數據集;采用HDFS來存儲待處理數據可以滿足海量數據存儲,高容錯性的需要,并且為采用Hadoop的其他處理方式提供了便利。
[0068]作為一種優選,所述步驟(2)、步驟(3)中的關聯關系通過Hadoop下的map-reduce計算框架來實現。
[0069]進一步的,所述步驟(2)、步驟(3)中的二度關聯關系通過Spark計算框架來實現。使用Spark大數據處理框架來實現關聯關系的計算,Spark作為MapReduce的替代方案,可以兼容HDFS分布式存儲層,可以融入Hadoop的生態系統圈。Spark是可以搭建大數據內存計算平臺,并充分利用內存計算,實現海量數據的實時處理。
[°07°]進一步的,所述步驟(3)中的二度關聯關系通過Spark計算框架中的SQL語句來實現,具體的使用SQL中的join算法來實現:比如說:在一張數據表中包含結構化的兩列信息:第一信息,第二信息;第二信息,第三信息;則通過join算法,可以很方便的將第一信息和第二信息經過第二信息連接到一起,形成了第一信息,第二信息,第三信息的新數據結果。
[0071]實施例1
[0072]下面以其中3條數據作為一個小示例,說明關聯關系的分析過程。假設在原始數據中經過字段(設置的字段包括:第一字段、第二字段、第三字段以及第四字段)提取,提取出來的數據中包含如圖3所示的3條數據記錄,其中第一數據記錄包含的第一字段、第二字段、第三字段以及第四字段所對應的信息內容依次為:A、B、D以及E;第二條數據記錄中包含的第一字段、第二字段、第三字段以及第四字段所對應的信息內容依次為:C、B、F以及G;第三條信息中包含的第一字段、第二字段、第三字段以及第四字段所對應的信息內容依次為:H、F、I。假設將第一字段對應的內容作為關聯分析的起點,則第一數據記錄可形成:A-B、A-D、A-E的一度關聯關系,其中B、D、E均為A的一度關聯信息,同時A也為B、D、E的一度關聯信息;第二數據記錄可形成C-B、C-F、C-G的一度關聯關系,其中B、F、G均為C的一度關聯信息,同時C也為B、F、G的一度關聯信息;第三數據記錄可形成:H-F、H-1的一度關聯關系,其中F、I為H的一度關聯信息,同時H也為F、I的一度關聯信息。將一度關聯關系以表結構的存儲格式進行存儲,則可形成如圖4所述的結構化的兩列。
[0073]在上述一度關聯的基礎上,根據A-B和C-B的一度關聯關系中相同的信息單元B,將C抽象成A的二度關聯信息,以A為起點,形成A-B-C的關聯路徑。根據C-B和A-B的一度關聯關系中相同的信息單元B,將息A抽象成C的二度關聯信息,以C為起點,形成C-B-A的關聯路徑。根據C-F和H-F的一度關聯關系中相同的信息單元F,將H抽象成C的二度關聯信息;以C為起點,形成C-F-H的關聯路徑。根據H-F和C-F的一度關聯關系中相同的信息單元F,將C抽象成H的二度關聯信息;以H為起點,形成H-F-C的關聯路徑。形成二度關聯關系的關聯數據存儲以數據表形式可采用如圖5所示的存儲結構。
[0074]進一步的,在上述二度關聯以及一度關聯關系的基礎上,以第一信息A為起點根據A的二度關聯信息C的一度關聯信息,可抽象出A-B-C-F,A-B-C-G的關聯路徑,其中F和G為A的三度關聯信息。以C為起點,根據C的二度關聯信息A和H的一度關聯信息,可抽象出,C-B-A-E,C-B-A-D,C-F-H-1的關聯路徑,其中D、E、I為C的三度關聯信息。同樣以H為起點,根據其二度關聯信息C的一度關聯信息,可形成H-F-C-B,H-F-C-G的關聯路徑,其中B和G為H的三度關聯信息。三度關聯信息的存儲數據表如圖6所示。
[0075]值得注意的是在關聯信息計算過程中需要去除閉合路徑,以此來避免計算中的錯誤循環。
[0076]根據實施例中以A、C、和H為起點的一度關聯關系數據形成的合并整合后的的關聯路徑分別如圖7、圖8、圖9所不;一■度關聯路徑如圖10、圖11、圖12所不;二度關聯路徑如圖
13、圖14、圖15所示。
[0077]本實施例僅示意性的說明關聯信息的計算過程,實際上根據需要所要分析的目標數可以達到萬、十萬、百萬量級;而且從上述實施例可以看出,隨著關聯度數的增加,所需計算的數據量急劇增加,海量的計算目標的多維關聯信息的計算量更加巨大,而本發明采用云計算平臺的大數據處理框架,可以根據上述方法,對海量目標并行的進行計算,進而實現了海量目標信息的關聯關系分析和挖掘。
[0078]盡管上面對本發明說明性的【具體實施方式】進行了描述,以便于本技術領的技術人員理解本發明,但應該清楚,本發明不限于【具體實施方式】的范圍,對本技術領域的普通技術人員來講,只要各種變化在所附的權利要求限定和確定的本發明的精神和范圍內,這些變化時顯而易見的,一切利用本發明構思的發明創造均在保護之列。
【主權項】
1.基于云計算平臺的海量數據處理方法,其特征在于,包含以下實現過程: (1)從原始數據中的每條基礎數據中,根據設置的字段提取出對應的信息,形成相應的數據記錄; (2)在一條數據記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關聯信息;在第二數據記錄中包含第二信息和第三信息,其中所述第三信息為所述第二信息的一度關聯信息;通過云計算平臺下的分布式處理框架將所述第三信息抽象成所述第一信息的二度關聯信息;并且抽象出從第一信息經過第二信息到第三信息的關聯路徑; (3)如在第三數據記錄中包含第四信息和第三信息,其中第四信息為第三信息的一度關聯信息,通過云計算平臺下的分布式處理框架將第四信息擴展為第一信息的二度關聯信息;并且抽象出從第一信息經過第二信息到第三信息到第四信息的關聯路徑; 依次類推,抽象出以第一信息為起點的N度關聯信息以及對應的關聯路徑,其中N>1。2.如權利要求1所述的基于云計算平臺的海量數據處理方法,其特征在于,所述關聯信息的計算過程中,計算路徑中第N度關聯信息為第N-1度關聯信息的一度關聯信息。3.如權利要求1所述的基于云計算平臺的海量數據處理方法,其特征在于,所述原始數據根據需要從互聯網的相關網頁中爬取而來。4.如權利要求3所述的基于云計算平臺的海量數據處理方法,其特征在于,所述數據記錄經過清洗來實現數據預處理。5.如權利要求4所述的基于云計算平臺的海量數據處理方法,其特征在于,通過字段過濾、字段派生、空值處理、數據抽樣記錄篩選、記錄匯總、記錄附加、記錄合并和,或記錄排序方法進行數據清洗。6.如權利要求1所述的基于云計算平臺的海量數據處理方法,其特征在于,所述步驟(I)各個數據記錄中的信息單元按照統一的結構順序進行存儲。7.如權利要求6所述的基于云計算平臺的海量數據處理方法,其特征在于,所述步驟(I)中,所述數據記錄以數據表的形式進行存儲。8.如權利要求6所述的基于云計算平臺的海量數據處理方法,其特征在于,所述步驟(1)中,所述數據記錄中的信息單元之間使用分隔符隔開。9.如權利要求6所述的基于云計算平臺的海量數據處理方法,其特征在于,所述步驟(2)中形成的一度關聯信息,按照起點信息、一度關聯信息、關聯描述的結構順序進行存儲。10.如權利要求6所述的基于云計算平臺的海量數據處理方法,其特征在于,所述N度關聯信息按照關聯度依次增加的順序結構進行存儲。11.如權利要求10所述的基于云計算平臺的海量數據處理方法,其特征在于,將并將屬于不同關聯度的信息單元打上對應的標記。12.如權利要求1所述的基于云計算平臺的海量數據處理方法,其特征在于,將N度關聯數據分別存儲于不同的數據庫中。13.如權利要求12所述的基于云計算平臺的海量數據處理方法,其特征在于,所述N度關聯數據分別存儲于不同數據庫中的分布式文件系統中。14.如權利要求1至13之一所述的基于云計算平臺的海量數據處理方法,其特征在于,所述步驟(2)中的N度關聯關系通過Hadoop下的MapReduce計算框架來計算。15.如權利要求1至13之一所述的基于云計算平臺的海量數據處理方法,其特征在于,所述N度關聯關系通過Spark計算框架來實現。16.如權利要求15所述的基于云計算平臺的海量數據處理方法,其特征在于,所述步驟(3)中的N彡2度關聯關系通過Spark計算框架中的join語句來實現。
【文檔編號】G06F17/30GK105930462SQ201610255566
【公開日】2016年9月7日
【申請日】2016年4月21日
【發明人】范東來, 何宏靖
【申請人】成都數聯銘品科技有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1