中文字幕无码日韩视频无码三区

基于多維分析的數據挖掘方法_2

文檔序號:9826297閱讀:來源:國知局
頻繁模式樹由一個根節點(值為null)、項前綴子樹(作為子女)和一個頻繁項頭表組成,所述項前綴子樹中的每個結點包括三個域:item_name、count和node_link,其中,item_name域記錄該結點所表示的項的標識,count域記錄到達該結點的子路徑的事務數,node_link域用于連接樹中相同標識的下一個結點,如果不存在相同標識的下一個結點,則其值為“null”,并且頻繁項頭表的表項包括一個頻繁項標識域item_name和一個指向樹中具有該項標識的第一個頻繁項結點的頭指針head of node_l ink。其中,對于包含在頻繁模式樹中某個結點上的項α,將會有一個從根結點到達α的路徑,該路徑中不包含α所在結點的部分路徑稱為a的前綴子路徑,a稱為該路徑的后綴,并且在一個頻繁模式樹中,有可能有多個包含a的結點存在,它們從頻繁項頭表中的a項出發,通過項頭表中的head of node_link和項前綴子樹中的node_link連接在一起,頻繁模式樹中每個包含α的結點可以形成α的一個不同的前綴子路徑,所有的這些路徑組成α的條件模式基,用α的條件模式基所構建的頻繁模式樹稱為α的條件模式樹。在本發明所公開的基于多維分析的數據挖掘方法中,所述頻繁模式樹的基本構建過程如下:創建頻繁模式樹的根結點T,以“ nu11 ”標記,將經過步驟(2 )處理的每個事務中的事件元素作為排序后的頻繁項表[P I P],其中P是第一個頻繁項,而P是剩余的頻繁項,隨后調用insert_tree([p|P], T)函數執行如下過程:如果T有子女N使得N.1tem_name=p.1tem_name,則N的計數增加I,否則創建一個新結點N,將其計數設置為1,鏈接到它的父結點T,并且通過node_link將其鏈接到具有相同item_name的結點,而如果P非空,貝U遞歸地調用insert_tree (P,N),由此完成頻繁模式樹的構建。本發明所公開的頻繁模式樹存儲了用于挖掘頻繁項集的全部信息。該頻繁模式樹所占用的內存空間與樹的深度和寬度成比例,樹的深度是單個事務中所含項目數量的最大值,而樹的寬度是平均每層所含項目的數量。
[0016]優選地,在本發明所公開的基于多維分析的數據挖掘方法中,所述步驟(A2)進一步包括:在按照頻數從大到小的順序對所有事件元素進行排序以得到事件元素頻次列表后,將其支持度小于預定閾值(例如0.01)的事件元素剔出,其中,事件元素的支持度由如下公式計算:事件元素支持度=頻次/總事務數。
[0017]優選地,在本發明所公開的基于多維分析的數據挖掘方法中,所述步驟(A3)進一步包括:以如下方式篩選與預先確定的某個目標事件元素相關聯的頻繁項:(1)從所述頻繁模式樹中找到所有該事件元素的節點,并向上遍歷它的祖先節點,得到所有路徑,從而獲得該事件元素在所述頻繁模式樹中的條件模式基;(2)將所述條件模式基當作原始事務集構建該目標事件元素的條件模式樹,從而得到該目標事件元素的所有頻繁項集;(3)根據預定的最小置信度從所獲得的頻繁項集中篩選出與該目標事件元素相關聯的頻繁項。例如,假設在事件事務集中事件元素(mcc_l$15)出現的頻次是10000,從頻繁模式樹中找到的某個頻繁項(mcc_l$15,mcc_2$16)的頻次是1250,則表示持卡人在15時到mcc_l類型商戶消費過后,很有可能在接下來的一個小時里到mcc_2類型的商戶再次消費,其可能性為1250/10000=0.125,這就是該頻繁項的置信度,由此,可以通過調節最小置信度來篩選發生可能性高的頻繁項。
[0018]由上可見,本發明所公開的基于多維分析的數據挖掘方法具有下列優點:能夠適應分布式環境下的并行計算;能夠處理海量數據,從而覆蓋全體樣本以獲得較高的分析準確性;(3)能夠實現基于多維的數據關聯分析。
[0019]盡管本發明是通過上述的優選實施方式進行描述的,但是其實現形式并不局限于上述的實施方式。應該認識到:在不脫離本發明主旨和范圍的情況下,本領域技術人員可以對本發明做出不同的變化和修改。
【主權項】
1.一種基于多維分析的數據挖掘方法,所述基于多維分析的數據挖掘方法包括下列步驟: (Al)從數據庫中提取出原始事件記錄,并對提取出的原始事件記錄進行篩選和轉換以形成基于時間序列的事件記錄事務集,其中,所述事件記錄事務集由多個事務組成,并且每個事務由若干事件元素組成; (A2)基于所述事件記錄事物集生成頻繁模式樹; (A3)根據所生成的頻繁模式樹篩選出與預先確定的目標事件元素相關聯的頻繁項。2.根據權利要求1所述的基于多維分析的數據挖掘方法,其特征在于,所述步驟(Al)進一步包括: (1)根據設定的篩選條件從數據庫中提取出原始事件記錄; (2)針對每個提取出的原始事件記錄,選擇其中預定的若干字段并按預定格式形成基礎事件記錄,每個基礎事件記錄表示一次實際發生的事件,并且每個基礎事件記錄至少包括事件主體字段,事件類型字段以及事件發生時間字段; (3)至少按預定規則以事件主體字段和事件發生時間字段的值作為主鍵對所有基礎事件記錄進行分組; (4)分別對每個分組中的記錄進行清洗,即將每個分組中事件類型字段和事件發生時間字段的值相同的基礎事件記錄合并為一個基礎事件記錄; (5)將每個分組中的基礎事件記錄作為以“事件類型$事件發生時間”形式表示的事件元素,并將同一分組中的所有事件元素合并以形成事件記錄事務,其被表示為〈事件類型1$事件發生時間1,事件類型2$事件發生時間2,…,事件類型事件發生時間i,…〉,其中,“事件類型事件發生時間i”表示該事件記錄事務中第i個事件元素,由此,所有分組對應的事件記錄事務構成所述事件記錄事務集。3.根據權利要求2所述的基于多維分析的數據挖掘方法,其特征在于,所述步驟(A2)進一步包括: (1)遍歷所述事件記錄事務集,計算每個事件元素出現的總頻數,并且按照頻數從大到小的順序對所有事件元素進行排序以得到事件元素頻次列表; (2)針對所述事件記錄事務集中的每個事務,將該事務中的每個事件元素按照所述事件元素頻次列表中事件元素的順序重新排序; (3)創建頻繁模式樹的根節點,再次遍歷所述事件記錄事務集,將經過步驟(2)處理的每個事務中的事件元素作為頻繁項插入到所創建的頻繁模式樹中。4.根據權利要求3所述的基于多維分析的數據挖掘方法,其特征在于,所述步驟(A2)進一步包括:在按照頻數從大到小的順序對所有事件元素進行排序以得到事件元素頻次列表后,將其支持度小于預定閾值的事件元素剔出,其中,事件元素的支持度由如下公式計算:事件元素支持度=頻次/總事務數。5.根據權利要求4所述的基于多維分析的數據挖掘方法,其特征在于,所述步驟(A3)進一步包括:以如下方式篩選與預先確定的某個目標事件元素相關聯的頻繁項: (1)從所述頻繁模式樹中找到所有該事件元素的節點,并向上遍歷它的祖先節點,得到所有路徑,從而獲得該事件元素在所述頻繁模式樹中的條件模式基; (2)將所述條件模式基當作原始事務集構建該目標事件元素的條件模式樹,從而得到該目標事件元素的所有頻繁項集; (3)根據預定的最小置信度從所獲得的頻繁項集中篩選出與該目標事件元素相關聯的頻繁項。
【專利摘要】本發明提出了基于多維分析的數據挖掘方法,所述方法包括:從數據庫中提取出原始事件記錄。并對提取出的原始事件記錄進行篩選和轉換以形成基于時間序列的事件記錄事務集,其中,所述事件記錄事務集由多個事務組成,并且每個事務由若干事件元素組成;基于所述事件記錄事物集生成頻繁模式樹;根據所生成的頻繁模式樹篩選出與預先確定的目標事件元素相關聯的頻繁項。本發明所公開的基于多維分析的數據挖掘方法能夠適應分布式環境下的并行計算并且能夠處理海量目標數據。
【IPC分類】G06F17/30
【公開號】CN105589900
【申請號】CN201410671003
【發明人】王駿, 楊鴻超
【申請人】中國銀聯股份有限公司
【公開日】2016年5月18日
【申請日】2014年11月21日
當前第2頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1