一種基于粒子群的海量組織機構數據分類方法及系統的制作方法
【技術領域】
[0001] 本發明設及海量數據智能計算領域,尤其設及一種基于粒子群的海量組織機構數 據分類方法。
【背景技術】
[0002] 海量組織機構數據,涵蓋不同行業、不同領域的不同級別的組織機構地址、編碼、 行政區劃編碼等數據信息,數據結構多樣化、內容復雜。對海量組織機構數據進行分類處 理,有助于提高數據提取與數據檢索的效率,同時可挖掘出不同產業類別中的組織經營范 圍、經營產品類型等其他數據信息。
[0003] 目前分類規則挖掘算法都存在各自的缺陷,例如,統計方法中要求的先驗概率在 理論上難W讓人信服;機器學習方法在噪聲環境下的容錯性能差;粗趟集方法無法確定成 員的隸屬度;神經網絡方法存在太多的節點和連接權,使結果難W理解和驗證等。由此可W 看出,不同的應用領域和數據類型,每種方法各有其長處和短處,沒有一種分類算法對所有 的應用領域和數據類型都優于其他方法。
[0004] 因此急需一種對海量數據進行準確性分類的方法。
【發明內容】
[0005] (一)要解決的技術問題
[0006] 本發明的目的是提供一種基于粒子群的海量組織機構數據分類方法,該方法在考 慮組織機構之間內部協同作用的基礎上,采用基于粒子群分類算法對組織機構的行業進行 分類。
[0007] (二)技術方案
[000引本發明的目的之一是提出一種基于粒子群的海量組織機構數據分類方法;本發明 的目的之二是提出一種基于粒子群的海量組織機構數據分類系統。
[0009] 本發明的目的之一是通過W下技術方案來實現的:
[0010] 本發明提供的一種基于粒子群的海量組織機構數據分類方法,包括W下步驟:
[0011] 步驟1;采用微粒群構建數據分類規則;建立不同行業的分類規則,對不同的分類 規則用Michigan編碼方式進行編碼;
[0012] 步驟2 ;獲取海量組織機構數據中的預選數據作為訓練集,按照構建的分類規則 進行數據集規則覆蓋過程,生成分類規則集合;
[0013] 步驟3 ;獲取海量組織機構數據中的預選另一部分數據作為測試集,按照分類規 則集合對測試集進行測試評估,保留符合測試評估要求的分類規則作為最終分類器;
[0014] 步驟4 ;采用最終分類器對海量組織機構數據進行分類得到分類結果。
[0015] 進一步,所述步驟1中的構建數據分類規則按照W下方式進行:
[0016] 所述分類規則包括條件部分和結論部分;所述條件部分為一個邏輯測試集合,用 邏輯連接符連接;所述結論部分為滿足條件部分覆蓋的事例類別;每個微粒在組織機構數 據實體表中代表每個表格中的每一條記錄。
[0017] 進一步,所述步驟2中的數據集規則覆蓋過程按照W下步驟實現:
[001引 S21 ;初始化規則;初始化種群,在分類變量的有效區間內隨機初始化分類的上下 界,初始化的微粒群構成規則提取算法的初始候選解,對不同的組織結構數據進行初始的 行業分類設置;
[0019] S22 ;確定微粒群中的最佳微粒,按照W下公式來計算微粒適應值:
[0020] f (X) = 1:p/pos*tn/neg (1);
[0021] 其中;
[0022] f(x)表示最佳微粒適應值;
[0023] 化表示正確分類實例數,即被規則覆蓋且正確分類的實例數;
[0024] tn表示正確拒絕實例數,即未被規則覆蓋,而類別也和訓練目標不同的實例數;
[0025] pos表示訓練數據集中正樣本總數;
[0026] neg表示訓練數據集中負樣本總數;
[0027] S23 ;按照W下公式更新適應規則集的微粒:
[002引 Vu(t+1) = Vu(t)+Ci;rij(Pu(t)-Xu(t))+C2r2j(Pgj(t)-Xij(t)) (2)
[0029] Xij(t+1) = Xij(t)+Vij(t+1) (3)
[0030] 其中,
[0031] (2)式表示微粒i的第j維的速度變化方程;
[0032] (3)式表示微粒i的第j維的位置變化方程;
[003引其中,t表示第t代,cl、c2為加速常數,取值為0?2, rl?U(0,l)、r2?U(0, 1)為兩個相互獨立的隨機數,cl用來調節微粒飛向自身最優位置方向的步長,c2用來調節 微粒飛向全局最優位置方向的步長;
[0034] Xi = (xil,xi2,…xin)為微粒i的當前位置;
[0035] Vi = (vil,vi2,…vin)為微粒i的當前速度;
[0036] 在進化過程中,記錄微粒到目前為止的歷史最優位置Pi = (pil,pi2,...pin)和 所有微粒的全局最優位置Pg = (pgl,Pg2, . . . p即);
[0037] S24 ;按照W下步驟進行規則集剔除:
[003引通過來比較微粒適應值與訓練數據集,確定當前最優位置和全局最優位置;
[0039] S25;判斷迭代次數是否達到最大的進化代數或者數據全部正確分類,若是進入步 驟S26,否則執行步驟S23 ;
[0040] S26 ;將生成的第i類規則放入規則集中,然后在數據集中移去規則所覆蓋的實 例,查看剩余的數據數是否小于設定的值,若是該類規則提取完成,否則執行步驟S21。
[0041] 進一步,所述步驟3中的測試評估按照W下方式進行:
[0042] 采用留展法進行綜合評價;首先將給定的數據集隨機劃分成兩個獨立的集合:訓 練集和測試集,將=分之二的數據作為訓練集,=分之一的數據作為測試集;使用訓練集導 出分類法,然后其準確率用測試集評估,計算第一步得到的分類規則其在測試集中的適應 度值;
[0043] 然后隨機取樣重復利用留展法進行預測準確率估計K次;
[0044] 最后對該K次所獲得的預測準確率求平均值,作為獲得最終的預測準確率;分類 規則在訓練集和測試集的適應度值越接近,則說明分類的精度越高。
[0045] 進一步,所述步驟4中的測試評估按照W下方式進行:
[0046] 采用交叉驗證法進行綜合評價;首先將初始數據被劃分成K個互不相交的子集 S1,S2,…,Sk,每個子集的大小相等;
[0047] 然后,訓練和測試進行K次;在第i次迭代Si用作測試集,其余的子集都用于訓練 分類模型;即,第一次迭代的分類法在子集S2,…,Sk上訓練,而在S1上測試,第二次迭代 在的分類法在子集S1,S3,…,Sk上訓練,而在S2上測試;如此下去;
[0048] 最后,正確率估計是K次迭代正確分類數除W初始數據中樣本總數。
[0049] 本發明的目的之二是通過W下技術方案來實現的:
[0化0] 本發明提供的一種基于粒子群的海量組織機構數據分類系統,包括數據分類規則 構建模塊、分類規則集合生成模塊、分類規則測試評估模塊和數據分類模塊;
[0051] 所述數據分類規則構建模塊,采用微粒群構建數據分類規則;建立不同行業的分 類規則,對不同的分類規則用Michigan編碼方式進行編碼;
[0052] 所述分類規則集合生成模塊,用于獲取海量組織機構數據中的預選數據作為訓練 集,按照構建的分類規則進行數據集規則覆蓋過程,生成分類規則集合;
[0053] 所述分類規則測試評估模塊,用于獲取海量組織機構數據中的預選另一部分數據 作為測試集,按照分類規則集合對測試集進行測試評估,保留符合測試評估要求的分類規 則作為最終分類器;
[0054] 所述數據分類模塊,采用最終分類器對海量組織機構數據進行分類得到分類結 果。
[0055] 進一步,所述數據分類規則構建模塊中的構建數據分類規則按照W下方式進行:
[0056] 所述分類規則包括條件部分和結論部分;
[0化7] 所述條件部分為一個邏輯測試集合,用邏輯連接符連接;所述結論部分為滿足條 件部分覆蓋的事例類別;
[0化引每個微粒在組織機構數據實體表中代表每個表格中的每一條記錄。
[0化9] 進一步,所述分類規則集合生成模塊中的數據集規則覆蓋過程按照W下步驟實 現:
[0060] S21 ;初始化規則;初始化種群,在分類變量的有效區間內隨機初始化分類的上下 界,初始化的