一種基于特征權學習的支持向量機電網業務分類方法
【技術領域】
[0001] 本發明涉及數據處理與分類領域,具體涉及一種基于特征權學習的支持向量機電 網業務分類方法。
【背景技術】
[0002] 隨著智能電網和"三集五大"建設的深入進行,電網中承載的業務種類日益增多, 趨于復雜多變,為更好地對業務進行管控,優化網絡資源配置,為不同的業務定制個性化需 求,必須對業務進行分類處理。
[0003] 支持向量機(Support Vector Machine, SVM)方法在小樣本、非線性及高維分類問 題上具有優勢,支持向量機分類的關鍵是尋求最優分類超平面。一般將數據分為訓練集與 測試集,通過訓練集確定最優分類邊界,得到分類模型,再將測試集輸入分類模型中,即可 得到分類結果,但是支持向量機分類本質上是解決二分類問題的方法,而電網業務分類是 多分類問題,如何將SVM二分類問題有效擴展以解決多分類問題是目前研究的重點之一。 Debnathl等人提出的Ι-a-lSVM為解決上述問題提供了一個簡單可行的措施:首先,訓練階 段,對每兩類訓練一個二分類器,將訓練模型保存;測試階段,每一個待分類樣本進行分類 時,在每個子分類器中都需對其類別進行判別,并對相應類別投票,得票最多的即為待分類 樣本的類別。
[0004] SVM中參數優化與特征子集的選擇在SVM分類系統中至關重要,對于SVM二分 類的參數優化及特征選擇已提出了很多可行的措施,如:網格法、遺傳算法、粒子算法; F-score、卡方方法等。在傳統多分類SVM中,在整體上尋求最優參數與最優特征子集,即: 在^^^個SVM二分類器中尋求整體最優參數與最優特征子集,訓練模型中,所有的SVM 2 二分類器均采用相同的最優參數與最優特征子集。但是,每個二分類器中樣本的分布不盡 相同,每個分類器均有各自的特點,每個子分類器采用相同的參數與特征子集會導致分類 邊界劃分不準確,因此有必要對其加以改進。
【發明內容】
[0005] 針對現有技術的不足,本發明提供一種基于特征權學習的支持向量機電網業務分 類方法,通過根據各自特點分別選取每個SVM二分類器中最優參數與特征子集并利用選取 出的最優特征子集與最優參數訓練SVM分類模型,充分考慮了不同子分類器之間的差異 性,具有更好的分類精度。
[0006] 本發明的目的是采用下述技術方案實現的:
[0007] -種基于特征權學習的支持向量機電網業務分類方法,其改進之處在于,所述方 法包括:
[0008] (1)采集電網數據并對電網數據進行預處理,將預處理后的電網數據分為訓練集 和測試集;
[0009] (2)將所述訓練集中每兩類的樣本進行組合為一個訓練子集并訓練為一個SVM二 分類器,第m個SVM二分類器的訓練子集為[X",YJ,共
個SVM二分類器,根據每個 SVM二分類器的特征子集構建
維特征選擇矩陣ξ,根據每個SVM二分類器的特征 權重構建
維特征權重矩陣Α,根據每個SVM二分類器的參數向量構建
維參數矩陣γ,
%所述第m個SVM二分 類器的訓練子集的樣本,樣本
Xp1為樣本X1的第k維特征,d 為電網業務類別對應特征數,Yni= [yi,y2,…,yJTS所述第m個SVM二分類器的訓練子集 中樣本對應的類別,1為所述第m個SVM二分類器的訓練子集中電網業務流個數,c為電網 業務類別的總數目;
[0010] ⑶采用特征選擇算法對所述訓練子集[XniJJ進行處理,獲取所述訓練子集 [XmYJ對應的最優特征選擇向量Ini,并根據所述最優特征選擇向量更新特征選擇矩陣
及訓練子集的樣本X' m=Xm(:,lm);
[0011] (4)采用特征權重學習算法對所述最優特征選擇向量Ini進行處理,獲取所述最優 特征選擇向量Im對應的權重向量Am,并根據所述最優特征選擇向量Im對應的權重向量A m更新所述特征權重矩陣A ;
[0012] (5)根據更新后的特征權重矩陣A重構所述訓練子集[X",YJ對應的特征;
[0013] (6)采用網格交叉驗證的方法獲取訓練子集[XniJJ的懲罰因子Cni和核函數參 數Om,其中,Ym= [cm, Om]為第m個訓練子集對應的優化參數向量,更新所述參數矩陣
[0014] (7)判斷是否每個SVM二分類器的訓練子集的特征子集、特征權重和參數向量均 更新為其對應的最優選擇向量、權重向量和優化參數向量,若是則執行步驟(8),若否則返 回步驟(3);
[0015] (8)基于更新后的特征選擇矩陣ξ、特征權重矩陣A和參數矩陣γ訓練1-v-lSVM 多分類模型,并根據所述1-v-lSVM多分類模型對所述測試集進行分類,依據投票結果確定 測試集中樣本的類別。
[0016] 優選的,所述步驟(1)包括:
[0017] (1-1)剔除電網數據中錯誤數據或維度不完整數據;
[0018] (1-2)刪除電網數據中類的樣本數小于30的類;
[0019] (1-3)電網數據中類的樣本數大于500的類,從該類中選擇250個加入訓練集;
[0020] (1-4)電網數據中類的樣本數大于30且小于500的類,從該類中選擇一半加入訓 練集,另一半加入測試集。
[0021] 優選的,所述步驟(3)包括:
[0022] (3-1)采用向后遞歸消除特征選擇算法RFE獲取所述訓練子集[Xni, YJ的最優特 征選擇向量Im;
[0023] (3-2)更新特征選擇矩陣
及訓練子集的樣本C "= Xm ( ·,€ m)。
[0024] 優選的,所述步驟(4)包括:
[0025] (4-1)定義所述最優特征選擇向量ξ "對應的權重向量Ani的特征權重學習模型Ani=Gm= argmaxP (K) m,設置步長step和迭代終止條件norm( Δ Gm) < ε,其中,迭代終止條 件Iiorm(AGni) < ε為相鄰兩次迭代獲取的最優特征選擇向量對應的權重向量Gni之差小于 ε,
gf I為訓練子集[Xn,YJ中樣本第k個特征對應的權重 值,η為訓練子集[Xni, YJ中樣本特征數;
[0026] (4-2)計算所述訓練子集[X",YJ的高斯核函數kRBF(Xl,X上,公式為:
[0028] 式⑴中,#為樣本Χι的第k維特征,為樣本X]的第k維特征,?為高斯核 函數參數;
[0029] (4-3)計算核極化核函數度量標準P(K)ni對特征權值gf的梯,公式 為:
[0031] 式⑵中,Y1為樣本X i對應的類別,y j為樣本X j對應的類別,1為所述第m個訓 練子集中電網業務流個數;其中,所述核極化核函數度量標準P(K)J^公式為:
[0034] (4-5)根據核極化核函數度量標準P (K)對特征權值g(k)的梯度▽ g(k)P (K)獲取更 新后的特征權值,公式為:
[0036] (4-6)根據更新后的特征權值gjf獲取更新后最優特征選擇向量對應的權重向 量C m,若更新后最優特征選擇向量對應的權重向量(V m滿足迭代終止條件norm( AGm) < ε,則根據更新后最優特征選擇向量對應的權重向量G' "更新所述特征權重矩陣A,否 則重復執行步驟(4-5)。
[0037] 優選的,所述步驟(5)包括:根據更新后的特征權重矩陣A重構所述訓練子集
[XniJJ對應的特征,公式為:
[0039] 式(5)中,#為樣本X1的第k維特征,$為特征權重矩陣中第m個訓練子集的 第k個特征對應的權重向量。
[0040] 與最接近的現有技術相比,本發明具有的有益效果:
[0041] 本發明提供的一種基于特征權學習的支持向量機電網業務分類方法,能夠多分類 算法中,對每個SVM子分類器分別進行參數尋優與特征選擇,并結合特征權思想,對每個特 征賦予不同的權重,生成支持向量機分類模型,最后將待分類數據輸入網絡流量分類模型 得到分類結果,充分考慮了不同子分類器之間的差異性,具有更好的分類精度。
【附圖說明】
[0042] 圖1是本發明提供的一種基于特征權學習的支持向量機電網業務分類方法流程 圖;
[0043] 圖2為支持向量機模型分類流程圖。
【具體實施方式】
[0044] 下面結合附圖對本發明的【具體實施方式】作進一步的詳細說明。
[0045] 為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例 中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是 本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員 在沒有做出創造性勞動前提下所獲得的所有其它實施例,都屬于本發明保護的范圍。
[0046] 本發明提供了一種基于特征權學習的支持向量機電網業務分類方法,如圖1所 示,包括:
[0047] (1)采集電網數據并對電網數據進行預處理,將預處理后的電網數據分為訓練集 和測試集;
[0048] (2)將所述訓練集中每兩類的樣本進行組合為一個訓練子集并訓練為一個SVM 二分類器,第m個SVM二分類器的訓練子集為[X",YJ,共
個SVM二分類器,根據 每個SVM二分類器的特征子集構建
維特征選擇矩陣ξ,根據每個SVM二分類 器的特征權重構建
維特征權重矩陣Α,根據每個SVM二分類器的參數向量構建
維參數矩陣γ
為所述第m個 SVM二分類器的訓練子集的樣本,樣本
為樣本Χι的第k 維特征,d為電網業務類別對應特征數,Yni= [y i,y2,…,yjtS所述第m個SVM二分類器的 訓練子集中樣本對應的類別,1為所述第m個SVM二分類器的訓練子集中電網業務流個數, C為電網業務類別的總數目;
[0049] (3)采用特征選擇算法對所述訓練子集[XniJJ進行處理,獲取所述訓練子集 [XmYJ對應的最優特征選擇向量Ini,并根據所述最優特征選擇向量更新特征選擇矩陣
及訓練子集的樣本X' m=Xm(:,lm);
[0050] (4)采用特征權重學習算法對所述最優特征選擇向量ξ "進行處理,獲取所述最優 特征選擇向量Im對應的權重向量Am,并根據所述最優特征選擇向量Im對應的權重向量A m更新所述特征權重矩陣A ;
[0051] (5)根據更新后的特征權重矩陣A重構所述訓練子集[X",YJ對應的特征;
[0052] (6)采用網格交叉驗證的方法獲取訓練子集[X",YJ的懲罰因子Cni和核函數參 數Om,其中,Ym= [cm, Om]為第m個訓練子集對應的優化參數向量,更新所述參數矩陣
[0053] (7)判斷是否每個SVM二分類器的訓練子集的特征子集、特征權重和參數向量均 更新為其對應的最優選擇向量、權重向量和優化參數向量,若是則執行步驟(8),若否則返 回步驟(3);
[0054] (8)基于更新后的特征選擇矩陣ξ、特征權重矩陣A和參數矩陣γ訓練1-v-lSVM 多分類模型,并根據所述1-v-lSVM多分類模型對所述測試集進行分類,依據投票結果確定 測試集中樣本的類別。
[0055] 具體的,所述步驟(1)包括:
[0056] (1-1)剔除電網數據中錯誤數據或維度不完整數據;
[0057] (1-2)刪除電網數據中類的樣本數小于30的