本發明涉及電網安全技術領域,具體涉及一種基于線性判別分析的多屬性決策樹電網穩定裕度評估方法。
背景技術:
傳統的電網監測系統(scada)難以實時獲取系統故障后信息,電網的暫態穩定分析決策通常針對預想的故障集進行離線分析,然后給出輔助決策,進而通過調度員憑自身經驗進行最終操作。但隨著大規模可再生能源的接入和電網互聯規模的擴大,電力系統的安全穩定分析和調度運行控制面臨更為嚴峻的考驗。傳統的“人工經驗判斷+在線計算輔助決策”的生產方式已經不能滿足當前電網復雜多變的調度運行需求。因此需要強有力的在線監視、決策方法,根據電網監測數據和歷史事件快速進行電力系統暫態穩定評估,實時計算當前運行條件下系統的穩定水平,以幫助運行人員更好地監視、管理電網,制定切實提高電網穩定性的優化策略,使系統在預想故障下仍能安全穩定運行,是保證電網的安全穩定運行的重要手段。
隨著廣域量測技術普及,全國各級調度中心積累了大量的調度運行數據,這些大量數據當中蘊藏著豐富的信息,等待著被發掘。基于數據驅動的電力系統分析有助于發現未知規律、獲取新的經驗,逐漸成為新的關注熱點。傳統的建模仿真或數理推導所得的發現具有強因果關系,而從數據中抽取信息具有一定統計學意義的弱因果關系的規律,對電力系統海量數據進行數據挖掘分析,從運行狀態預估電網穩定水平,對于大電網的安全評估與預防控制具有極大幫助。
目前有許多智能算法用于電力系統的數據挖掘當中,如其中較為常見的方法有神經網絡法,支持向量機法,決策樹法等。但是有些算法過于復雜耗時過長,不利于規則發現與在線應用。決策樹算法具有算法簡單,規則獲取方便,判斷迅速,適合在線應用等特點,但傳統決策樹多為單屬性決策樹,缺乏對電氣量之間關聯關系的獲取。
技術實現要素:
本發明為了解決上述問題,提出了一種基于線性判別分析的多屬性決策樹電網穩定裕度評估方法,本發明通過建立關鍵變量的發現模型,對歷史樣本數據進行有效篩選降低數據維度,建立關鍵變量間的組合關系模型,發現變量間的關聯關系,建立了電網運行狀態和暫態穩定裕度間的關聯關系,確定系統穩定性水平變化的主要原因,形成簡明、準確的知識規則庫以及調整決策參考,進而根據系統運行狀態快速評估當前穩定水平,對運行人員輔助決策提供量化信息支持,提升電網穩定性評估的標準化、快速性和自適應能力,具有廣泛應用前景。
為了實現上述目的,本發明采用如下技術方案:
一種基于線性判別分析的多屬性決策樹電網穩定裕度評估方法,包括以下步驟:
(1)基于電網的離線仿真數據及實時監測數據,獲取發電機有功和無功電網狀態量以及在各預想故障下的穩定裕度指標,建立電網安全穩定數據庫;
(2)對數據庫中的電網狀態量進行降維處理,通過基于互信息的數據降維模型,對數據庫中的電網狀態量進行抽取,抽取與相應故障穩定性相關性極大的屬性;
(3)建立電網關鍵特征間的組合關系模型,對抽取的屬性利用線性判別分析方法進行特征提取,獲得反映各關鍵特征的組合特征;
(4)建立關聯分析模型,根據得到的組合特征以及相應的穩定裕度,通過決策樹算法建立特征與穩定性的關聯分析,以獲取不同狀態的組合值與穩定性的映射關系;
(5)建立穩定關聯特征規則庫,對獲得的模型各映射關系進行分析,提取相關可用規則,建立穩定關聯特征規則庫,根據規則庫進行電網運行狀態變化的快速判穩。
所述步驟(2)中,對電網狀態數據與穩定裕度數據進行合理的離散化處理,并計算兩者的互信息,依據互信息的大小得到與最終裕度關聯程度的強弱關系,設定相對合理的互信息閥值,選取出與最終穩定裕度關聯度大于設定閾值的屬性作為關鍵特征屬性。
所述步驟(2)中,互信息為所求變量熵與該變量的條件熵的差值。
進一步的,所述步驟(3)中,根據獲取的關鍵電網特征獲取該特征數據,在特征空間中利用線性判別分析對樣本進行投影,針對不同樣本所對應的穩定類別,使得投影后的特征值能達到不同類別間的樣本盡可能靠近,不同類別間的數據盡可能遠離。
進一步的,所述步驟(3)中,根據線性判別分析對樣本進行投影,對所選數據依據其穩定裕度所屬類別進行最佳投影,得出最有利于區分不同類別的投影方向,并得到投影到該方向上時各屬性的組合系數,該系數即為關鍵特征間的組合關系。
所述步驟(4)中,建立特征與穩定性的關聯分析模型時,利用智能決策樹算法建立不同擾動事件與系統穩定性關系的分析模型,使用遞歸方式在每個步驟中最大限度降低gini不純度對數據進行訓練分類,形成決策樹。
進一步的,所述步驟(4)中,具體包括:
(4-1)從屬性集中選取某屬性,并從該屬性中尋找分類點,若所選屬性是一個連續型變量屬性,則需要對樣本中屬性的所有值進行排序,取排序后各相鄰點的中點形成分裂點候選集;
(4-2)計算以候選集中各分裂點分裂時的gini不純度,通過比較獲取最小的gini不純度值以及相應的分裂點,獲取每個屬性的最佳分裂點;
(4-3)比較獲取節點a中的最小分裂gini不純度值以及相應的待分裂屬性,根據所獲取的最佳分裂屬性xl以及相應分裂點將節點分為兩個子節點;
(4-4)對子節點進行分裂,若該節點的gini不純度小于設定的閥值,則停止其分裂;若子節點的樣本數量小于設定的閥值,則停止其分裂。
進一步的,所述步驟(4)中,決策樹形成后以節點所含樣本數最多的類別作為該節點表征類別。
所述步驟(5)中,對于電網運行狀態變化的快速判穩和原因分析及關聯規則庫的生成時:通過對決策樹不同路徑下樣本判別分析,形成系統組合狀態情況與穩定裕度的映射,從而得到通過系統狀態進行快速判穩準依據。
所述步驟(5)中,基于支持度與置信度指標獲取有效發掘各特定故障下系統運行狀態的組合關系與穩定裕度之間的有效關聯規則,對所獲取的關聯規則庫進行凝練,回推引起穩定性變化的原因,并考慮不同故障在不同時刻的發生概率,并基于概率統計信息預測特定事件的未來發生及其對系統穩定性的影響,制定參考控制策略。
與現有技術相比,本發明的有益效果為:
本發明通過引入信息理論中的互信息模型對所系統特征進行完全依賴數據的降維,減少了人工干預,降低了數據維度,簡化計算,并有利于規則的發現;通過線性判別的方法對所獲特征進行投影,簡單高效地獲取了各特征之間的線性關系,有利于挖掘數據中所隱含得更多信息;通過決策樹分類模型的訓練分析建立了電網運行狀態與穩定裕度之間的關聯關系,預測電網運行變化對電網穩定性的影響,并可回推引起穩定性變化的原因,并結合電網事件發生的概率性因素,對電網運行提供切實可行的指導性原則。
本發明對系統屬性進行了有效降維并獲取不同屬性間的組合關系。對于不同故障,不同屬性對系統失穩與否的影響程度是不一樣的,且對系統穩定性變化起關鍵作用的屬性與全系統屬性相比往往較少,通過剔除對系統穩定性較弱屬性的降維方式有助于減少無關變量對規則的影響,簡化了模型的復雜程度。建立了系統不同屬性的組合關系發現模型,通過發現屬性間的組合關系從數據中挖掘出更多有用信息。
本發明實現了電力系統運行狀態與暫態穩定關聯關系辨識。處于不同運行狀態的電力系統其擾動后的暫態穩定性是不同的,從某種程度上來說,電網運行狀態可以反映系統穩定水平。建立電網特定運行狀態與電網穩定性間的自動映射,獲取電網關鍵狀態集,從不同運行狀態及其組合中發現對電網暫態穩定性影響較大的因素,實現電網運行狀態篩選和輸入數據降維,通過關鍵發電機節點出力和斷面潮流情況快速獲取電網暫態穩定指標。
本發明實現了基于電網運行狀態量組合關系及其對暫態穩定裕度的影響的關聯規則獲取方法。通過對不同系統運行狀態的組合值的變化與相應暫態穩定性變化之間的關聯分析,獲取系統狀態變化與穩定性變化的映射關系。通過電網運行狀態變化預測未來電網暫態穩定性情況,并分析電網發生此變化的原因,給出狀態調整策略,并結合該規則所對應的相應故障發生概率,為運行人員采取針對性的措施提供決策支持。
附圖說明
構成本發明的一部分的說明書附圖用來提供對本發明的進一步理解,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。
圖1為本發明中的互信息作用示意圖;
圖2為本發明中的線性判別分析示意圖;
圖3為本發明中的決策樹示意圖;
圖4為本發明中的流程圖;
具體實施方式:
下面結合附圖與實施例對本發明作進一步說明。
應該指出,以下詳細說明都是例示性的,旨在對本發明提供進一步的說明。除非另有指明,本文使用的所有技術和科學術語具有與本發明所屬技術領域的普通技術人員通常理解的相同含義。
需要注意的是,這里所使用的術語僅是為了描述具體實施方式,而非意圖限制根據本發明的示例性實施方式。如在這里所使用的,除非上下文另外明確指出,否則單數形式也意圖包括復數形式,此外,還應當理解的是,當在本說明書中使用術語“包含”和/或“包括”時,其指明存在特征、步驟、操作、器件、組件和/或它們的組合。
正如背景技術所介紹的,現有技術中存在智能算法過于復雜耗時過長,不利于規則發現與在線應用、且傳統決策樹多為單屬性決策樹,缺乏對電氣量之間關聯關系的獲取的不足,為了解決如上的技術問題,本發明提出了電網運行狀態量組合關系及其對暫態穩定裕度的影響的關聯規則獲取方法,包括以下步驟:
步驟a):基于電網的離線仿真數據及實時監測數據,獲取發電機有功、無功等電網狀態量以及在各預想故障下的穩定裕度指標,進而建立電網安全穩定數據庫。
步驟b):對數據庫中的電網狀態量進行降維處理;通過基于互信息的數據降維模型,對數據庫中的電網狀態量進行抽取,抽取出與相應故障穩定性相關性極大的若干屬性,降低數據維度。
步驟c):建立電網關鍵特征間的組合關系模型;對步驟b中所得的若干屬性利用線性判別分析方法進行特征提取,對數據進行進一步降維,獲得可反映各關鍵特征的組合特征。
步驟d);建立關聯分析模型;由步驟c中的組合特征以及相應的穩定裕度,通過決策樹算法建立特征與穩定性的關聯分析,該模型可獲取不同狀態的組合值與穩定性的映射關系。
步驟e):建立穩定關聯特征規則庫;對步驟d中模型各映射關系進行分析,提取相關可用規則,建立穩定關聯特征規則庫,根據規則庫進行電網運行狀態變化的快速判穩和原因分析。并提出預防輔助性策略。
進一步的,對步驟b,其具體包括:
對電網狀態數據與穩定裕度數據進行合理的離散化處理,并計算兩者的互信息;依據互信息的大小得到與最終裕度關聯程度的強弱關系。
設定相對合理的互信息閥值,選取出與最終穩定裕度關聯度較大的屬性作為關鍵特征屬性。
互信息計算方法如下:
i(x,y)=h(x)-h(x|y)(1)
(1)式中h(x)表示的是變量x的熵,其表示的是隨機變量集x的平均不確定度,即x的混亂程度。熵越大表示該集混亂程度越大,越小則表明該變量集中的類型越集中。對于一個離散型隨機變量集,其熵的計算公式如下:
其中m表示該變量集中有m種類別,p(i)表示第i種類別在整個集種所占的比例。
(1)式中h(x|y)為條件熵,即在變量集y已知的前提下,x的熵,其計算公式可表示為:
聯合(2)(3)則可得離散變量集x,y之間的互信息
式中x為隨機變量集x中的其中一個類別,y為隨機變量y中的其中一個類別,p(x,y)表示類別x,y在xy聯合分布中的概率,即在變量集x,y中x和y同時出現的頻率;p(x|y)表示y為y時x為x的概率。
i(x,y)越大表示y的出現使得x(或x的出現使得x)的混亂度降低越多,即xy的相關性越強,若i(x,y)為0,則表示xy在統計學意義上是獨立的。本文通過計算所獲取的各電氣量與最終裕度之間的互信息的大小來剔除部分與最終裕度相關性不強的電氣量。
進一步的,在建立電網關鍵特征間的組合關系時,其具體包含:
根據步驟b中的所獲取的關鍵電網特征獲取該特征數據,
在特征空間中利用線性判別分析對樣本進行投影,針對不同樣本所對應的穩定類別,使得投影后的特征值能達到不同類別間的樣本盡可能靠近,不同類別間的數據盡可能遠離。從而對所選數據依據其穩定裕度所屬類別進行最佳投影,得出最有利于區分不同類別的投影方向,并得到投影到該方向上時各屬性的組合系數,該系數即為關鍵特征間的組合關系。
進一步的,在建立特征與穩定性的關聯分析模型時:
利用智能決策樹算法建立不同擾動事件與系統穩定性關系的分析模型,決策樹算法步驟如下:
該方法通過使用遞歸方式在每個步驟中最大限度降低gini不純度對數據進行訓練分類。gini不純度可由下式定義:
式中a表示等待劃分的節點,其中pi為類別i在節點a所有樣本中所占的比例,n為類別的總數。gini值越小說明該點樣本純度越高。當對含有n個樣本的節點中針對屬性a進行進一步劃分為分別含n1、n2個樣本的b、c兩個子節點時,劃分數據的gini定義如下:
基于gini不純度指標通過遞歸的方式來形成決策樹。具體步驟如下(以節點a為例):
步驟1:從屬性集{x1,x2,x3,...,xk}中選取屬性xi,i∈(1,k),并從該屬性中尋找分類點。若所選屬性是一個連續型變量屬性,則需要對樣本中屬性的所有值進行排序,取排序后各相鄰點的中點形成分裂點候選集。
步驟2:根據公式(4)計算以候選集中各分裂點分裂時的gini不純度。通過比較獲取最小的gini不純度值以及相應的分裂點。
步驟3:同步驟1,2中的方法獲取其他屬性的最佳分裂點。
步驟4:比較獲取節點a中的最小分裂gini不純度值以及相應的待分裂屬性xl,l∈(1,k)
步驟5:根據所獲取的最佳分裂屬性xl以及相應分裂點將節點a分為b和c兩個子節點。
步驟6:同對節點a中使用的分裂方法對子節點b與c進行分裂。若該節點的gini不純度小于設定的閥值,則停止其分裂;若子節點的樣本數量小于設定的閥值,則停止其分裂。
決策樹形成后以節點所含樣本數最多的類別作為該節點表征類別。
進一步的,對于電網運行狀態變化的快速判穩和原因分析及關聯規則庫的生成時:
通過對決策樹不同路徑下樣本判別分析,形成系統組合狀態情況與穩定裕度的映射,從而得到通過系統狀態進行快速判穩準依據。
通過對運行過程中積累的大量在線歷史數據和大量仿真算例進行數據挖掘,
基于支持度與置信度指標獲取有效發掘各特定故障下系統運行狀態的組合關系與穩定裕度之間的有效關聯規則,
對所獲取的關聯規則庫進行凝練,回推引起穩定性變化的原因,并考慮不同故障在不同時刻的發生概率,并基于概率統計信息預測特定事件的未來發生及其對系統穩定性的影響,進而給出相應的參考控制策略。
作為一種典型實施例,本發明按照“數據信息的獲取—數據的降維處理—相關狀態組合關系建立—關聯分析模型建立—規則提取與調整策略獲取”的思路,通過對數據的降維去除與穩定關聯度較小的屬性,減少數據復雜度便于模型的分析與規則的提取,然后利用線性判別分析獲取篩選后屬性的組合關系,得到相應的最有利于區分不同樣本類別的組合系數,最后利用決策樹分析方式獲得系統運行狀態的組合關系與穩定裕度間的關聯規則并得出相應的調整策略,最終實現能提高系統穩定性水平的操作集合的智能決策。
專利的具體實施如圖4所示。通過離線仿真獲取電網數據或通過ems獲取電網實時及歷史運行數據,對上述數據利用互信息算法進行降維處理,并利用線性判別分析對降維后的屬性進行組合關系的發掘,獲得相應的組合系數,然后利用智能決策樹等方法進行關聯規則分析,存入規則庫,基于上述規則庫進行暫態穩定性變化原因快速定位與提高系統穩定性的控制策略獲取。
基于電網運行狀態量組合關系及其對暫態穩定裕度的影響的關聯規則獲取方法,具體的步驟包括:
(1)暫態穩定運行關鍵特征提取
步驟1):選取能直接量測或便于組合分析的特征,如母線的有功、無功負荷;母線電壓幅值和相角;線路的有功和無功潮流;系統總的有功、無功負荷水平;系統總的有功、無功出力等作為備選特征集合。
步驟2):通過暫穩仿真獲取不同故障下的電網的各發電機功角變化情況,利用下式計算不同故障下不同潮流狀態的系統穩定裕度:
步驟3):考慮相應穩定指標的輸入特征相關性分析與降維。對系統潮流狀態與相應裕度根據實際系統的需要,進行相應的離散化處理,獲取離散化后的系統潮流狀態與相應的穩定裕度,再通過互信息算法計算潮流狀態量與穩定裕度之間的相關關系,根據實際情況設定相應閥值,獲取與穩定裕度關聯度更大的潮流狀態屬性,實現數據的降維。
互信息計算方式如下:
i(x,y)=h(x)-h(x|y)
(1)式中h(x)表示的是變量x的熵,其表示的是隨機變量集x的平均不確定度,即x的混亂程度。熵越大表示該集混亂程度越大,越小則表明該變量集中的類型越集中。對于一個離散型隨機變量集,其熵的計算公式如下:
其中m表示該變量集中有m種類別,p(i)表示第i種類別在整個集種所占的比例。
(1)式中h(x|y)為條件熵,即在變量集y已知的前提下,x的熵,其計算公式可表示為:
聯合(2)(3)則可得離散變量集x,y之間的互信息
式中x為隨機變量集x中的其中一個類別,y為隨機變量y中的其中一個類別,p(x,y)表示類別x,y在xy聯合分布中的概率,即在變量集x,y中x和y同時出現的頻率;p(x|y)表示y為y時x為x的概率。
i(x,y)越大表示y的出現使得x(或x的出現使得x)的混亂度降低越多,即xy的相關性越強,若i(x,y)為0,則表示xy在統計學意義上是獨立的。
(2)電力系統運行狀態與暫態穩定關聯關系辨識
步驟1):獲取降維后屬性的相關關系。對所選屬性依據其穩定裕度離散化后所屬類別,利用線性判別分析獲取屬性間的最佳組合系數,并由此獲取能反映各屬性之間關系的聯合變量。
利用線性判別分析方法,在數據空間中找到最佳投影方向,該方向上各樣本的映射值可以被最大程度的區分開來,即投影時將同類別樣本盡量靠近,不同類別的樣本盡量遠離,以此獲取最佳投影方向,而相應的投影系數即為屬性間的組合系數。圖2為線性判別分析示意圖,該圖顯示了二維變量在二分類問題時獲取該二維變量間組合關系的方法簡單圖示。
步驟2):電網運行特征和穩定裕度指標的關聯關系辨識。利用決策樹算法對組合后的屬性進行分類訓練,決策樹算法利用基尼不純度為指標采用二分方式對樣本空間進行劃分,將一個樣本集合分成兩個子集合。其分類準則為使樣本劃分后其基尼不純度降低最大。基尼不純度表示一個樣本集合中樣本純凈度指標,該值越高說明該樣本集合中樣本類別越混亂,該值越低說明樣本集合中樣本越集中,若基尼不純度為0則說明該樣本集合中所有樣本均屬于一個類別,其純凈度最高。
決策樹對某集合樣本分類步驟如下:
步驟a:從屬性集{x1,x2,x3,...,xk}中選取屬性xi,i∈(1,k),并從該屬性中尋找分類點。若所選屬性是一個連續型變量屬性,則需要對樣本中屬性的所有值進行排序,取排序后各相鄰點的中點形成分裂點候選集。
步驟b:根據公式(4)計算以候選集中各分裂點分裂時的gini不純度。通過比較獲取最小的gini不純度值以及相應的分裂點。
ginisplit(ax1)min=min{ginisplit(ax1)1,ginisplit(ax1)2,...
...,ginisplit(ax1)m-1}(7)
步驟c:同步驟1,2中的方法獲取其他屬性的最佳分裂點。
步驟d:比較獲取節點a中的最小分裂gini不純度值以及相應的待分裂屬性xl,l∈(1,k)
ginisplit(a)min=min{ginisplit(ax1)min,ginisplit(ax2)min,
...,ginisplit(axk)min}(8)
步驟e:根據所獲取的最佳分裂屬性xl以及相應分裂點將節點a分為b和c兩個子節點。
步驟3):重復步驟1和步驟2中的方法對步驟2中所獲得的子集合進一步的劃分直至達到停止劃分要求,該要求包含最小基尼不純度,最小葉節點樣本數,決策樹最大深度等。最小基尼不純度即表示當該集合基尼不純度達到該閥值時認為該分類樣本純度已經夠高,該分類結果已經足夠明確,最小葉節點樣本數表示當某集合內樣本數小于該閥值時停止對其進行劃分,因為當樣本過小時對其劃分沒有太大的意義,極易產生錯誤劃分,決策樹最大深度即表示當決策樹將某集合劃分成子集合的次數達到一定程度時停止進一步劃分,防止決策樹生長太過于復雜。通過設定閥值可以有效降低過擬合風險,使最終規則更加準確有效。
步驟4):電網運行狀態變化的快速判穩和原因分析。基于支持度與置信度以及各節點樣本平均暫穩裕度對步驟3中形成的決策樹進行系統狀態與穩定性之間的關聯規則提取。通過對運行過程中積累的大量在線歷史數據和大量仿真算例進行數據挖掘,基于支持度與置信度指標獲取有效發掘各特定故障下系統運行狀態的組合關系與穩定裕度之間的有效關聯規則。對于生成的關聯規則,通過仿真計算和傳統的電力系統穩定機理分析相互驗證。
對所獲取的關聯規則庫進行凝練,對各關聯規則進行對比,并回推引起穩定性變化的原因,如圖三中集合4與集合5同屬于集合2中,如果集合4與集合5的樣本類別相差很大,那么可以說明是在條件a的范圍下,基于對條件b的判定情況所產生的差別,而條件b即為某些關鍵特征的組合關系,即可依據該組合關系分析并回推引起穩定性發生重大變化的原因,進而得到可使提升系統穩定性的調整方向。
考慮不同故障在不同時刻的發生概率,并基于概率統計信息預測特定事件的未來發生及其對系統穩定性的影響,進而給出相應的參考控制策略。
以上所述僅為本發明的優選實施例而已,并不用于限制本發明,對于本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
上述雖然結合附圖對本發明的具體實施方式進行了描述,但并非對本發明保護范圍的限制,所屬領域技術人員應該明白,在本發明的技術方案的基礎上,本領域技術人員不需要付出創造性勞動即可做出的各種修改或變形仍在本發明的保護范圍以內。