一種電力系統中缺失數據插補的方法
【技術領域】
[0001] 本發明屬于電力系統中缺失數據插補技術領域,尤其涉及一種鏈式方程的多元填 充算法和基于隨機森林算法的缺失值插補方法。
【背景技術】
[0002] 伴隨著信息科技時代的到來,大數據在各個領域得到越來越廣泛的應用。而隨著 我國智能電網建設的全面展開,電力大數據應需而生,并成為電網智能化過程中不可或缺 的一部分。
[0003] 智能電網建設的最終目標是成為覆蓋電力系統整個生產過程,包括發電、輸電、變 電、配電、用電及調度等多個環節的全景實時系統。而支撐智能電網安全、自愈、綠色、堅強 及可靠運行的基礎是電網全景實時數據采集、傳輸和存儲,以及累積的海量多源數據快速 分析。但是在數據采集,傳輸和存儲的過程中,不可避免的會出現數據缺失,數據的缺失對 數據快速分析具有重要影響,如何有效地處理缺失數據關系到分析的結果。而要對海量電 力多源數據進行快速分析,如何進行數據插補一項有意義且棘手的問題。
[0004] 缺失數據的存在不僅干擾估計精度,也影響統計工作人員后續工作的有效開展。 目前常用的缺失數據處理方法有刪除缺失值,插補缺失值。對于刪除缺失值的方法,當缺失 數據比例很大時,這種方法丟失大量信息并且會產生偏倚是不完全觀測數據與完全觀測數 據間產生系統差異。插補方法是目前主流的方式。插補方法有簡單填充,均值填充,隨機填 充,回歸模型填充,最大期望算法填充,多重填充,最近距離填充和熱卡填充等。由于電力數 據呈現出規模大、類型多、價值密度低、變化快等特征;且缺失數據出現在多個變量帶來特 殊的挑戰。上述插補方法很難有效同時對不同的數據類型的進行數據填充。急需能有效填 充多類型數據的比較穩定方法。
【發明內容】
[0005] 本發明針對現有方法存在的問題作出改進,即本發明所要解決的技術問題是提供 一種可操作性強的、對電力系統中的缺失數據進行插補的復合模型,實現電力系統中的缺 失數據插補。
[0006] 本發明的技術方案是:一種對電力系統缺失數據進行插補的復合模型,該模型基 于鏈式方程的多元插補算法和隨機森林的插補算法而開發的,其特征在于,所述方法包括 下列步驟:
[0007] 步驟1 :對所收集的原始記錄數據進行數據分類,分為完全數據和不完全數據(需 要插補的數據),
[0008] 步驟2 :利用得到的完全數據產生新的不完全數據作為樣本集。
[0009] 步驟:3 :分別使用基于鏈式方程的多元插補算法和基于隨機森林的缺失值插補 算法對新產生的不完全數據進行數據填充。
[0010] 步驟4 :計算步驟2中各算法得到的每個填充數據與相應的真實數據之間的偏差, 將各算法所得的每個填充數據對應的偏差進行線性組合,計算該線性組合的偏差的平方并 加所有填充數據的平方偏差。
[0011] 步驟5 :最小化所有填充數據的平方偏差,獲得各個算法在組合模型中所占的權 重。
[0012] 步驟6 :將步驟3中的填充算法應用于原始數據集,獲得原始數據集中缺失值的插 補值,并與步驟5所得各個模型的權重相乘,獲得最終的插補值。
[0013] 所述的一種對電力系統缺失數據進行插補的方法,其特征在于,提供一種對電力 系統缺失數據進行插補的復合模型,所述鏈式方程的多元填充算法可以進行多元插補,并 且可以針對混合類型的數據進行插補。該算法通過從條件分布中迭代抽樣獲得缺失數據的 后驗分布,此外,該算法可以容易地將多個一維變量串聯起來執行從而插補缺失數據。該算 法的主體部分如下:假設完全數據Y是部分觀測到的隨機樣本來自P個變量的多元分布,其 中Y的分布完全由未知的參數向量θ確定,該算法通過從以下條件分布中迭代抽樣獲得參 數的后驗分布,
[0014] P(Y1U1)
[0015] .
[0016] .
[0017] .
[0018] Ρ(Υρ|Υρ, θρ)
[0019] 自觀測到的邊際分布開始進行簡單抽樣,第t此鏈式方程的迭代的結果是依次從 以下分布中抽取的Gibbs樣本
[0021] 其中If >)是第t次迭代中第j次填充的變量。該算法可同時執行多個 賞識過程,每個過程執行一個插補數據集。
[0022] 所述的一種對電力系統缺失數據進行插補的復合模型,其特征在于,隨機森林算 法通過平均許多為剪枝的分類或者回歸樹隨機深林來進行缺失數據的插補,該算法可以同 時處理混合類型的數據。隨機森林算法通過訓練數據集的觀測到的部分來預測缺失值。給 定一個含有η個觀測實例,p個變量的數據集X,停止條件為γ,其算法的具體流程如下:
[0023] 1.對缺失值進行初始估計,
[0024] 2. k - X中關于缺失值遞增總數的所對應的向量在矩
[0025] 陣X中的下標
[0026] 3. While 沒有達到
[0027] 4· ΧΓ-存儲之前插補的矩陣
[0028] 5. For s 在 k 中 do CN 105117988 A 說明書 3/4 頁
[0029] 6.擬合一隨機森林乂丨丨
[0030] 7.使用C預測d
[0031] 8. X怎一使用預測的更新插補的矩陣
[0032] 9. End for
[0033] 10.更新停止條件γ
[0034] 11. End while
[0035] 12.返回插補的矩陣Ximp
[0036] 當新的插補的數據矩陣和之前的插補的數據矩陣的差第一次增加時候,停止條件 就已經滿足,插補過程停止。其中連續變量的矩陣的差定義為
[0038] 類別變量矩陣的差定義為
[0040] 其中·Α是分類變量中缺少值的個數。
[0041] 所述的一種對電力系統缺失數據進行插補的復合模型,其特征在于,隨機森林插 補算法在插補缺失值之后,采用歸一化的均方根誤差評估