專利名稱:一種生態系統碳交換影響因素提取方法及系統的制作方法
技術領域:
本發明涉及數據挖掘及模糊粗糙集技術領域,尤其涉及一種生態系統碳交換影響因素提取方法及系統。
背景技術:
對大氣二氧化碳的研究關系到人類可持續發展和對生態系統間規律的認識,目前國內外通過在各生態系統設立觀測站、建立碳塔來獲取碳通量數據。然而,由于碳塔造價不菲、容易受到環境和儀器故障等影響不能夠得廣泛推廣。并且,只有從碳通量觀測站數據和遙感數據中,挖掘各環境和氣象等因素與碳通量的關系,才有可能利用遙感圖像和地面氣象站等數據,研究區域的乃至全球的碳通量的時空模式。在數據分析上,國內外大多依靠統計學方法對生態學家認為重要的環境因子進行回歸分析或統計分析,其缺陷是依靠經驗對個別屬性進行分析,缺乏全面性和容易忽視重要規律;雖然,近年來,已經有一些學者通過人工智能方法對碳通量的規律及模式進行研究,但側重在對碳通量進行預測上,并未從影響碳通量環境因子的角度對其進行深入分析,其結果是導致預測模型復雜,且難以發現內在規律;另外,無法對不同生態系統的碳通量屬性數據進行統一分析,發現各自的異同點也是現階段存在的不足。
發明內容
本發明的目的在于提供一種能縮小研究與碳通量相關的生態因子范圍,降低分析難度,降低預測模型復雜度的生態系統碳交換影響因素提取方法。本發明的另一目的在于提供一種方便實用的生態系統碳交換影響因素提取方法所用的系統。為解決上述問題,本發明提出了一種生態系統碳交換影響因素提取方法,其包括以下步驟
1)從碳通量數據觀測站中獲取碳通量樣本的屬性數據;
2)輸入由步驟1)獲得的碳通量樣本的屬性數據,確定屬性數據的隸屬函數并計算各個屬性隸屬度,提取環境因子集重要度,獲得與碳通量相關的環境因子集;
3)將步驟2)獲得的環境因子集中的各個環境因子分別運用神經網絡進行建模仿真,得出碳通量環境因子提取率。所述碳通量屬性數據的數據類型包括連續的、缺失的、標稱值的、離散的、序數的、數值型、字符型數據。所述步驟2)具體包括以下步驟
21)根據獲取的碳通量數據樣本的屬性數據,對碳通量數據樣本進行數據預處理;
22)設置相關系數閾值,相關系數閾值范圍為W.9,0.95];
23)分別計算各個屬性間相關系數值;將計算后的各個屬性間的相關系數值與步驟 22)設置的相關系數閾值進行比較判定,如果屬性間相關系數值大于相關系數閾值時,則將該環境因子剔除,小于相關系數閾值時則保留該環境因子,獲得環境因子集;
24)將步驟23)保留獲得的環境因子集通過隸屬度函數進行映射,求出各屬性數據的模糊上近似集、模糊下近似集和模糊粗糙集正域值,通過模糊粗糙集正域計算出條件屬性子集對決策屬性重要度;
25)通過一種提出的基于混合蛙跳的模糊粗糙集約簡算法或基于重要度的模糊粗糙集快速約簡算法,對屬性進行組合,通過評價函數計算組合后的屬性適應度,當屬性適應度達到最大時,使其滿足停止搜索條件,輸出保留的環境因子。 所述步驟25)的基于混合蛙跳算法的模糊粗糙集約簡優化算法,該方法是結合了基于模因進化的模因演算法和基于群體行為的粒子群算法兩種種群智能優化算法的優點, 仿照青蛙覓食跳躍過程,通過種群青蛙的跳躍找到食物較多的地方,該算法具有概念簡單, 調整的參數少,計算速度快,全局搜索尋優能力強,易于實現的特點。具體實現所屬步驟如下
2511)隨機初始化種群,每個青蛙表示一個不同條件屬性子集,并對個體按適應值由大到小排序;
2512)通過青蛙子群中最好個體和最差個體的運算獲得新個體,計算新個體的屬性個數JV5和模糊粗糙集重要度γ,從
而獲得目標函數的適應度 ;
權利要求
1.一種生態系統碳交換影響因素提取方法,其特征在于包括以下步驟1)從碳通量數據觀測站中獲取碳通量樣本的屬性數據;2)輸入由步驟1)獲得的碳通量樣本的屬性數據,確定屬性數據的隸屬函數并計算各個屬性隸屬度,提取環境因子集重要度,獲得與碳通量相關的環境因子集;3)將步驟2)獲得的環境因子集中的各個環境因子分別運用神經網絡進行建模仿真,得出碳通量環境因子提取率。
2.根據權利要求1所述生態系統碳交換影響因素提取方法,其特征在于所述碳通量屬性數據的數據類型包括連續的、缺失的、標稱值的、離散的、序數的、數值型、字符型數據。
3.根據權利要求1所述生態系統碳交換影響因素提取方法,其特征在于所述步驟2)具體包括21)根據獲取的碳通量數據樣本的屬性數據,對碳通量數據樣本進行數據預處理;22)設置相關系數閾值,相關系數閾值范圍為W.9,0.95];23)分別計算各個屬性間相關系數值;將計算后的各個屬性間的相關系數值與步驟 22)設置的相關系數閾值進行比較判定,如果屬性間相關系數值大于相關系數閾值時,則將該環境因子剔除,小于相關系數閾值時則保留該環境因子,獲得環境因子集;24)將步驟23)保留獲得的環境因子集通過隸屬度函數進行映射,求出各屬性數據的模糊上近似集、模糊下近似集和模糊粗糙集正域值,通過模糊粗糙集正域計算出條件屬性子集對決策屬性重要度;25)通過基于混合蛙跳的模糊粗糙集約簡算法或基于重要度的模糊粗糙集快速約簡算法,對屬性進行組合,通過適應度函數,計算屬性組合的適應度,當屬性適應度達到最大時, 滿足停止搜索條件,輸出保留的環境因子。
4.根據權利要求3所述生態系統碳交換影響因素提取方法,其特征在于所述步驟25) 的基于混合蛙跳的模糊粗糙集約簡算法具體實現如下,如果,Λ^ ,則更新條件屬性子集;直至遍歷所有條件屬性組合后,f腳小于或等于/ ^時,則f 為步驟25)所述的最大屬性適應度 是指更新的條件屬性子集適應度 是指更新之前條件屬性子集適應度; 其中 ;式中“、 為取值(0,1)的系數,Nc為條件屬性個數,ATj為約簡后屬性個數,y為約簡后條件屬性子集對決策屬性重要度;所述步驟25)的基于重要度的快速模糊粗糙集約簡算法的實現步驟包括251)通過單屬性分析出各個屬性重要度,統計屬性個數,將屬性按照條件屬性對決策屬性重要度由大到小排列;取其中條件屬性個數的前1/3作為第一次嘗試約簡集C83,;計算約簡隼t 決策屬性的重要度,記錄為/〔; 252)計算所有條件屬性對決策屬性的重要度;K1df,判斷與,的關系,如果γ'ctry等于γ 'all則剔除ctry中重要度最小的條件屬性,直至滿足γ'all-γ'ctry<0 01 ,則停止剔除ctry中的條件屬性;253)如果γ'cty不等于γ'all則需要添加條件屬性到Ctry中,重新計算添加了條件屬性的重要度γ‘cadd直至滿足
5.根據權利要求1所述生態系統碳交換影響因素提取方法,其特征在于所述步驟3)具體包括31)輸入約簡后碳通量樣本的屬性數據;32)輸入約簡前碳通量樣本的屬性數據;33)分別計算約簡前碳通量樣本的屬性數據樣本預測值、約簡后碳通量樣本的屬性數據樣本預測值與碳通量屬性數據實測值的相關性;34)通過約簡前所有條件屬性相對于決策屬性重要度γαll和約簡后條件屬性集相對于決策屬性的重要度γreduce的比值,求得信息保留率;γ函數為
6.根據權利要求5所述生態系統碳交換影響因素提取方法,其特征在于,所述步驟33) 是利用神經網絡來建立仿真模型,計算訓練集和測試集的相關度、均方根誤差、訓練集和測試集平均絕對誤差。
7.—種生態系統碳交換影響因素提取方法所用的系統,其特征在于包括數據導入模塊(1),用于從各碳通量觀測網站中獲取生態系統的碳通量樣本的屬性數據;因素提取模塊(2),用于對所述生態系統的碳通量樣本的屬性數據進行數據挖掘,獲得與碳通量相關的環境因子集;輸入模塊(3),用于輸入約簡前碳通量樣本的屬性數據與約簡后碳通量樣本的屬性數據;評價模塊(4),用于計算與碳通量相關的環境因子提取前和提取后的信息保留率和碳通量環境因子提取率。
8.根據權利要求7所述的系統,其特征在于所述碳通量屬性數據的數據類型包括連續的、缺失的、標稱值的、離散的、序數的、數值型、字符型數據。
9.根據權利要求7所述的系統,其特征在于所述因素提取模塊(2)包括數據預處理單元(21),用于對獲取的生態系統的碳通量樣本的屬性數據進行屬性填補、屬性數據標準化;輸入單元(22),用于設定相關系數閾值及模糊粗糙集屬性約簡算法參數; 數據挖掘單元(23),用于挖掘對碳量有主要影響的最優條件屬性子集,輸出約簡結果, 得到與碳通量數據相關環境因子集。
10.根據權利要求7所述的系統,其特征在于所述評價模塊(4)包括 模型仿真單元(41),用于對輸入的數據進行建模仿真;模型計算單元(42),用于計算訓練集和測試集的相關度、均方根誤差、訓練集和測試集平均絕對誤差;效率評價單元(43),用于計算約簡后屬性和約簡前屬性的碳通量環境因子提取率。
全文摘要
本發明公開一種生態系統碳交換影響因素提取方法及系統,本發明提取方法包括以下步驟1)從碳通量數據觀測站中獲取碳通量樣本的屬性數據;2)輸入由步驟1)獲得的碳通量樣本的屬性數據,通過提出的混合蛙跳的模糊粗糙集約簡算法或基于重要度的快速模糊粗糙集約簡算法,選取最佳組合,找出與碳通量關系最密切的環境因子集;3)將步驟2)獲得的環境因子集中的各個環境因子分別運用神經網絡進行建模仿真,得出碳通量環境因子提取率。本發明提供的提取系統包括數據導入模塊、因素提取模塊、輸入模塊、評價模塊。本發明能夠有效縮小研究生態環境中與碳通量相關因子的范圍,提高研究效率和發現環境因子間的內在規律。
文檔編號G06F17/50GK102495919SQ20111036789
公開日2012年6月13日 申請日期2011年11月18日 優先權日2011年11月18日
發明者王楷, 薛月菊, 陳漢鳴 申請人:華南農業大學