中文字幕无码日韩视频无码三区

一種啟發式代謝共表達網絡的構建方法及系統的制作方法

文檔序號:9929893閱讀:1572來源:國知(zhi)局(ju)
一種啟發式代謝共表達網絡的構建方法及系統的制作方法
【技術領域】
[0001] 本發明設及代謝組學網絡領域,尤其設及一種啟發式代謝共表達網絡的構建方法 及系統。
【背景技術】
[0002] 代謝物是生物體內完成代謝過程的小分子有機化合物總稱,包含了豐富的生理狀 態信息。代謝組學基于對代謝物的整體系統性研究,可有效掲示生理現象背后的真實機理, 并更為全面地展示生命體的動態狀態。因此獲得了越來越多的重視,被廣泛應用于諸多科 研與實用領域中。而另一方面,傳統機器學習方法往往難W應對代謝組學特征高維度、小樣 本、高噪聲的數據特點。使用創新的網絡結構描述代謝物間的相互關聯,并W此進行準確、 穩定的分析,是代謝組學未來發展的重要方向。
[0003] 已有的代謝組學網絡描述方法主要包括兩類:
[0004] 其一是全基因代謝網絡重構方法。其W基因表達信息為基礎,通過獲取其可能產 生的蛋白質列表,捜索ECXEnzyme Commission Number)數據庫得到對應的蛋白酶,并根據 代謝途徑(Pathway)數據庫取得所有可能的化學反應,使用連接算法組合為包含高假陽性 的代謝網絡草圖。而后根據在特定條件下的實驗表達信息,對草圖進行修正與剪裁,最終獲 得較為準確的網絡結構。
[0005] 其二是代謝網絡的共表達構建方法(Metabolic Co-expression Network)。直接 評估不同代謝物特征在各實驗條件下的表達差異,通過計算相關性參數(Correlation Coefficient)形成權值矩陣。而后人為設定或使用適應性算法確定切分闊值,對矩陣進行 簡化,最終映射為網絡結構。
[0006] -般認為,代謝共表達網絡可更為有效地描述未知的生理關聯信息,且對先驗知 識要求較低,更適合于非針對性代謝組學研究,是發掘與分析代謝組學新知識的有力工具。 但在生物數據中,其相關性參數的計算往往有著較大誤差,且人為設定的切分闊值缺乏理 論依據,導致最終結果難W令人滿意。針對運一問題,近年來提出了基于特征選擇的共表達 網絡構建方法,獲得了學術界的廣泛重視。
[0007] 現有的全基因代謝網絡重構方法,其缺點在于:
[000引第一,其包含了現有數據庫中所有可能的代謝反應,具有極高的假陽性。盡管實驗 數據可部分消除此類網絡連接,但若要對其進行準確修正,所需的樣本量過高,成本較高。
[0009] 第二,其嚴重依賴于現有的基因表達、酶催化及代謝途徑等先驗知識。而此類知 識,特別是代謝組學相關的數據庫仍有著大量信息缺失。導致所構建的網絡具有高假陰性。 此外,其網絡完全基于現有知識,難W用于新生物信息的發掘。
[0010] 現有的代謝共表達網絡構建方法,其缺點在于:
[00川第一,基于相關性參數的方法,如F>earson相關系數、Spearman相關系數等,其參數 計算所需樣本量較高,在生物實驗中往往難W滿足。導致所估計的相關程度有所偏差,構造 網絡的魯棒性不佳。且人為設定切分闊值并無理論支撐,容易再次引入誤差,影響分析結 果。
[0012]第二,現有算法僅能估計兩兩特征(Pairwise Features)間的關聯信息。而在真實 生命體中,多個代謝物往往會相互連接形成功能模塊,整體對生理過程進行調控。現有方法 并不能有效描述運一特點。
[0013] 第=,現有基于特征選擇的網絡構建方法一般使用確定性捜索方法,對于相同數 據集僅能獲得唯一的特征子集。而對于高維代謝組學數據,此類解往往不是最優的。此類方 法也無法通過多次運行程序捜索更佳的結果。
[0014] 因此,現有技術還有待于改進和發展。

【發明內容】

[0015] 鑒于上述現有技術的不足,本發明的目的在于提供一種啟發式代謝共表達網絡的 構建方法及系統,旨在解決現有的構建方法準確性低、穩定性差、成本高等問題。
[0016] 本發明的技術方案如下:
[0017] -種啟發式代謝共表達網絡的構建方法,其中,包括步驟:
[0018] A、對原始的代謝特征數據集護進行正規化預處理,使其中所有M個代謝特征矢量 在每個維度上都具有0均值及單位方差:
[0019]
[0020] F=化;m=l,2,…,M}為預處理后的代謝特征數據集,分別為第m個原始的代 謝特征矢量護m的均值與方差;
[0021] B、設定特征選擇總運行次數為K,初始化運行計數器k = l;
[0022] C、構造多模優化的進化種群ps,將其所包含的每個尋優個體XiEps初始化為范圍 R=[0,l]內均勻分布的M維隨機矢量;
[0023] D、設定算法迭代總次數為G,初始化迭代計數器g = l;
[0024] E、計算進化種群PS中每個尋優個體的共享適應度函數值;
[0025] F、在計算所有尋優個體的共享適應度函數值后,使用啟發式計算智能算法優化進 化種群PS;
[00%] G、更新迭代計數器肖=肖+1,若肖祐,則返回步驟E;否則本次優化結束,進入步驟H; [0027] H、對于優化后進化種群PS中的每個尋優個體Xi,將其映射為選擇矢量Si;
[002引I、構造對稱的共表達權值矩陣Wk=Iwp,q}MXM,其中對角線元素 Wp,P為所有Si中代謝 特征矢章獻說中的次擲.n EM:
[0029]
[0030] 其余元素 wp,q則為Si中代謝特征矢量Fp與Fq被同時選中的次數,p,qeM,p辛q:
[0031 ] Wp, q - 2 ie I ps I Sp n Sq ; Sp , Sq £ Si ;
[0032] J、更新運行計數器k = k+l,若k<K,則返回步驟C,否則特征選擇完成,進入步驟K;
[0033] K、對每次運行所獲得的共表達權值矩陣進行平均,并計算其對應的概率,得到最 終的共表達權值矩陣為Q ={ Up, q}MXM,其中I PS I為進化種群PS中的尋優個體總數:
[0034]
[0035] L、將每次特征選擇中最終輸出的每個Si視作優化算法對于代謝特征數據集空間 的一次采樣,其SmESi服從概率Pm的伯努利分布,則Wp,P即為服從B( Ips I ,Pm)二次分布的隨 機變量;
[0036] M、將最終的共表達權值矩陣視作組合學習投票方法的穩態結果;
[0037] N、使用最終的共表達權值矩陣中的對角線元素 COp,P作為節點P的重要性權重,其 余任意《p,q,P辛q作為節點Fp與Fq之間的連接權重,構建全連通加權網絡G,而后移除其中權 重小于闊值Qt的節點與邊,形成該原始的代謝特征數據集護的代謝共表達網絡;
[0038] 0、輸出所述代謝共表達網絡作為結果。
[0039] 所述的啟發式代謝共表達網絡的構建方法,其中,所述步驟E具體包括:
[0040] EU設若輸入個體為Xi= {xm;m=l,2, ...,M},其各維度上均為R范圍內的實數值, 將其二值化為離散的選擇矢量Si= {sm;m= 1,2,. . .,M}:
[0041]
[0042] E2、對于Si中任意第m個選擇值Sm,若其值為1,則選擇對應代謝特征矢量Fm包含于 所構造的特征子集Fs中,否則Fm將不會被選中;
[0043] Fs={Fm;m= 1,2,---,1,Sm=H ;
[0044] E3、計算Fs中多變量的近似互信息值作為原始適應度函數值;
[0045] E4、定義稀疏適應度函數值為矢量Xi的1范數:
[0046] fspr. (Xi) = IlXiIIi;
[0047] E5、計算當前個體Xi的總體適應度函數值為:
[004引 f (Xi) =fraw(Xi)+Mspr. (Xi);
[0049] 其中A為拉格朗日乘數;
[0050] E6、若每個尋優個體的總體適應度函數值都已計算,則轉至步驟E7,否則轉至步驟 El;
[0051] E7、計算各尋優個體的共享適應度函數值:
[0化2]
[0053] 其中r為聚集半徑,e為驅散因子。
[0054] 所述的啟發式代謝共表達網絡的構建方法,其中,所述步驟E3具體包括:
[0055] E31、設若C為F的N個樣本所對應的類標矢量,則Fs的互信息計算為:
[0056] I(Fs;C) =H(Fs)-H(Fs I C) =H(Fs)- 2cecp(c化(Fs I C);
[0057] 其中P (C)表示類標C的出現概率,H()表示變量的賭;
[005引E32、使用Fs中的N個樣本作為節點,其相互歐氏距離作為邊的權值,構造最小生成 樹,貝化Y (Fs)為此最小生成樹的邊權值總和:
[0化9]
[0060]其中丫為接近于0的正值常數;
[0061 ] E33、計算Fs的多變量互信息為:
[0062] Iappx'(Fs;C)=k(Fs)-I:cecp(cAY(Fs|c);
[0063] 從而原始適應度函數值定義為:
[0064] fraw(Xi)=-Iappx'(Ps;G)。
[0065] -種啟發式代謝共表達網絡的構建系統,其中,包括:
[0066] 正規化模塊,用于對原始的代謝特征數據集護進行正規化預處理,使其中所有M個 代謝特征矢量在每個維度上都具有0均值及單位方差:
[0067]
[006引 F=化;m=l,2,…,M}為預處理后的代謝特征數據集,分別為第m個原始的代 謝特征矢量護m的均值與方差;
[0069] 運行計數器初始化模塊,用于設定特征選擇總運行次數為K,初始化運行計數器k =1;
[0070] 進化種群構造模塊,用于構造多模優化的進化種群PS,將其所包含的每個尋優個 體XiEps初始化為范圍R= [0,1 ]內均勻分布的M維隨機矢量;
[0071 ]迭代計數器初始化模塊,用于設定算法迭代總次數為G,初始化迭代計數器g = 1;
[0072] 適應度函數值計算模塊,用于計算進化種群PS中每個尋優個體的共享適應度函數 值;
[0073] 種群優化模塊,用于在計算所有尋優個體的共享適應度函數值后,使用啟發式計 算智能算法優化進化種群PS;
[0074] 迭代計數器更新模塊,用于更新迭代計數器旨=旨+1,若旨<6,則返回適應度函數值 計算模塊;否則本次優化結束,進入映射模塊;
[007
當前第1頁1 2 3 4 
網友詢問(wen)留(liu)言(yan) 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1