基于基因表達與亞細胞定位信息的蛋白質網絡精煉方法
【專利摘要】本發明公開了基于基因表達與亞細胞定位信息的蛋白質網絡精煉方法,利用時間相關模型與時間不相關模型過濾基因表達數據;對S?PIN中的每條邊e(u,v),如果邊e連接的兩個蛋白質節點u和v在所有時間點都不同時滿足活性的判決條件,則將邊e(u,v)從S?PIN中移除;對S?PIN中的每條邊e(u,v),如果邊e連接的兩個蛋白質節點u和v不出現在任意一個共同的亞細胞位置中,則將邊e(u,v)從S?PIN中移除;輸出過濾后的S?PIN的邊集E,即為精煉后的蛋白質網絡TS?PIN。有效提高基于網絡的關鍵蛋白質預測方法預測關鍵蛋白質的準確率。
【專利說明】
基于基因表達與亞細胞定位信息的蛋白質網絡精煉方法
技術領域
[0001] 本發明屬于系統生物學技術領域,涉及蛋白質相互作用網絡中關鍵蛋白質的識 另IJ,具體涉及基于基因表達與亞細胞定位信息的蛋白質網絡精煉方法。
【背景技術】
[0002] 多物種全基因組測序的完成以及人類基因組計劃的開展,使生命科學研究的重點 正在從基因組學向蛋白質組學轉移。所有的生物,包括人類和細菌,蛋白質都是其構成所有 細胞和組織結構無法或缺的部分。它能構成維持機體新陳代謝所需要的各種酶類以及與機 體免疫反應息息相關的抗體,還參與構成調節人體各種生理機能的激素,是生命活動極其 重要的物質基礎。Winzeler等通過基因剔除式突變將某些重要的蛋白移除后會造成相關的 蛋白質復合物失去功能,繼而使生物體無法維持生存。所以我們認為在生命活動中,不同蛋 白質的重要性是有區別的。于是我們將蛋白質分為兩類:關鍵蛋白質(essential proteins)和非關鍵蛋白質(non-essential proteins)。關鍵蛋白質是生物體生存和繁殖 所必需的蛋白質。由于關鍵蛋白質在生命活動中扮演重要角色,因此對于關鍵蛋白質的預 測與識別成為一項重要的研究工作。過去關鍵蛋白在生物學上的識別主要通過生物實驗, 像RNA干擾、單基因敲除、條件性基因剔除等。與計算生物學相比,使用生物技術固然能得到 有效的結論,但是代價相對高而效率相對低,并且適用的物種范圍有局限性。所以,使用計 算生物學的方法來預測關鍵蛋白質是該領域的又一個值得研究的方向。
[0003] 隨著酵母雙雜交、串聯親和純化、質譜分析、蛋白質芯片和噬菌體顯示等高通量蛋 白質組技術的發展,以及基于計算生物學的蛋白質相互作用預測技術的日趨成熟,可獲得 的蛋白質相互作用數據迅速增長,大量的蛋白質相互作用數據已經被收錄在公開數據庫中 以供下載。然而,不管是根據高通量蛋白質組技術測定的還是通過生物信息學方法預測的 蛋白質相互作用數據,都普遍存在大量的假陽性數據和假陰性數據。假陽性和假陰性的存 在使數據集的可靠性大大降低,并且不同方法預測得到的相互作用數據差異較大,目前蛋 白質相互作用數據仍然存在較高的不準確性。數據的這種不準確性阻礙了蛋白質組學的相 關研究,也嚴重影響了基于網絡水平的關鍵蛋白質識別的正確性。盡管基于拓撲的方法能 直接預測關鍵蛋白質而不需要已知的關鍵蛋白質集合,但這些方法同樣存在一定的局限 性。我們所用到的PPI數據是不完整的,包含了許多假陽性和假陰性數據,這些數據會對預 測結果產生影響,而大多數中心性算法僅僅使用了網絡的拓撲特性,這就對我們網絡的準 確性提出了更高的要求。
【發明內容】
[0004] 本發明的目的是提供一種基于基因表達與亞細胞定位信息的蛋白質網絡精煉方 法,提高基于網絡的關鍵蛋白質預測方法預測關鍵蛋白質的準確率,解決現有預測方法對 蛋白質相互作用網絡的噪聲敏感的問題。
[0005] 本發明所采用的技術方案是,基于基因表達與亞細胞定位信息的蛋白質網絡精煉 方法,具體按照以下步驟進行:
[0006] 步驟1,使用生物相關數據集,包括蛋白質相互作用網絡、時間序列下的基因表達 數據、蛋白質亞細胞位置信息;
[0007] 步驟2,利用時間相關模型與時間不相關模型過濾時間序列下的基因表達數據;對 每一個蛋白質v計算其活性閾值Active_th(v),如果該蛋白質v在時刻i對應的基因表達值 大于活性閾值,即£7(>,;〇>4(31:;[¥6_1:11(>),則表明蛋白質¥在時刻;[是活躍的,記作1^(>)= 1;
[0008] 步驟3,對S-PIN中的每條邊e(u,v),如果邊e連接的兩個蛋白質節點u和v在所有時 間點都不同時滿足活性的判決條件,即在所有的時刻都不存在EV(u,i)>ActiVe_th(u)和EV (V,i)>Active_th(v)同時成立,則將邊e(u,v)從S-PIN中移除;
[0009] 對S-PIN中的每條邊e(u,v),如果邊e連接的兩個蛋白質節點u和v不出現在任意一 個共同的亞細胞位置中,則將邊e(u,v)從S-PIN中移除;
[0010] 輸出過濾后的s-p IN的邊集E,即為精煉后的蛋白質網絡TS-P IN。
[0011] 本發明的特征還在于,進一步的,具體按照以下步驟進行:
[0012] 步驟1,使用生物相關數據集,包括蛋白質相互作用網絡、時間序列下的基因表達 數據、蛋白質亞細胞位置信息;
[0013] 稱原始的蛋白質相互作用網絡為S-PIN,它包含了在不同時間不同亞細胞位置表 達的蛋白質相互作用邊,S-PIN用無向圖G(V,E)表示,V = {vl,. . .,vn}蛋白質集合, Ed x {/表示蛋白質相互作用邊的集合;
[0014] 時間序列下的基因表達數據提供了每個蛋白質對應的基因在m個不同時刻對應的 表達水平,對于每一個蛋白質v,它在某個時間點i的表達值用EV(v,i)表示,y(v)為1到m時 刻表達值的平均值,〇(v)為他的標準差;
[0015]蛋白質亞細胞位置信息提供了每個蛋白質所在的亞細胞位置信息,對于每一個蛋 白質¥,它的亞細胞定位信息可以看作一個1~維向量^=11兒(>)=(11,'",11,'"11〇,當蛋白 質v處于第i個亞細胞位置表示為h( v) = 1;
[0016] 步驟2,使用基因表達信息精煉化蛋白質相互作用網絡,利用時間相關模型與時間 不相關模型過濾基因表達數據;
[0017] 首先將基因表達數據分為兩類:時間相關與時間不相關;時間相關的基因表達數 據是可信的,而時間不相關的數據且均值低于〇 . 5則認為數據不可信;同時,因為動態表達 水平可以間接地反映蛋白質活性的動態性,想獲得所有時刻的基因表達譜在實際中是不可 行的,因此一個細胞周期的基因表達數據通常只包含細胞周期中m個時刻點,相鄰時刻點間 隔一定的時間;基于各個基因的表達特性,利用3-s igma方法為每個基因對應的基因產物計 算活性閾值,從而確定蛋白質在細胞周期的哪些時刻處于活性狀態;
[0018] k為根據時間相關模型與時間不相關模型的測試檢驗結果,k取值2.5;F(v)表示曲 線的波動性,如果標準差越大,F(v)越小;
[0019] Active_th(v) =y(v)+k〇(v) X(l-F(v)) (1) (2) (3)
(4)
[0023]如果某個基因的表達值在某個時間點超過了其表達閾值,那么對應的蛋白質就被 視為在該時間點是表達的;對于每一個時間點來說,如果在靜態蛋白質相互作用網絡中發 生相互作用的兩個蛋白質在同一時間點都是表達的,那么在該時間點蛋白質及其相互作用 就構成了動態蛋白質相互作用網絡TS-PIN的一部分,不斷重復這個過程直至創建TS-PIN 網絡;
[0024]步驟3,使用亞細胞定位數據精煉化蛋白質相互作用網絡;
[0025] 蛋白質要實現其功能,必須要處于對應的細胞器中,COMPARTMENT數據庫中有11種 關于酵母的亞細胞定位信息,分別為:cytoskeleton,golgi apparatus,cytosol, endosome,mitochondrion,plasma membrane,nucleus,extracellular space,vacuole, endoplasmic,reticulum,p eroxisome;對于一條邊(u,v) EE,只有當存在某個亞細胞位置 1使得1心)=11(>) = 1時,該對相互作用才可能發生,否貝11,邊(11,¥)卽就要從集合£中被移 除。
[0026] 本發明的有益效果:利用蛋白質亞細胞定位數據與基因表達數據將蛋白質相互作 用網絡精煉化。根據基因表達數據,結合時間相關模型將基因表達數據過濾,使基因表達數 據更加精確化。本文通過對蛋白質相互作用的邊進行逐一分析,判斷每條相互作用邊上的 蛋白質是否在同一時刻表達,并且判斷其表達是否在同一個亞細胞位置,判斷的結果用來 衡量蛋白質邊的可信度。本發明的方法簡單易用,通過與已有的蛋白質相互作用網絡比較, 提出的精煉方法使同樣的關鍵蛋白質預測方法在精煉后的網絡上的預測準確性、與已知關 鍵蛋白質匹配的敏感度和特異性等方面都有明顯提高。本文的發明創造點就是利用基因表 達數據與亞細胞定位信息構建了更加精準的網絡,可有效提高一系列基于網絡的關鍵蛋白 質預測方法預測關鍵蛋白質的準確率。
【附圖說明】
[0027] 圖1是在酵母蛋白質相互作用網絡上不同比例的具有較高排序得分的蛋白質作為 預測的關鍵蛋白質時,TS-PIN,S-PIN,NF-APIN網絡中,10種拓撲中心性方法(DC,EC,SC,BC, CC,1C,LAC,NC,BN,DMNC)識別關鍵蛋白質的數量的比較圖。
[0028] 圖2是DC,EC,SC,BC,CC,1C,LAC,NC,BN,DMNC十種算法在三種不同網絡上基于 jackkn i f e方法評價的比較圖。
[0029] 圖3是DC,EC, SC,BC,CC, IC,LAC,NC,BN,DMNC在三種不同網絡上預測的前100個候 選關鍵蛋白的重疊性和差異性比較圖。
【具體實施方式】
[0030] 下面結合附圖和【具體實施方式】對本發明進行詳細說明。
[0031] 1.發明中使用的生物相關數據集。
[0032]目前研究最為廣泛的物種是酵母,其蛋白質相互作用網絡和關鍵蛋白質數據在眾 多物種中是最為完整和可靠的。首先基于酵母的數據進行數據分析和實驗驗證。酵母的蛋 白質相互作用網絡來自于DIP數據庫2010年10月的數據。除去自相互作用和重復的相互作 用,總共有5093個蛋白質,24743條邊。基因表達數據來自GE0數據庫的GSE3431,該基因表達 數據對應的6777個基因產物覆蓋了靜態蛋白質網絡中的95%的蛋白質。三個連續的代謝周 期的基因表達數據包含了 36個時刻的基因表達不,其中每個周期包含12個時刻的基因表達 譜,相鄰時間間隔25分鐘左右。酵母蛋白質亞細胞定位注釋信息來自COMPARTMENTS數據庫, 該數據庫集成了 UniProtKB、MGI、360、?1}^1^86、¥〇1'1111^86等數據庫中基于實驗的亞細胞定 位注釋信息,酵母蛋白質分別被11種亞細胞定位注釋。關鍵蛋白質信息來源于MIPS,SGD, DEG和SGDP四個數據庫。在5093個蛋白質中1167個為關鍵蛋白質,剩余3926個蛋白質視作非 關鍵蛋白質。
[0033] 在本發明中,稱原始的蛋白質相互網絡為S_PIN(Static Protein Interaction Network),它包含了在不同時間不同亞細胞位置表達蛋白質邊的蛋白質網絡。S-PIN在本發 明中用無向圖G(V,E)表示,V= {vl,. . .,vn}蛋白質集合,£ d/_ x Z表示蛋白質相互作用邊 的集合。
[0034] 2.使用基因表達信息精煉化蛋白質相互作用網絡。
[0035]基因有條件有時序地開啟或關閉表達,因此不同條件、細胞周期不同階段的基因 表達數據能夠反映蛋白質出現的動態性。蛋白質在它的生命周期里并不總是處于活性狀 態,只有在處于所需的特殊區間或者其他蛋白質形成復合物時才處于活性狀態。而現有的 基因表達數據存在噪聲,會降低篩選的品質。首先將基因表達數據分為兩類:時間相關與時 間不相關,時間相關的基因表達數據我們認為是可信的,而時間不相關的數據且均值低于 0.5則認為數據不可信。同時,因為動態表達水平可以間接地反映蛋白質活性的動態性。想 獲得所有時刻的基因表達譜在實際中是不可行的,因此一個細胞周期的基因表達數據通常 只包含細胞周期中m個時刻點,相鄰時刻點間隔一定的時間。基于各個基因的表達特性,采 用3-sigma方法為每個基因對應的基因產物計算活性閾值,從而確定蛋白質在細胞周期的 哪些時刻處于活性狀態。對于每一個基因 V,它在不同的時間點i的表達值用EV(v,i)表示,y (v)為1到m時刻表達值的平均值,〇(v)為他的標準差,k為根據時間相關模型與時間不相關 模型的測試檢驗結果,k取值2.5^(4表示曲線的波動性。如果標準差越大,F(v)越小。
[0040]在靜態蛋白質相互作用網絡中
相互作用的兩個蛋白質在動態網絡中并不一定總 是在相互作用,因為它們可能不是一直同時表達的。構建動態網絡的目的是為了反應蛋白 質之間的動態相互作用,它們會隨著時間與條件的變化而變化。動態相互作用是由蛋白質 的活性動力學決定的。如果某個基因的表達值在某個時間點超過了其表達閾值,那么對應 的蛋白質就被視為在該時間點是表達的。對于每一個時間點來說,如果在靜態蛋白質相互 作用網絡中發生相互作用的兩個蛋白質在同一時間點都是表達的,那么在該時間點蛋白質 及其相互作用就構成了動態蛋白質相互作用網絡TS-PIN的一部分,不斷重復這個過程直至 創建TS-PIN網絡。
[0041] 3.使用亞細胞定位數據精煉化蛋白質相互作用網絡。
[0042] 蛋白質要實現其功能,必須要處于對應的細胞器中。COMPARTMENT數據庫中有11種 關于酵母的亞細胞定位信息,分別為:cytoskeleton,golgi apparatus,cytosol, endosome,mitochondrion,plasma membrane,nucleus,extracellular space,vacuole, endoplasmic ,reticulum,p eroxisome。對于一個蛋白質u,他的亞細胞定位信息可以看作 一個1~維向量(>=11)兒(11) = (11,"_山,"_11〇。蛋白質11處于第;[個亞細胞位置表示為11(11) =1。對于一條邊(11,¥)££,只有當存在某個亞細胞位置;[使得11(11) = 11(>) = 1時,該對相互 作用才可能發生,否則,邊(u,v)GE就要從集合E中被移除。
[0043]以下為TS-PIN網絡構建方法的算法描述。
[0044]輸入:靜態網絡S-PIN,基因表達數據,亞細胞定位數據
[0045] 輸出:TS-PIN
[0046] 步驟1:利用時間相關模型與時間不相關模型過濾基因表達數據;
[0047] 步驟2:對每一個蛋白質v計算其活性閾值Active_th(v),如果其對應的基因表達 值大于活性閾值,即EV(v, i)>Active_th(v),則ti(v) = l;
[0048] 步驟3:對S-PIN中的每條邊e(u,v),如果邊e連接的兩個蛋白質節點u和v在所有時 間點都不同時滿足活性的判決條件,即在所有的時刻都不存在EV(u,i)>Acti ve_th(u)和EV (V,i)>Active_th(v)同時成立,則將邊e(u,v)從S-PIN中移除;
[0049] 步驟4:對S-PIN中的每條邊e(u,v),如果邊e連接的兩個蛋白質節點u和v不出現在 任意一個共同的亞細胞位置中,則將邊e(u,v)從S-PIN中移除;
[0050] 步驟5:輸出過濾后的S-PIN的邊集E,即為精煉后的蛋白質網絡TS-PIN。
[00511具體算法如下:
[0052] Algorithm:Construction of TS-PIN
[0053] Input:S-PIN,gene expression profiles,subcellular location information
[0054] Output:TS-PIN
[0055] Step 1:filter noisy genes in gene expression profiles based on time-dependent model and time-independent model Respectively.
[0056] Step 2: for each gene v do calculate ils active thre'-hold AciimjMv) ibr /=! lo m do iT EV{\\ i)> Active_{h{v)
[0057] r,(y)-l end if' end for end for
[0058] Step 3:for each edge(u,v)^E in S-PIN do for /= 1 lo m do iflherc docs not exist a lime point / which salisfics f,(//)A/L/(v,)=l remove edge (//. v) Irom E
[0059] end if end for end (v)r
[0060] Step 4:for each edge(u,v)^E do for /=! lo /? do
[0061 ] i f there docs not exist a subGcIlular location / which satisfies li(u)= 1 arid //(v*)=l remove edge (//, v) !rom E end if
[0062] end for end Ibr
[0063] Step 5:Output edge set E
[0064] 4.對精煉后的網絡(TS-PIN)的有效性驗證D
[0065]為了評估TS-PIN方法的有效性,將TS-PIN網絡方法分別與幾種代表性的中心性方 法結合,如0(:,8(:,(:(:,5(^(:,1(:,1^(:川(:,8?^以及01?€,計算酵母所有蛋白質的關鍵性綜合得 分,按降序排序;另外,只用按中心性方法對酵母的蛋白質相互作用網絡中的蛋白質進行關 鍵性打分,按降序排序,作為對照試驗。酵母的蛋白質相互作用網絡來自于DIP數據庫2010 年10月的數據,包含有5093個蛋白質,24743條邊。酵母蛋白質亞細胞定位注釋信息來自 COMPARTMENTS數據庫,將DIP數據庫里的酵母蛋白質相互作用網絡分別映射到每個亞細胞 定位,一共構建了酵母的11個蛋白質亞細胞定位相互作用子網。來源于MIPS,SGD,DEG和 SGDP四個數據庫的1167個關鍵蛋白質作為標準集,用來比較預測結果的準確性。
[0066] a.與六種中心性方法比較。
[0067] 選取降序排列在前100,200,300,400,500,600的蛋白質作為候選關鍵蛋白質。再 依據已知的關鍵蛋白質集合,對比預測結果^預測正確的蛋白質數量作為評價各個方法性 能的標準。這種評價方法已經被以前的研究廣泛采用。本文選擇不同比例的具有較高排序 得分的蛋白質作為預測的關鍵蛋白質,然后比較TS-PIN網絡和S-PIN靜態網絡以及NF-APIN 動態網絡上使用中心方法識別關鍵蛋白質的數量。
[0068]圖1表明,相比于其他網絡的預測結果,TS-PIN的網絡極大提高了正確預測的關鍵 蛋白質數量。以DC為例,在前100個候選關鍵蛋白中,TS-PIN與S-PIN相比,TS-PIN將DC的準 確率提升了54.35% ;與NF-APIN相比,TS-PIN將DC的準確率提升了26.7 %。對于EC和SC,TS-PIN在前100個候選基因中的準確率比S-PIN提升了90%;即使是與NF-APIN相比,EC的預測 準確率也提升了29.0%,SC的預測準確率提升了36.84%在S-PIN上表現最差,體現出高 敏感性。BN在TS-PIN上的準確率比AF-APIN上提升了 54.28%,比3-?預上的準確性提升了 71.43% 1AC與NC因為考慮過假陽性因素,所以比其他8鐘算法效果更好,但是即便如此, TS-PIN比S-PIN依然有10%的準確度提升。圖1的結果表明,對蛋白質網絡進行有效的精煉 能夠提高基于網絡的關鍵蛋白質預測方法預測關鍵蛋白質的準確率。
[0069 ] b.基于jackkn i f e曲線比較實驗結果。
[0070] 本文用jackknife方法來進一步驗證TS-PIN能提升蛋白質相互作用網絡的關鍵蛋 白預測性能。在圖2中,X軸代表的是代表每種方法的候選蛋白質個數,Y軸代表每種方法中 候選蛋白質中是真正關鍵蛋白的數量。從圖2看出,10種依賴網絡的算法,在TS-PIN上的預 測結果都好于S-PIN和NF-APIN。
[0071]為了進一步研究為何精煉化的網絡能更準確地預測關鍵蛋白,我們研究了上述10 種算法在TS-PIN,NF-APIN和S-PIN上預測到的排在前100位的不同的蛋白質,計算它們的 重疊預測和差異預測。如圖3(a)和3(b) JS-PIN中預測到的關鍵蛋白明顯高很多,以DC為 例,TS-PIN與S-PIN預測的候選關鍵蛋白的交集為17個,也就是說有83個TS-PIN的候選蛋白 與S-PIN網絡不一樣。在83個TS-PIN中的候選蛋白質中,71.08%個蛋白質是真正的關鍵蛋 白質,而S-PIN中的候選蛋白質,只有40.96%是真正的關鍵蛋白質。以LAC為例,LAC在TS-PIN和S-PIN計算出來的候選蛋白質交疊最多,前100個候選關鍵蛋白中有33個相同。在67個 不同的候選關鍵蛋白中,TS-PIN的預測結果有82.35%是真正的關鍵蛋白,S-PIN中只有 64.71%個是真正的關鍵蛋白質。其余的8種算法也是類似的結果。圖3(b)說明的是NF-APIN 與TS-PIN預測到的真正關鍵蛋白質的對比。
[0072] c.基于ACC方法比較實驗結果。
[0073]關鍵蛋白預測的實驗分析經常使用"排序一篩選"原則來對各種測度參數的識別 結果進行比較。真陽性(true p〇sitives,TP):關鍵蛋白質被正確地預測為關鍵蛋白質;假 陽性(false positives,FP):非關鍵蛋白質被錯誤地預測為關鍵蛋白質;真陰性(true negatives,TN):非關鍵蛋白質被正確地預測為非關鍵蛋白質;假陰性(false negatives, FN):關鍵蛋白質被錯誤地預測為非關鍵蛋白質。在此基礎上,我們給出敏感度、特異性、陽 性預測值、陰性預測值、F-測度和準確率等六個醫學檢驗中的統計學指標的定義。
[0074] 敏感度(Sensitivity,SN):關鍵蛋白質被正確地預測的比例。
[0076]特異性(SpeCificity,SP):非關鍵蛋白質被正確地排除掉的比例。
[0078] 陽性預測值(Positive Predictive Value,PPV):選出的蛋白質中被正確地預測 為關鍵蛋白質的比例。
[0080] 陰性預測值(Negative Predictive Value,NPV):排除的蛋白質中被正確預測為 非關鍵蛋白質的比例。
[0082] F-測度(F-measure,F):敏感度和陽性預測值的調和平均值。
準確率(Ac curacy,ACC):所有預測結果中正確結果的比例。
[0085] 為了進一步評估TS-PIN在關鍵蛋白預測提升的效率,我們引入了敏感度(SN),特 異性(SP),陽性預測值(PPV),陰性預測值(NPV),F-測度(F)和正確率(ACC)六個指標上也對 TS-PIN和NF-APIN以及S-PIN上的10種中心性測度進行了比較。在前期的數據收集和處理過 程中,我們已經知道實DIP20101010數據集里包含1167個關鍵蛋白質。因此,我們認定每種 預測方法排序在前1167的蛋白質為關鍵蛋白質,而將剩余的蛋白質作為非關鍵蛋白質。實 驗結果如表1所示,TS-PIN的10種中心性測度均高于NF-APIN以及S-PIN的10種中心性測度, 從而說明TS-PIN網絡能更好地提升預測準確率,降低了假陽性相互作用對中心性計算造成 的影響。
[0086] 綜上所述,本文所提出的基于基因表達與亞細胞定位信息的蛋白質網絡精煉方法 中,基因表達信息和亞細胞定位信息的合理利用對預測出來的關鍵蛋白質的準確性以及與 已知關鍵蛋白質匹配的敏感度和特異性等方面具有重要作用。
[0087] 表1方法LSED和6種拓撲中心性方法基于jackknife方法評價的比較
【主權項】
1. 基于基因表達與亞細胞定位信息的蛋白質網絡精煉方法,其特征在于,具體按照以 下步驟進行: 步驟1,使用生物相關數據集,包括蛋白質相互作用網絡、時間序列下的基因表達數據、 蛋白質亞細胞位置信息; 步驟2,利用時間相關模型與時間不相關模型過濾時間序列下的基因表達數據;對每一 個蛋白質v計算其活性閾值Active_th(v),如果該蛋白質v在時刻i對應的基因表達值大于 活性閾值,即EV(V,i)>Acti Ve_th(V),則表明蛋白質v在時刻i是活躍的,記作ti(v) = l; 步驟3,對S-PIN中的每條邊e(u,v),如果邊e連接的兩個蛋白質節點u和v在所有時間點 都不同時滿足活性的判決條件,即在所有的時刻都不存在EV(u,i)>Active_th(u)和EV(v, ;〇>厶(:1:;^6_1:11(>)同時成立,則將邊6(11,¥)從3-?預中移除; 對S-PIN中的每條邊e(u,v),如果邊e連接的兩個蛋白質節點u和v不出現在任意一個共 同的亞細胞位置中,則將邊e(u,v)從S-PIN中移除; 輸出過濾后的S-PIN的邊集E,即為精煉后的蛋白質網絡TS-PIN。2. 根據權利要求1所述的基于基因表達與亞細胞定位信息的蛋白質網絡精煉方法,其 特征在于,具體按照以下步驟進行: 步驟1,使用生物相關數據集,包括蛋白質相互作用網絡、時間序列下的基因表達數據、 蛋白質亞細胞位置信息; 稱原始的蛋白質相互作用網絡為S-PIN,它包含了在不同時間不同亞細胞位置表達的 蛋白質相互作用邊,S-PIN用無向圖G(V,E)表示,V={vl,. . .,vn}蛋白質集合,.五F表 示蛋白質相互作用邊的集合; 時間序列下的基因表達數據提供了每個蛋白質對應的基因在m個不同時刻對應的表達 水平,對于每一個蛋白質v,它在某個時間點i的表達值用EV(v,i)表示,μ (v)為1到m時刻表 達值的平均值,σ(ν)為他的標準差; 蛋白質亞細胞位置信息提供了每個蛋白質所在的亞細胞位置信息,對于每一個蛋白質 ¥,它的亞細胞定位信息可以看作一個1"維向量^=11兒(>)=(11,...,]^,...11〇,當蛋白質 ν處于第i個亞細胞位置表示為h( ν) = 1; 步驟2,使用基因表達信息精煉化蛋白質相互作用網絡,利用時間相關模型與時間不相 關模型過濾基因表達數據; 首先將基因表達數據分為兩類:時間相關與時間不相關;時間相關的基因表達數據是 可信的,而時間不相關的數據且均值低于〇. 5則認為數據不可信;同時,因為動態表達水平 可以間接地反映蛋白質活性的動態性,想獲得所有時刻的基因表達譜在實際中是不可行 的,因此一個細胞周期的基因表達數據通常只包含細胞周期中m個時刻點,相鄰時刻點間隔 一定的時間;基于各個基因的表達特性,利用3-s i gma方法為每個基因對應的基因產物計算 活性閾值,從而確定蛋白質在細胞周期的哪些時刻處于活性狀態; k為根據時間相關模型與時間不相關模型的測試檢驗結果,k取值2.5;F(v)表示曲線的 波動性,如果標準差越大,F(v)越小; Active_th(v)=y(v)+k〇(v)X(l~F(v)) (1) 如果某個基因的表達值在某個時間點超過了其表達閾值,那么對應的蛋白質就被視為 在該時間點是表達的;對于每一個時間點來說,如果在靜態蛋白質相互作用網絡中發生相 互作用的兩個蛋白質在同一時間點都是表達的,那么在該時間點蛋白質及其相互作用就構 成了動態蛋白質相互作用網絡TS-PIN的一部分,不斷重復這個過程直至創建TS-PIN網絡; 步驟3,使用亞細胞定位數據精煉化蛋白質相互作用網絡;蛋白質要實現其功能,必須要處于對應的細胞器中,COMPARTMENT數據庫中有11種關于 酵母的亞細胞定位信息,分別為:cytoskeleton,golgi apparatus,cytosol,endosome, mitochondrion,plasma membrane,nucleus,extracellular space , vacuo 1e, endoplasmic,reticulum,p eroxisome;對于一條邊(u,v) eE,只有當存在某個亞細胞位置 1使得1心)=]^(>) = 1時,該對相互作用才可能發生,否貝11,邊(11,¥)卽就要從集'部中被移 除。
【文檔編號】G06F19/12GK105930684SQ201610266442
【公開日】2016年9月7日
【申請日】2016年4月26日
【發明人】李敏, 陳驍培, 王建新
【申請人】中南大學