中文字幕无码日韩视频无码三区

基于圖表示學習的細胞-染色質交互共嵌入方法

文檔序號:39775223發布日期:2024-10-25 13:56閱讀:40來源(yuan):國知局
本發明屬于信息處理,更進一步涉及生物信息數據處理中的一種基于圖表示學習的細胞-染色質交互共嵌入方法。本發明可用于三維基因組的細胞嵌入和特異染色質交互識別。
背景技術
::1、核基因組包含了定義細胞、組織和生物體表型所需的大部分遺傳信息,它們在三維空間中被復雜地組織起來,這種三維基因組結構對于dna轉錄、基因表達和基因組功能至關重要。隨著全基因組染色質相互作用測序方法的發展,以high-throughput?chromosomeconformation?capture(hi-c)為代表的高通量方法可以準確得到高分辨率的三維基因組圖譜,揭示了染色質在不同尺度上的生物結構。細胞嵌入是將單個細胞映射到低維向量空間的技術,旨在捕捉細胞之間的相似性和差異性。細胞嵌入在單細胞研究中被廣泛應用,具有以下幾個重要的應用和優勢:數據可視化、細胞聚類、子類發現。不同細胞類型和不同發育時間的細胞具有差異的染色質交互,這可能與基因表達、轉錄活動有關,將細胞和染色質交互共同嵌入到一個特征空間有重要意義。2、zhou等人在其發表的論文“robust?single-cell?hi-c?clustering?byconvolution-and?random-walk–based?imputation”(proceedings?of?the?nationalacademy?of?sciences.2019may20;116(28):14011-14018.)中提出了一種利用帶重啟的隨機游走進行細胞補全和嵌入的方法。該方法的實現步驟是,對hi-c交互圖譜先做平滑卷積,再使用帶重啟的隨機游走計算bin之間的相似度作為交互強度,保留最大的前20%的交互強度。然后將特征展平為一維向量,對整個數據集做principal?component?analysis(pca)降維,得到最終的細胞嵌入。該方法存在兩點不足之處在于,其一,數據補全步驟需要巨量的運行時間,在大規模數據集上難以應用;其二,細胞嵌入依賴pca降維,不能直接刻畫細胞間的關系。3、zhang等人在其發表的論文“ultrafast?and?interpretable?single-cell?3dgenome?analysis?with?fast-higashi”(cell?systems.2022oct?19;13(10):798-807.)中提出了一種利用張量分解和帶重啟的部分隨機游走進行細胞嵌入和元交互識別的方法。該方法的實現步驟是,將來自不同染色體的單細胞hi-c圖譜表示為多個三維張量。然后利用推廣張量分解模型core-parafac2,同時對這些僅共享一個維度的三維張量進行建模。分解出來的其中一個矩陣被當作細胞嵌入向量矩陣,另一個矩陣作為其識別的元交互。同時使用部分隨機游走對稀疏的單細胞hi-c圖譜進行補全,提高模型的性能。該方法存在兩點不足之處在于,其一,雖然使用了部分隨機游走以減少單次訓練的數據量,但是仍然需要分析完整的hi-c圖譜;其二,提取的元交互以細胞類型為單位,不能精確到單個細胞,難以分析單細胞之間的異質性。4、綜上所述,以上兩種方法由于設計結構和張量分解模型的限制,均不能識別細胞特異性的染色質交互。并且由于這些方法均需要分析所有三維基因組中的數據,其運行時間在高分辨率的情況下較長。技術實現思路1、本發明的目的是針對上述現有技術的不足,提供一種基于單細胞三維基因組數據的細胞-染色質交互共嵌入方法。用于解決現有方法不能識別細胞特異性染色質交互和大規模數據集上運行時間較長的問題。2、實現本發明目的的思路是:本發明通過使用z-score標準化和基于鄰居的染色質交互過濾來提取共有顯著染色質交互。由于細胞中的大多數染色質交互都不具有生物意義,提取的共有顯著染色質交互更能體現細胞間的異質性,并且可以使用更少的數據量表示一個細胞的特征,由此大大減少了細胞-染色質交互共嵌入方法運行需要的時間。本發明通過構建異質圖和設計異質圖自編碼器網絡,學習重構鄰接矩陣,得到異質圖中每個節點的低維表示,使得不同狀態的細胞具有可區分的特征,并且正確建模細胞與染色質交互的關系。由此解決了現有方法不能識別細胞特異性染色質交互的問題。本發明使用softmax轉換從而可以直觀地識別細胞特異性的染色質交互。3、實現本發明目的的技術方案如下:4、步驟1,對單細胞三維基因組數據依次進行預處理、標準化;5、步驟2,從標準化后的數據中提取細胞間共有顯著染色質交互;6、步驟3,構建包含細胞-染色質交互的異質圖;7、步驟4,訓練異質圖自編碼器網絡;8、步驟5,將異質圖及其節點屬性輸入到訓練好的異質圖自編碼器網絡中,得到細胞節點和染色質交互節點的共嵌入向量;9、步驟6,對異質圖中的染色質交互節點嵌入做softmax轉換。10、本發明與現有技術相比,具有如下優點:11、第一,本發明通過提取細胞間的共有顯著染色質交互,挖掘底層生物特征,使用更少的數據量作為細胞表示。克服現有技術需要分析完整hi-c圖譜的不足,使得本發明具有運行時間快,可以應用在大規模數據集上的優點。12、第二,本發明通過異質圖自編碼器網絡,訓練節點在低維特征空間上的嵌入,正確建模單個細胞與染色質交互的關系,克服現有技術只能識別細胞類型的元交互的不足,使得本發明具有可以識別單細胞特異性染色質交互的優點。技術特征:1.一種基于圖表示學習的細胞-染色質交互共嵌入方法,其特征在于,提取細胞間的共有顯著染色質交互,通過異質圖自編碼器網絡得到節點在低維空間的共嵌入表示,該嵌入方法的步驟如下:2.根據權利要求1所述的基于圖表示學習的細胞-染色質交互共嵌入方法,其特征在于,步驟1中所述預處理的步驟如下:3.根據權利要求1所述的基于圖表示學習的細胞-染色質交互共嵌入方法,其特征在于,步驟1中所述標準化的步驟如下:4.根據權利要求1所述的基于圖表示學習的細胞-染色質交互共嵌入方法,其特征在于,步驟2中所述從標準化后的數據中提取細胞間共有顯著染色質交互的步驟如下:5.根據權利要求4所述的基于圖表示學習的細胞-染色質交互共嵌入方法,其特征在于,步驟3中所述構建包含細胞-染色質交互的異質圖的步驟如下:6.根據權利要求5所述的基于圖表示學習的細胞-染色質交互共嵌入方法,其特征在于,所述在細胞節點和染色質交互節點之間做屬性傳播是由下式實現的:7.根據權利要求1所述的基于圖表示學習的細胞-染色質交互共嵌入方法,其特征在于,步驟4中所述異質圖自編碼器網絡的結構依次由第一圖卷積模塊、第二圖卷積模塊、線性層串聯組成;將線性層的輸入維度、輸出維度分別設置為128、64;所述第一、第二圖卷積模塊的結構相同,均由異質圖卷積層、線性層、激活層依次串聯組成;將第一、第二圖卷積模塊中的圖卷積層的輸出維度分別設置為256、128,線性層的輸入維度和輸出維度分別設置為256*256、128*128,激活層使用leakyrelu函數實現。8.根據權利要求1所述的基于圖表示學習的細胞-染色質交互共嵌入方法,其特征在于,步驟4中所述訓練異質圖自編碼器網絡的步驟如下:9.根據權利要求8所述的基于圖表示學習的細胞-染色質交互共嵌入方法,其特征在于,所述二元交叉熵損失函數如下:10.根據權利要求1所述的基于圖表示學習的細胞-染色質交互共嵌入方法,其特征在于,步驟6中所述對異質圖中的染色質交互節點嵌入做softmax轉換的步驟如下:技術總結本發明公開了一種基于圖表示學習的細胞?染色質交互共嵌入方法,解決現有技術不能識別細胞特異性的染色質交互,以及運行時間在高分辨率的情況下較長的問題。本發明提取細胞間共有顯著染色質交互,構建包含細胞?染色質交互的異質圖,利用訓練好的異質圖自編碼器網絡對節點進行嵌入,對染色質交互節點嵌入做Softmax轉換。本發明通過提取細胞間的共有顯著染色質交互,挖掘底層生物特征,使用更少的數據量作為細胞表示,加快模型運行速度。通過異質圖自編碼器網絡,訓練節點在低維特征空間上的嵌入,正確建模細胞與染色質交互的關系,識別細胞特異性的染色質交互。技術研發人員:高琳,孫銘徽,葉育森受保護的技術使用者:西安電子科技大學技術研發日:技術公布日:2024/10/24
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1