Dna序列的快速并且安全的檢索的制作方法
【技術領域】
[0001] 下文設及基因組序列索引、存儲、檢索、處理、標記W及相關任務,并且設及諸如患 者隱私和醫學數據安全的方面,并且設及諸如醫學診斷、醫學篩查等的應用。盡管說明性參 考脫氧核糖核酸值NA)序列來進行描述,但下文也應用于與諸如DNA序列、核糖核酸(RNA) 序列等的基因組序列結合。
【背景技術】
[0002] DNA測序具有許多已有的和預期的商業、醫學W及科學應用,諸如對癌癥和其他病 癥的診斷、針對遺傳病的醫學篩查、個性化醫學處置、個性化藥物設計、遺傳人類學和進化 研究、譜系學研究、法醫人類鑒定等。在醫學領域中,臨床試驗和全基因組關聯研究是用于 評價某些處置、藥物的有效性,用于確定DNA模式與疾病之間的相關性等的典型工具。在 臨床試驗中,包含在試驗中的合格準則能夠包括帶有具有相似表現型(例如種族)和功能 (例如基因開啟或關閉)的DNA序列的患者。在全基因組關聯研究中,為了進行試驗,選擇 能夠被劃分為案例(例如包含突變的序列)和對照(不包含突變的序列)的DNA序列。在 基因人類學中,目標一般是識別與參考DNA樣本(或參考DNA樣本池)具有強相似性的DNA 樣本,W便追蹤群體遷移,研究隨時間的基因趨異等。運些僅僅為利用DNA序列比較的應用 的說明性范例。
[0003] 人類DNA基因組包括大致3. 2X109個核巧酸,所述核巧酸全體編碼了約30000個 基因。針對動物、植物和其他生物體的基因組能夠有很大差異,但通常是可比較的量級的。 為了找到針對臨床試驗的合適患者,或出于研究的目的DNA序列等,可能需要處理龐大的 數據庫。因此,用于定位相似的DNA序列的快速流程是有利的。眾多問題使運樣的捜索復雜 化,諸如DNA基因組的絕對規模W及通過實驗采集的DNA序列的有時片段的性質,所述通過 實驗采集的DNA序列能夠包括間隙、比對錯誤、總序列長度上的差異、各種類型的噪聲等。
[0004] 當設及人類DNA時,另外需要考慮的是對象隱私。DNA序列編碼整個遺傳記錄,并 且能夠掲示醫學或個人敏感信息,諸如針對特定疾病的風險傾向、血統信息等。DNA序列也 是人類的唯一標識符(除了同卵,即同卵雙胞胎W外)。相似的考慮能夠出現在處理諸如賽 馬、農作物等的有商業價值的生物體的非人類基因組序列數據中。2008年的遺傳基因非歧 視法案(GINA)中說明了關于對運樣的信息的控制的關屯、,該法案旨在禁止醫療保險公司 和雇主在美國基于從個體的DNA獲得的健康信息的歧視。然而,GINA并未覆蓋人壽保險、殘 疾保險和長期護理保險。DNA序列還牽設與其他類型的個人醫學數據比較的獨特考慮。人 類基因組遠沒有被完全理解,并且因此存在針對用于從DNA提取新的個人敏感信息的新技 術的持續潛能。而且,不同于其他醫學信息,DNA序列不能被匿名,因為它們本身是標識符。 因此,應優選地W加強數據安全的方式進行DNA匹配。
[0005] 下文預期了克服上述限制及其他限制的改進的裝置和方法。
【發明內容】
[0006] 根據一個說明性的方面,一種非暫態存儲介質,其存儲能夠由電子數據處理設備 運行的指令,W執行包括W下的方法:生成序列索引,所述序列索引包括針對被存儲在數據 庫中的DNA或RNA序列的序列模型,所述生成包括計算作為有限內存樹源模型的針對被存 儲在所述數據庫中的每個DNA或RNA序列的所述序列模型和針對所述有限內存樹源模型的 參數;并且基于所述序列模型到查詢DNA或RNA序列的擬合的結果,來將被存儲在所述數據 庫中的一個或多個DNA或RNA序列識別為最相似于所述查詢DNA或RNA序列。
[0007] 根據另一說明性的方面,一種方法,包括:生成序列索引,所述序列索引包括針對 被存儲在數據庫中的DNA或RNA序列的上下文樹加權(CTW)模型(&,?s、,其中,Sx指代 針對所述DM或RNA序列X的上下文樹模型并且%指代所述上下文樹模型S,的參數;并 且基于所述CTW模型{&、?、}到查詢dm或RNA序列y的擬合,來將被存儲在所述數據庫 中的一個或多個DNA或RNA序列識別為最相似于所述查詢DNA或RNA序列y。所述生成和 所述識別由電子數據處理設備來適合地執行。
[0008] 根據另一說明性的方面,一種裝置包括電子數據處理設備,所述電子數據處理設 備被編程為執行包括W下的方法:檢索來自序列索引的序列模型,所述序列模型對被存儲 在數據庫中的DNA或RNA序列進行建模,針對被存儲在所述數據庫中的每個DNA或RNA序 列的所檢索的序列模型包括有限內存樹源模型和針對所述有限內存樹源模型的參數;并且 基于所檢索的序列模型到查詢DNA或RNA序列的擬合,來將被存儲在所述數據庫中的一個 或多個DNA或RNA序列識別為最相似于所述查詢DNA或RNA序列。
[0009] 一個優點在于提供了對基因組序列的快速比較。
[0010] 另一優點在于提供了用于W在保持匿名的同時提供快速比較的方式索引基因組 序列的索引方法。
[0011] 另一優點在于,提供了用于使用包括預先計算的有限內存樹源模型和模型參數的 索引記錄來索引基因組序列的索引方法,從而便于查詢基因組序列與所述索引記錄的快速 比較。
[0012] 對于本領域普通技術人員而言在閱讀了W下詳細描述后,許多額外的優點和益處 將變得顯而易見。
【附圖說明】
[0013] 本發明可W采取各種部件和各部件的布置的形式,并且可W采取各種過程操作和 各過程操作的安排的形式。附圖僅出于圖示優選實施例的目的,而不應被解釋為對本發明 的限制。
[0014] 圖1圖解地示出了用于存儲和索引DNA序列的系統。
[001引圖2圖解地示出了用于捜索由圖1的系統生成的DNA序列索引W識別與查詢DNA序列相似的DNA序列的系統。
[0016] 圖3示出了來自說明性實際執行的DNA檢索操作的互信息的估計的表,其中,由封 閉方框指示針對每個查詢染色體的最大互信息。
【具體實施方式】
[0017] 本文中公開了一種用于使用有限內存樹源模型來索引DM序列(或者更一般地, 基因組序列,例如DNA序列、RNA序列等)的方法,有限內存樹源模型諸如(例如固定階或 可變階)馬爾科夫模型、上下文樹加權(CTW)模型(本文中使用的說明性方法)等。然后 構建針對DNA序列的索引記錄,包括模型和參數。然后,與通過使用CTW對查詢DNA序列的 直接建模所估計的代碼字(codeword)長度相比較,將相同有限內存樹模型用于查詢DNA序 列所獲得的估計的代碼字長度充當用于量化地評估查詢DNA序列和索引DNA序列的相似性 的比較度量。例如,代碼字長度比較是使用諸如賭或信息增益(IG)或相似手段的互信息度 量來計算的。
[0018] 該方法保護了DNA序列被存儲在數據庫中的患者的隱私,因為僅有限內存樹源模 型和參數是用明碼存儲的,即為未加密的。有限長度子序列的使用確保了患者隱私,因為得 到的模型和參數包含遠少于原始dm序列的信息,并且有限內存樹源模型的輸出實際上固 有地為統計性的。捜索是快速的,因為針對索引DNA序列(的集合)的模型及其參數是預 先計算的。由于互信息被用作檢索準則,因此所公開的相似性度量也比諸如編輯或設置距 離的其他度量更為靈活且更具表現性。如本文中公開的,互信息適合地基于通用壓縮方法 來估計,所述通用壓縮方法為順序的并且探查基因組序列的瞬時結構。
[0019] 參考圖1,描述了用于存儲并索引DNA序列的說明性系統。要被索引DNA序列 10(此處被指代為xT,其中,上標T指代DNA序列長度)被處理W生成DNA序列10的代表性 有限內存樹源模型。在說明性范例中,有限內存樹源模型為使用CTW方法計算的上下文樹 加權(CTW)模型。被應用到DNA序列xT的建模模塊12的輸出14為有限內存樹源模型及 其參數。在說明性CTW建模中,上下文樹模型(即上下文或子序列)此處被指代為Sy(或 者更簡單地為S,其中,被建模的DNA序列xT的身份是顯而易見的),并且參數包括條件概 率,此處被指代為?& (或者更簡單地為?S,其中,被建模的DM序列xT的身份是顯而易 見的)。優選地,經由匿名注釋器16來提供描述性注釋。在其中患者隱私重要的應用中,注 釋應當是匿名的,但應當構成對DNA序列10的源的相關描述,例如通過人口統計信息、臨床 信息等來描述源。如果應用不要求匿名,則注釋器16可W在注釋中包括對象標識符。索引 記錄格式器18構建包括模型和參數14W及注釋的索引記錄,并且索引記錄被存儲在數據 庫20中,所述數據庫諸如為電子健康記錄巧HR)、出于學術目的采用的DNA存儲庫索引等。
[0020]索引記錄包括模型和參數14,例如針對DNA序列xT被表示為。運是對 DNA序列xT的有表現力但近似的表示,并且不足W識別DNA序列XT從其被導出的對象。因 此,DNA序列適當安全的格式被單獨地存儲。為此,加密模塊24-一其在圖1的說明 性實施例中采用遵守高級加密標準的加密算法(AES加密)--對DNA序列10進行加密。 加密模塊執行安全加密,并且任選地還在單獨的操作中或經由組合的壓縮/加密算法整體 地執