用于識別疾病誘導的突變的方法和系統的制作方法
【專利摘要】本發明包含通過制備多維參考序列構建體來識別患病誘導的突變的方法和系統,多維參考序列構建體說明個體、不同疾病以及那些疾病的不同階段之間的變異。在被構建后,這些參考序列構建體可以用于比對對應于疑似患有疾病或已經患有該疾病并且處于疑似緩解的患者的遺傳樣本的序列讀數。這些參考序列構建體還提供對該疾病的遺傳進展的深刻理解。
【專利說明】
用于識別疾病誘導的突變的方法和系統
[0001] 相關申請
[0002] 本申請主張2013年10月18日申請的美國專利申請第61/892,670號的優先權,其以 全文引用的方式并入本文中。
技術領域
[0003] 本發明涉及用于識別如由癌癥引起的疾病誘導的突變的方法和系統。本發明另外 提供用于識別可能因晚期疾病,如轉移性癌癥所致的突變的方法。
【背景技術】
[0004] 許多疾病由患者的基因序列的遺傳或隨機突變引起。另外,在如癌癥之疾病中,疾 病的晚期可以顯示為患病細胞的基因序列的新變化。因此,日益感興趣的是對例如來自活 組織檢查或自由循環的患病細胞測序,確定疾病的類型或階段。因此,已經經受疾病治療的 患者可以對新的活組織檢查樣本測序以監測疾病復發和/或進展。此類監測允許在復發的 情況下早期干預,并且還在未檢測到變化時避免不必要的治療。
[0005] 雖然存在許多可以用遺傳篩選劃定類型和追蹤的疾病,癌癥突變篩選已受到最多 關注。在一些情況下,癌癥的類型可以因為一個指示性突變(如BRCA1)而立即被識別。然而, 在大多數情況下,癌癥分型包括發現并且分析來自患者的幾個序列。因為這些樣本來源于 同一患者,所以樣本不是彼此獨立的,而實際上在發育和結構上是相關的。此外,在大多數 情況下,腫瘤的精確分型需要三個序列的知識:受試者的健康序列(如在身體的非癌部分中 發現)、主要癌克隆的序列以及次要克隆的序列(其通常可以是轉移性的)。
[0006] 由于基因測序的最新進展,對幾個樣本測序以獲得完整的疾病圖像的前景是不太 令人畏懼的。下一代測序(例如,全轉錄組鳥槍測序、焦磷酸測序、離子半導體測序、合成測 序)可以在僅幾天內產生覆蓋全基因組的數百萬讀數。為了實現此產出量,NGS測序在較小 核酸序列上使用大規模并行化,這些較小核酸序列一起構成大量遺傳信息,例如染色體或 基因組。從遺傳樣本開始,核酸(例如,DNA)以極快速度分裂、擴增并且讀取。在產生讀數后, 用計算機比對讀數與參考基因組(例如,GRCh37),產生較長組合序列,其被稱為重疊群。因 為來自下一代測序儀的序列數據通常包括一起表示目標序列的總數的數百萬較短序列,所 以比對讀數是復雜并且計算上昂貴的。另外,為了使由隨機測序誤差(即,不正確的測序機 輸出)引起的序列失真減到最少,對所探測的序列的每個部分多次(例如,2次到100次或更 多次)測序,以使任何隨機測序誤差對所產生的最終比對和輸出序列的影響減到最小。
[0007] 在收集對應于所有核酸讀數的所有數據并且比對讀數與參考之后,組合讀數并且 與參考以及彼此進行比較,確定樣本之間的關系。此分析的工作流程形象地展示于圖1中。 每個組合的讀數通常與參考進行比較,接著將組合序列與參考之間的變異編目于被稱為變 異體文件的文件中,該文件可以是幾個接受的格式之一。這些變異體文件隨后可以進行彼 此比較,以便確定遺傳物質在不同疾病階段的細胞之間的變化如何不同。變異體文件還可 以是稍后與患者的新樣本比較以篩選復發或疾病進展的基礎。
[0008] 圖1中所說明的工作流程具有幾個缺點。因為參考序列與患者的樣本的序列之間 存在數百萬遺傳差異,通常很難準確找出非患病組織與患病組織之間的主要差異。理論上, 此問題可以通過直接比較患病樣本與非患病樣本的序列來避免,然而,使用參考序列用于 原始比對使下游分析"受影響"。通常,患者的樣本中未與參考比對的某些部分被視為變異 體文件中的等效突變,盡管其實際上是不等效的。此外,參考序列與患者的樣本之間以及患 者的樣本本身之間的結構變異導致相同(或類似)突變具有不同索引的變異體文件。尤其在 復發篩選的情況下,缺乏穩定索引使得難以識別新的較小突變。
[0009] 通常,通過聚集兩個線性串序列信息(其中一個是標準參考)之間的成對比對來構 建序列比對。作為比對的實例,可以將兩個字符串SI (SEQ ID NO. 15:AGCTACGTACACTACC)和 S2(SEQ ID NO. 16:AGCTATCGTACTAGC)針對彼此進行比對。S1通常對應于讀數,并且S2對應 于參考序列的一部分。S1和S2可以相對于彼此由取代、缺失以及插入構成。通常,關于將字 符串S1轉化為字符串S2來定義術語:當S2中的字母或序列被S1中相同長度的不同字母或序 列置換時發生取代,當S2中的字母或序列在S1的對應部分中"跳過"時發生缺失,并且當在 S1中出現S2中相鄰的兩個位置之間的字母或序列時發生插入。舉例來說,兩個序列S1和S2 可以如下比對。以下比對呈現十三處匹配,一處缺失長度一,一處插入長度二以及一處取 代:
[0010] (Sl)AGCTA-CGTACACTACC(SEQ ID NO.15)
[0011] (S2)AGCTATCGTAC-TAGC(SEQ ID NO. 16)
[0012] 所屬領域的技術人員將了解,存在序列比對的精確算法和近似算法。精確算法將 找到最高評分的比對,但是在計算上會昂貴。兩種最熟知的精確算法是尼德曼_翁施法 (Need leman-Wunsch)(分子生物學雜志(J Mol Biol) ,48 (3): 443-453,1970)和史密斯-沃 特曼法(Smith-Waterman)(分子生物學雜志,147 (1):195_ 197,1981;數學進展(Adv ? in Math. )20(3) ,367-387,1976)。后藤(Gotoh)(分子生物學雜志,162(3) ,705-708,1982)對史 密斯-沃特曼法的進一步改進將計算時間從〇(m2n)減少到0(mn),其中m和n是比較的序列大 小,該改進更能改善并行處理。在生物信息學領域,正是后藤的改良算法通常被稱作史密 斯-沃特曼算法。史密斯-沃特曼方法用于比對較大序列集與較大參考序列,因為可更普遍 并且更便宜地獲得并行計算資源。參看例如,在http : //aws . amazon . com可獲得的 Amazon, com的云計算資源。所有上述期刊文章都以全文引用的方式并入本文中。
[0013]史密斯-沃特曼(SW)算法通過獎勵序列中的堿基之間的重疊并且處罰序列之間的 空隙來比對線性序列。史密斯-沃特曼法還與尼德曼-翁施法不同,不同之處在于SW不要求 短序列跨越描述長序列的字母字符串。也就是說,SW不假定一個序列是另一個序列的全部 內容的讀數。此外,因為SW并不一定找到橫跨字符串的全長的比對,所以局部比對可以在兩 個序列內的任何地方開始和結束。
[0014] 根據以下方程式(1),對于表示長度n和m的兩個字符串的nXm矩陣H,易于表示SW 算法:
[0015] Hk〇 = H〇i = 0(對于0<k<n并且0< 1 <m)(l)
[0016] Hij =max{Hi-1, j-l+s(ai,bj),Hi-1, j-Win,Hi, j-1-Wdei,0}
[0017] (對于1 < i 并且1 <m)
[0018]在上述方程式中,s(ai,bj)表示匹配獎分(當ai = bj時)或錯配罰分(當ai矣bj時), 并且對插入和缺失分別給出罰分Win和Wdd。在大多數情況下,所得矩陣具有為零的許多元 素。此表示使得更容易在矩陣中從高到低、從右到左回溯,因此識別比對。
[0019] 在已經用分數完全填充矩陣后,SW算法執行回溯以確定比對。以矩陣中的最大值 開始,算法將基于三個值中的哪個或Hm)曾用于計算每個單元格的最終最 大值來進行回溯。當達到零時回溯停止。參看例如圖4(B),其不表示現有技術,而是示出回 溯的概念以及在讀取回溯時的對應局部比對。因此,如通過算法確定的"最佳比對"可以含 有超過最小可能數目的插入和缺失,但是將含有遠少于最大可能數目的取代。
[0020] 當以SW或SW-后藤形式應用時,技術使用動態規劃算法來執行分別具有大小m和n 的兩個字符串S和A的局部序列比對。此動態規劃技術采用表或矩陣來保存匹配分數并且避 免對于連續單元格的重新計算。可以相對于序列的字母為字符串的每個元素編索引,也就 是說,如果S是字符串ATCGAA,那么5[1]=六、5[4]=6等。替代將最優比對表示為叫」(上文), 可以將最優比對表示為下文方程式(2)中的B[j,k] :
[0021] B[ j,k]=max(p[ j,k],i[ j,k],d[ j,k],0)(對于0〈j <m、0〈k<n)(2)
[0022] 在以下方程式(3)到(5)中概述最大值函數B[ j,k]的變量參數,其中MISMATCH_ PENALTY、MATCH_B0NUS、INSERT10N_PENALTY、DELET10N_PENALTY 以及OPENI NG_PENALT Y都是 常數,并且除MATCH_B0NUS以外都為負數。匹配變量參數p[j,k]是由以下方程式(3)給出:
[0023] 如果S[ j]關A[k],那么p[ j,k] =max(p[ j-1,k_l],i[ j-1,k_l],d[ j-1,k_l]) + MISMATCH_PENALTY(3)
[0024] 如果S[ j] =A[k],那么為= max(p[ j-1,k-l],i[ j-1,k-l],d[ j-1,k-l] )+MATCH_ BONUS
[0025]插入變量參數i[j,k]是由以下方程式(4)給出:
[0026] i[j,k]=max(p[j-l,k]+0PENING_PENALTY,i[j-l,k],d[j-l,k]+(4)
[0027] OPENING_PENALTY)+INSERTI0N_PENALTY
[0028]并且缺失變量參數d[j,k]是由以下方程式(5)給出:
[0029] d[j,k]= max(p[j,k-1]+0PENING_PENALTY,i[j,k-1] + (5)
[0030] 〇PENING_PENALTY,d[j,k-1])+DELETION_PENALTY
[0031] 對于所有三個變量參數,將[0,0]元素設置為零以確保回溯完成,即,P[0,0] = i
[0,0] =d[0,0] =0〇
[0032]評分參數在某種程度上是任意的,并且可以經調整以實現計算行為。關于DNA的評 分參數設置的一個實例(黃(Huang),第3章:生物序列比較和比對(Bio-Sequence Comparison and Alignment),當前頂端比較分子生物學(Curr Top Comp Mol Biol.)叢 書,馬薩諸塞州劍橋市(Cambridge, Mass.):麻省理工學院出版社(The MIT Press) ,2002) 將是:
[0033] MATCH_B0NUS:10
[0034] MISMATCH_PENALTY:-20
[0035] INSERTI0N_PENALTY:-40
[0036] 0PENING_PENALTY:-10
[0037] DELETI0N_PENALTY:-5
[0038] 以上空隙罰分(INSERTI0N_PENALTY、0PENING_PENALTY)之間的關系有助于限制空 隙開放的數目,即,促進通過設置高于空隙開放成本的空隙插入罰分來歸并空隙。當然, MI SMATCH_PENALTY、MATCH_BONUS、INSERTI ON_PENALTY、OPENING_PENALTY 以及 DELET10N_ PENALTY之間的替代關系是可能的。
[0039]雖然上文所描述的比對方法已經適用于將用下一代測序技術產生的讀數組合,其 是復雜并且耗時的。另外,這些技術不適合于識別不同疾病病況的患病細胞之間的重要細 微差別,這是因為因讀數與共同參考的比對通常掩蓋基因組的小變化所致的不確定性。
【發明內容】
[0040] 本發明提供用于識別由疾病(尤其癌癥)誘導或與疾病(尤其癌癥)相關的突變的 改良的方法和系統。這些方法允許將與疾病的晚期相關的特定變化與較少患病細胞容易地 區分開,因此提供對疾病的突變和進展的大小與位置之間的關系的深刻理解。此深刻理解 可以用于識別其它患者中的疾病進展,并且該關系還提供對稍后從同一患者收集的樣本進 行更快并且更精確分型以監測疾病進展或復發。
[0041] 本發明采用多維參考序列構建體以及允許新序列樣本同時與疾病有關的多個序 列進行比較的比對算法,從而在疾病識別和分型方面提供增加的速度和精確性。此外,本發 明的參考序列構建體以簡單方式容納樣本之間的結構變異、缺失、插入以及多態性,允許跨 越患者的整個染色體或全基因組來組合單個構建體。使用"回顧"型分析,所描述的算法還 可以用于在包含疾病進展的各種狀態的序列元素的多維空間中比對新讀數,提供序列讀數 的更精確比對,同時實現更低錯誤率。或者,本發明的構建體可以用于識別和/或研究具有 類似疾病階段的個體或群體之間的變異。在實施例中,本發明是通過比對序列讀數與跨越 分支點的一連串有向的非循環序列來實施,有向非循環序列說明樣本中的序列變異,包含 插入、缺失以及取代。通常表示為有向非循環圖(DAG)的此類構建體可以從現有可變序列文 件組合,或這些構建體可以使用標準參考作為起始點來重新制造。
[0042]在已經制造序列構建體用于說明不同患病樣本當中的序列變異后,那些構建體可 以用于識別同一個體或在一些情況下其它個體的新樣本中的疾病風險。具體來說,因為序 列構建體的部分可以用二次信息標記,如"轉移性",可以排除比較關于參考基因組的突變 與已知突變的表的后續步驟。因此,僅僅是在與構建體中指示疾病或階段的序列進行比對 時識別樣本的問題。或者,當突變不是已知(即,不呈現于參考序列構建體中)時,將找到比 對,從而可以將變異體識別為新突變。因此,使用此反復過程,有可能比較和/或識別主要與 次要癌癥克隆之間或癌前與癌樣本之間的差異。
[0043]本發明另外包含用于執行本發明方法的系統。在一個實施例中,系統包括處理器 和存儲器的分布式網絡,其能夠將多個序列(即,核酸序列、氨基酸序列)與呈現基因組或基 因組區域中觀測到的變異的參考序列構建體(例如,DAG)進行比較。該系統另外能夠使用有 效比對算法來比對核酸讀數以產生連續序列。因為參考序列構建體壓縮大量冗余信息,并 且因為比對算法如此有效,所以可以使用市售資源在全基因組上標記和組合讀數。該系統 包括多個處理器,處理器同時執行多個讀數與參考序列構建體之間的多個比較。可以累計 比較數據并且提供給醫療服務機構。因為這些比較是計算上易處理的,所以分析序列讀數 將不再呈現NGS測序與患者遺傳風險的有意義論述之間的瓶頸。
【附圖說明】
[0044]圖1描繪用于比對序列讀數與參考序列,識別變異體文件并且隨后比較變異體文 件以確定與疾病類型或疾病進展相關的變異的當前技術發展水平的方法;
[0045 ]圖2描繪表示參考序列中的遺傳變異的有向非循環圖(DAG)的構建體。圖2 (A)展示 起始參考序列和缺失的添加。圖2(B)展不插入和SNP的添加,因此達成用于比對的最終DAG;
[0046] 圖3描繪表示為有向非循環圖的三個變異調用格式(VCF)條目;
[0047] 圖4(A)展示將核酸序列讀數與說明插入事件的構建體以及參考序列進行比對的 圖形表示;
[0048] 圖4(B)展示用于識別核酸序列讀數"ATCGAA"的適當位置的矩陣和回溯;
[0049] 圖5描繪制備參考序列構建體的工作流程,該參考序列構建體說明患者的"正常" 基因組與接受的參考之間的變異,患者的"正常"基因組與對應于患病樣本的患者基因組之 間的變異除外;
[0050] 圖6說明基于參考序列的參考序列構建體、插入不同于參考序列的非患病樣本以 及與癌癥相關的多態性不同于非患病樣本的患病樣本;
[0051] 圖7描繪制備參考序列構建體的工作流程,該參考序列構建體說明患者的"正常" 基因組的主要癌克隆與次要癌克隆之間的變異。次要癌克隆可以導致轉移性疾病;
[0052]圖8描繪制備參考序列構建體的工作流程,該參考序列構建體說明患者的"正常" 基因組的主要癌克隆與幾個次要癌克隆之間的變異;
[0053]圖9描繪制備參考序列構建體的工作流程,該參考序列構建體說明患者的"正常" 基因組的主要癌克隆與幾個次要癌克隆之間的變異;
[0054] 圖10描繪用于并行處理的關聯計算模型;
[0055] 圖11描繪用于并行計算的架構。
【具體實施方式】
[0056] 本發明包含通過制備多維參考序列構建體來識別患病誘導的突變的方法和系統, 多維參考序列構建體說明個體、不同疾病以及該疾病的不同階段之間的變異。在被構建后, 這些參考序列構建體可以用于比對對應于疑似患有疾病或已經患有疾病并且處于疑似緩 解的患者的遺傳樣本的序列讀數。比對后的序列給出關于樣本的性質(例如,具有轉移性性 質)的即時信息。因此,參考序列構建體可以用于監測患者的疾病(如癌癥)的復發或進展。 參考序列構建體還可以用于研究疾病之間和/或疾病病況之間的結構關系。參考序列構建 體可以由先前確定的變異體文件制造,或參考序列構建體可以例如從源自患者的樣本重新 產生。
[0057] 在一些實施例中,參考序列構建體是如下文所描述的有向非循環圖(DAG),然而, 只要構建體被格式化用于比對,參考序列可以是反映物種內的不同生物體的序列中的遺傳 變異性的任何表示。構建體中所呈現的遺傳變異性可以是在個體內的不同組織或細胞之 間。構建體中所呈現的遺傳變異性可以是在不同個體之間或不同生物體之間。構建體中所 呈現的遺傳變異性可以是在處于不同疾病階段的類似組織或細胞之間。
[0058] -般來說,參考序列構建體將包括取樣序列之間相同的部分和不同的部分。因此, 構建體可以被認為具有包括相同序列的位置(即,根據一些規范排序)和包括替代序列的一 些位置,從而反映遺傳變異性。本申請另外公開基于核酸讀數與構建體中的位置的比對來 識別疾病或疾病階段的方法。這些方法廣泛適用于遺傳測序和突變篩選領域。
[0059] 參考序列構建體
[0060] 與使用用以比對的單個參考序列和基因型核酸讀數的現有技術序列比對方法不 同,本發明使用可以說明物種、種群內或甚至單個生物體中不同細胞當中的遺傳序列的變 異性的構建體。遺傳變異的表示可以呈現為有向非循環圖(DAG)(上文所論述)或行列比對 矩陣,并且只要比對算法的參數設置適當(下文論述),這些構建體就可以用于本發明的比 對方法。
[0061] 在本發明的優選實施例中,構建體是有向非循環圖(DAG),即具有方向并且具有非 循環路徑。(也就是說,一條序列路徑無法多次穿過參考構建體上的一個位置。)在DAG中,序 列中的遺傳變異表示為替代節點。節點可以是保守序列的一個部分或基因或簡單地是核 酸。貫穿構建體的不同可能路徑表示已知的遺傳變異。DAG可以被構建用于生物體的全基因 組,或DAG可以被構建僅用于基因組的一部分,例如染色體或較小遺傳信息片段。在一些實 施例中,DAG呈現大于1000個核酸,例如大于10,000個核酸,例如大于100,000個核酸,例如 大于1,000,000個核酸。DAG可以呈現物種(例如,智人)或所選擇的種群(例如,患有乳腺癌 的女性),或甚至更小的亞群,如在同一個體中的不同腫瘤細胞當中的遺傳變異。
[0062] 圖2中展示DAG構建體的簡單實例。如圖2(A)中所展示,DAG以參考序列開始,該參 考序列在圖2(A)中展示為SEQ ID N0.1:CATAGTACCTAGGTCTTGGAGCTAGTC。在實踐中,參考序 列通常長得多,并且可以是全基因組。在一些實施例中,序列是FASTA或FASTQ文件。(FASTQ 已經成為產生自下一代測序儀的序列數據的默認格式)。在一些實施例中,參考序列可以是 標準參考,如GRCh37。在一些實施例中,參考序列是患者的非患病細胞的序列。如所屬領域 的技術人員所認識到,序列中的每個字母(或符號)實際上對應于核苷酸(例如,脫氧核糖核 苷酸或核糖核苷酸)或氨基酸(例如,組氨酸、亮氨酸、賴氨酸等)。
[0063] 在下一步驟,將變異體添加到參考序列中,如圖1 (A)的底部圖像中所展示。如圖1 (A)中所展示,變異體是圖中每行之間的序列(即,SEQ ID N0.2)的序列"AG"缺失。以圖形方 式,此缺失是由在缺失之前及之后使參考序列斷裂成節點并且連接節點與邊緣并且還產生 一個節點到"AG"并且隨后到另一個節點的路徑來表示。因此,節點之間的一個路徑表示參 考序列,而另一個路徑表示缺失。
[0064] 在實踐中,通過應用如可以在1000個基因組專題網站找到的變異調用格式(VCF) 文件中的條目將變異體調用到DAG。由于每個VCF文件與特定參考基因組鍵連,不難識別字 符串應該位于何處。實際上,VCF文件中的每個條目可以被認為與參考組合創建離散圖,如 圖3中所顯示。應注意,圖2中的VCF條目不與圖3的VCF條目相對應。還有可能通過比較個體 的非患病與患病細胞的序列來識別包含在DAG內的變異體。
[0065] 關于圖2(B),添加對應于特定位置處的插入"GG"的第二VCF條目,產生擴展的DAG, 即包含SEQ ID N0.3和SEQ ID ^).4。接著,可以添加第三¥0?條目到擴展的0六6中以在參考 序列中較早地說明SNP,即包含SEQ ID N0.5到8。因此,在三個步驟中,已經創建DAG,可以針 對該DAG比對核酸讀數(如下文所論述)。
[0066] 在實踐中,DAG在計算機存儲器(硬盤、閃存、云存儲器等)中呈現為節點集S,其中 每個節點由字符串、父節點集以及位置界定。字符串是節點的"內容",即序列;父節點界定 節點相對于圖中其它節點的位置;并且節點的位置與系統中的某種規范排序(例如參考基 因組)有關。雖然并非絕對必需相對于參考序列界定該圖,但是其確實使輸出數據的操作更 為簡單。當然,對S的進一步約束是其不能包含環路。
[0067] 在許多實施例中,節點包括多個字符,如圖2(A)和2(B)中所展示,然而,有可能節 點可以是單個字符,例如表示單個堿基,如圖3中所展示。在節點表示字符串的情況下,節點 中的所有字符可以單個比較步驟進行比對,而不是逐字符計算,正如常規史密斯-沃特曼技 術一樣進行。因此,計算負擔與當前技術發展水平的方法相比大大降低。計算負擔降低允許 更快并且在更少資源的情況下完成比對。當用于數百萬的小讀數需要比對和組合的下一代 測序時,此計算負擔降低在降低比對成本同時使得更快速地獲得有意義信息(即,基因型) 方面具有有形益處。在將調整治療以適應患者的基因型的情況下,速度增加可以允許患者 比使用當前技術發展水平的方法較早幾天開始治療。
[0068] 將此DAG方法外推到較大結構,有可能構建并有表示參考的既定區域的遺傳序列 的已知變異的數千個VCF條目的DAG。然而,由于DAG變得更龐大,因此計算確實花費更長時 間,并且對于許多應用使用僅可以呈現序列的一部分(例如,染色體)的較小DAG。在其它實 施例中,可以通過減小由DAG覆蓋的種群的大小將DAG制作為更小,例如從呈現乳腺癌的變 異的DAG變為呈現三陰性乳腺癌的變異的DAG。或者,可以使用基于易于識別的遺傳標記物 自定義的更長DAG,易于識別的遺傳標記物通常將導致DAG的大部分在樣本之間保持一致。 舉例來說,相比于說明同一序列上已知的人類的所有變異的DAG,針對以來自非洲血統女性 的VCF條目創建的DAG,比對來自非洲血統女性的核酸讀數集將更快速。應該認識到,本發明 的DAG是動態構建體,因為其可以隨時間推移而改變以并有新識別的突變。另外,將比對結 果以遞歸方式添加到DAG中的算法也是可能的。
[0069] 在字符串與DAG比對的情況下,可以調整空隙罰分以使空隙插入甚至更昂貴,因此 更傾向于對序列的比對而不是在整體序列中開放新的空隙。當然,通過DAG的改進(上文所 論述),因為在DAG中說明突變,所以應該更進一步降低空隙的發生率。
[0070] 比對算法
[0071] 在一個實施例中,使用算法來比對序列讀數與有向非循環圖(DAG)。與【背景技術】中 表達的算法相比,該比對算法通過識別關于在DAG(例如,參考序列構建體)上的位置處含有 的每個序列的最大分數來識別的最大值。實際上,通過在先前位置處"向后"看,有可能 跨越多個可能的路徑識別最優比對。
[0072] 本發明的算法是基于上文所論述的讀數(也稱為"字符串")和有向非循環圖(DAG) 進行。出于定義該算法的目的,假設S是要比對的字符串,并且假設D是將與S比對的有向非 循環圖。以從1開始的索引對字符串S的元素加括號。因此,如果S是字符串ATCGAA,那么S [ 1 ] =A、S[4]=G 等。
[0073]對于DAG,節點的序列的每個字母將表示為獨立元素 cLd的前趨定義為:
[0074] (i)如果d不是其節點的序列的首字母,那么其節點中在d之前的字母是其(唯一) 前趨;
[0075] (ii)如果d是其節點的序列的首字母,那么作為d的節點的父節點的任何節點的序 列的最后一個字母是d的前趨。
[0076] 所有前趨集繼而表示為P[d]。
[0077] 為了找到"最佳"比對,算法尋求M[j,d]的值,即S的前j個元素與在d之前(并且包 含d)的DAG的部分的最優比對的分數。此步驟類似于在【背景技術】部分的方程式1中尋找H 1;J。 具體來說,確定M[ j,d]包括找到a、i、e以及0的最大值,如下文所定義:
[0078] M[ j ,d] =max{a, i ,e ,0} (6)
[0079] 其中
[0080] 對于?[(1]中的?*,6=11^{]\1[」,?*]+0£1^£_?£嫩1^¥}
[0081] i=M[ j-1 ,d]+INSERT_PENALTY
[0082] 如果 S [ j ] = d,那么對于P [ d ]中的 p*,a=max {M [ j -1, p* ] +MATCH_SC0RE};
[0083] 如果 S [ j ]關 d,那么對于P [ d ]中的 p*,為max {M [ j -1, p* ] +MI SMATCH_PENALTY}
[0084] 如上文所描述,e是S的前j個字符與直到但是不包含d的DAG的部分的比對的最高 值,加上額外的DELETE_PENALTY。因此,如果d不是節點的序列的首字母,那么僅存在一個前 趨P,并且S的前j個字符與DAG(直到并且包含p)的比對分數等效于M[j,p]+DELETE_ PENALTY。在d是其節點的序列的首字母的情況下,可以存在多個可能的前趨,并且因為 DELETE_PENALTY是恒定的,所以求[M[ j,p*]+DELETE_PENALTY]的最大值等同于選擇與S的 前j個字符具有最高比對分數的前趨。
[0085]在方程式(6)中,i是字符串S的前j-1個字符與直到并且包含d的DAG的比對,加上 INSERT_PENALTY,其類似于SW中的插入變量參數的定義(參看方程式1)。
[0086]另外,a是S的前j個字符與直到但是不包含d的DAG的部分的比對的最高值,加上 MATCH_SC0RE (如果S的第j個字符與字符d相同)或MI SMATCH_PENALTY (如果S的第j個字符與 字符d不同)。如同e-樣,這意味著如果d不是其節點的序列的首字母,那么僅存在一個前 趨,即P。這意味著a是S的前j-1個字符與DAG(直到并且包含p)的比對分數,即M[j-l,p],取 決于d與S的第j個字符是否匹配,加上MISMATCH_PENALTY或MATCH_SC0RE。在d是其節點的序 列的首字母的情況下,可以存在多個可能的前趨。在此情況下,求{M[j,p*]+MISMATCH_ PENALTY或MATCH_SC0RE}的最大值等同于選擇與S的前j-1個字符具有最高比對分數(即,候 選M[ j-1,p*]變量參數的最高值)的前趨并且取決于d與S的第j個字符是否匹配而加上 MISMATCH_PENALTY或MATCH_SC0RE。
[0087]此外,如在【背景技術】中所論述的SW算法中一樣,可以調整罰分,例如DELETE_ PENALTY、I NSERT_PENALTY、MATCH_SC0RE 以及MI SMATCH_PENALTY,以促進與更少空隙等的比 對。
[0088]如以上方程式中所描述,該算法通過不僅計算該元素的插入、缺失以及匹配分數, 而且向后看(逆著DAG的方向)到DAG上的任何先前節點以找到最大分數,來找到每個讀數的 最大值。因此,該算法能夠詳細研究貫穿DAG的含有已知突變的不同路徑。因為圖是有向的, 所以逆著圖的方向移動的回溯遵循朝向圖的起點的優選變異序列,并且最大比對分數識別 高度確定性的最可能比對。雖然以上方程式表示為"最大"值,但"最大"預期涵蓋任何形式 的優化,包含例如轉換所有方程式上的正負號和求解最小值。
[0089]在圖4中示例本發明算法的實施方案,其中對序列"ATCGAA"與呈現參考序列SEQ ID N0.10:TTGGATATGGG和已知插入事件SEQ ID NO. 11: TTGGATCGAATTATGGG的DAG進行比 對,其中插入是帶下劃線的。圖4(A)展示與DAG相比的讀數的圖形表示,而圖4(B)展示對應 于該比較的實際矩陣。類似于【背景技術】中所論述的史密斯-沃特曼技術,本發明的算法識別 最高分數并且執行回溯以識別讀數的適當位置。圖4(A)和(B)還突出本發明產生字符串與 構建體的實際匹配,而已知方法(例如,SW)將已經更可能對字符串與參考的錯誤部分進行 比對,或由于未產生包含于比對中的足夠高的比對分數而拒絕該字符串。在序列讀數包含 未包含在DAG中的變異體的情況下,將通過空隙、插入等報告經比對的序列。
[0090] 制造構建體以容納疾病變異性
[0091] 如上文所提及,參考序列構建體可以由現有變異體文件制備,或構建體可以通過 比較某些取樣序列與參考序列來重新制備。此類重生構建體的實例展示于圖5中。從參考基 因組(例如,GRCh37)開始,對非癌樣本測序并且與參考進行比較以產生變異體文件。將此變 異體文件并入如上文所描述的參考序列構建體(例如,DAG)中。變異體可以包含插入、缺失、 多態性、結構變異體等。所得構建體隨后可以用于比對個體的患病樣本的讀數。此比對步驟 將提供關于有可能與患病病況(即,主要克隆)相關的"新"突變的位置的即時信息,立即將 "新"突變與已經存在于非癌樣本中的突變區分開(因為后者已經包含于構建體中)。此外, 因為主要克隆樣本并不與參考而是與參考序列構建體直接比對,大多數主要克隆樣本應該 與該構建體完全比對,并且任何未比對的讀數將給出關于疾病性質的直接線索。
[0092] 繼續把實例推進到下一層面,可以將非患病與主要克隆樣本之間的變異體并入新 參考構建體中,"具有主要克隆的參考"如圖5中所展示。圖6中以更多細節展示此類參考構 建體。圖6使用三個任意序列(SEQ ID N0S. 12到14)說明參考序列的構建體以及參考、非患 病序列以及主要克隆的并入。SEQ ID N0.12表示參考序列的一部分,其已經被確定為良好 起始點。然而,所述個體具有不存在于參考序列(SEQ ID N0.13)中的15bp插入。另外,已經 被識別為患有癌癥的個體具有被測序的腫瘤樣本。在測序后,發現腫瘤樣本在插入(SEQ ID N0.14)內具有多態性。如圖6底部的參考序列構建體中所展不,有可能說明此構建體中的所 有三個序列。
[0093] 圖6中的此構建體適用于至少兩個目的。首先,在無任何額外分析的情況下,參考 序列構建體展示多態性與主要克隆之間獨立于插入的關系,可以認為其與癌癥無關。還應 該注意,如果直接比較SEQ ID N0.14與SEQ ID N0.12,如通常在當代癌癥測序下進行的一 樣,那么將有可能已經錯過插入內多態性的存在。其次,參考序列構建體提供新的比對工 具,可以針對新的比對工具比較新樣本。舉例來說,與插入部分地比對并且包含多態性的讀 數(未展示)有可能是癌性的,而與插入部分地比對但是在多態性區域中含有"AC"而不是 "GG"的讀數(未展示)有可能不是癌性的。另外,含有除未與參考序列構建體比對的其它突 變之外的多態性的新讀數表明癌癥可能已經進一步進展,以及可以按順序進行更大測試, 例如全身MRI。
[0094] 圖6中所展示的參考序列構建體可以通過添加更多例如對應于所識別的次要克隆 的序列來反復地改良,如圖7中所展示。在一些情況下,次要克隆可以表示轉移性細胞或疾 病的其它進展形式。使用上文所描述的比對算法,可以將對應于次要克隆的序列讀數與使 得突變所位于之處清潔的"具有主要克隆的參考"進行比對。類似于圖6中主要克隆突變的 并入,還可以將次要克隆突變并入參考序列構建體中以產生又一新的參考序列構建體"具 有次要克隆的參考"。類似于"具有主要克隆的參考","具有次要克隆的參考"隨后可以提供 關于個體中疾病的演變的信息并且用于對個體(或在適當時其它個體)的新樣本進行分型。
[0095]可以無限地重復比對新樣本與參考序列構建體并且隨后添加最新識別的變異體 到該構建體中產生新構建體的過程。實際上,因為參考序列構建體以多變量構造存儲在非 暫時性計算機可讀媒體上,新結構的添加是微不足道的。此外,新讀數與這些高度復雜參考 構建體的比對在計算上是可行的,并且遠不如新讀數與每個前述序列的單獨比較費力。對 構建體的比對和改良的過程可以并行進行,如圖8中所展示,或串聯并行,如圖9中所展示。 無論該過程是并行或串聯完成,所得參考序列構建體應該是相同的。然而,可以取決于添加 新元素的順序而從該過程搜集關于疾病演變的不同信息。
[0096]并行化的可能性
[0097]已經針對大規模并行化調適并且顯著地修改了史密斯-沃特曼-后藤算法的序列 版本。舉例來說,美國專利公開第2012/0239706號中描述了被稱作使用關聯大規模并行化 的史密斯-沃特曼法(SWAMP)的ASC模型,該公開以全文引用的方式并入本文中。SWAMP (和其 它并行處理系統)的并行化的一部分源于沿任何反對角的值彼此獨立的事實。因此,可以并 行完成沿既定反對角的所有單元格以分配計算資源。以上遞歸方程式中所展示的數據依賴 性限制了可達到的并行化的水平,但是使用波前方法仍將加速此適用算法。沃茲尼亞克 (Wozniak)(生物科學中的計算應用(Comput Appl in the Biosciences,CABI0S),13(2): 145-150,1997)對Sun Ultra SPARC實施的波前方法使用專用SB?類視頻指令。沃茲尼亞克 使用SHffi寄存器來存儲與次對角線并行的值,從而報告優于相同機器上的傳統實施方案的 雙倍加速。根據沃茲尼亞克的實例,并行化代碼的類似方式將使用流SMD擴展(SSE)設置用 于x86架構。由因特爾(Intel)設計,向量類操作一次對少量值(通常四個、八個或十六個)完 成單一操作/指令。許多AMD和因特爾芯片支持各種型式的SSE,并且因特爾已經繼續使用用 于其現代芯片組的高級矢量擴展(AVX)來開發此技術。
[0098]在其它實施方案中,羅蓋(Rognes)和塞貝格(Seeberg)(生物信息學 (Bioinformatics)(英格蘭牛津(Oxford,England)) ,16(8) :699-706,2000)使用具有SSE的 舊版-MMX SB?指令的因特爾奔騰(Pentium)處理器用于其實施方案。出于羅蓋和塞貝格的 研究(生物信息學,16(8):699-706,2000)而針對并行比對(? &^11811)開發的方法不使用波 前方法(羅蓋,核酸研究(Nuc Acids Res),29(7): 1647-52,2001;塞伯(Saebo)等人,核酸研 究,33(增刊2):1535-1539,2005)。替代地,其比對與查詢序列并行的3頂0寄存器,從而使用 預先計算出的查詢專用分數矩陣一次計算八個值。此方法的額外細節可以在U.S.7,917, 302中找到,其以引用的方式并入本文中。羅蓋和塞貝格布局SMD寄存器的方式,北鄰域依 賴性能夠去除達三分之一的由SSE并行"向量"計算獲得的潛在加速。為了克服這點,其并入 了SWAT類優化。使用較大仿射空隙罰分,北鄰域大部分時間將為零。如果此是正確的,那么 程序可以跳過計算北鄰域的值,法勒(Farrar)(生物信息學,23(2): 156-161,2007)稱其為 "惰性F評估"。羅蓋和塞貝格能夠減少方程式1的計算數目以通過在該值低于某一閾值時跳 過該值來加速其算法。在(羅蓋和塞貝格,生物信息學,16(8): 699-706,2000)中經由MMX/ SSE指令和SWAT類擴展使用8路向量報告了六倍加速。
[0099]在法勒完成的SSE研究(生物信息學,23(2): 156-161,2007)中,使用線條訪問模式 或交叉訪問模式來排列與查詢寄存器并行的SIMD寄存器。這樣做避免了任何重疊依賴性。 此外,并入SWAT類優化(法勒,生物信息學23(2): 156-161,2007)實現的加速是沃茲尼亞克 (CABI0S 13(2): 145-150,1997)以及羅蓋和塞貝格(生物信息學(英格蘭牛津),16(8) :699_ 706,2000)snm實施方案的2-8倍。塊取代矩陣和有效并且有獨創性的內循環(具有移到內 循環外的北(F)條件性)是重要的優化。用于處理的十六個8位單元的交叉存儲器模式存取 也改進了存儲器存取時間,從而促進總體加速。
[0100] 法勒(序列分析(Sequence Analysis),2008)擴展了其對索尼(Sony)、東芝 (Toshiba)以及IBM制造的Cell處理器(Cell Processor)的研究。此Cell處理器具有一個主 要核心和八個次要核心。Cell寬帶引擎是若干更多史密斯-沃特曼實施方案的開發平臺,這 些實施方案包含斯卡科夫斯基(Szalkowski)等人的SWPS3(BMC研究筆記(BMC Res Notes)l (107) ,2008)和韋拉萬(Wirawan)等人的CBESW(BMC生物信息學(BMCBioinformatics)9 (377)2008),都使用法勒的分割法。魯德尼茨基(Rudnicki)等人(基金信息(Fund Inform.) 96,181-194,2009)使用PS3來開發對多個數據庫序列使用并行化的方法。
[0101]羅蓋(BMC生物信息學12(221),2011)還開發了并行處理多個數據庫序列的被稱作 SWIPE的多線程方法。焦點是在"普通CPU"上使用SEVID方法。并行使用多個數據庫序列來使 用粗粒并行度分解研究的此調查類似于劉(Liu)等人(BMC研究筆記2(73),2009)以及羅戈 夫斯基(Ligowski)和魯德尼茨基(高性能計算生物學八周年國際研討會(Eight Annual International Workshop on High Performance Computational Biology),羅馬(Rome), 2009)在CUDASW中描述的基于圖形處理器單元(GPU)的工具。已經存在使用劉等人(BMC研究 筆記3(93) ,2010)和羅戈夫斯基等人(GPU計算寶典,Emerald版(GPU Computing Gems, Emerald Edition)摩爾根考夫曼(Morgan Kaufmann),155-157,2011)的CUDASW++2 ? 0進行 GHJ研究的其它實施方案。
[0102]在其它變化形式中,可以使用小規模的向量并行化(8路、16路或32路并行度)來經 由并行比對多個序列的GPU實施方案實現可用計算。計算的理論峰值加速是m的因素,這是 最優的。使用96個處理單元的ClearSpeed實施方案的96倍加速證實了該理論加速。
[0103]并行計算模型
[0104]用于開發和擴展史密斯-沃特曼序列比對的主要并行模型是關聯計算(ASC)(波特 (Potter)等人,計算機(Computer) ,27(11): 19-25,1994)。本文中描述了史密斯-沃特曼算 法的有效并行型式。此部分中詳細描述此模型和另一個模型。
[01 05] 這里定義一些相關詞匯。來自計算機架構的費林分類法(F1 ynn ' s Taxonomy)的兩 個相關術語是MMD和S頂D這兩種不同的并行計算模型。將分類為多指令多數據(MMD)模型 的計算機集群用作概念證明以克服超大規模比對中的存儲器限制。第8部分描述MMD模型 的使用。還描述被稱為ASC的擴展的數據并行的、單指令多數據(SHffi)模型。
[0106] 多指令多數據(Multiple Instructions,Multiple Data;MIMD)
[0107] 多數據多指令模型或MMD模型描述目前可用的大多數并行系統,并且包含目前流 行的計算機集群。MMD處理器具有完備的中央處理單元(CPU),每個CPU具有其自身的本地 存儲器(奎因(Quinn),并行計算:理論與實踐(Parallel Computing:Theory and Practice),第2版,紐約:麥格勞-希爾出版社(McGraw-Hill) ,1994)。與SM)模型對比,每一 個MMD處理器存儲并且異步地執行其自身的程序。MIMD處理器經由允許其通信的網絡連 接,但是所使用的網絡可以大不相同,范圍是以太網、Myrinet和機器(集群節點)之間的 InfiniBand連接。通信往往采用比SHTO寬松得多的通信結構,超出單個單元。沿著該網絡通 過個別處理器在處理器所執行的其個別程序的控制下異步地移動數據。通常,由支持消息 傳遞的若干不同的并行語言之一來處理通信。用于此的非常普遍的庫被稱為消息傳遞接口 (MPI)。"SMD類"型式的通信是可能的,但是數據的移動將是異步的。通過MMD的并行計算 通常需要大量的通信和頻繁的同步,除非由處理器執行的各種任務是高度獨立的(即,所謂 的"易并行"或"樂于并行"的問題)。第8部分中提出的研究使用經由InfiniBand連接的AMD Opteron 集群。
[0108]不同于snro,消息傳遞所需的最壞情況下的時間難以預測或不可能預測。通常,使 用通常由試驗確定的平均情況下的估計,而不是通過對于SIMD來說為典型的最壞情況下的 理論評估來確定M頂D軟件的消息傳遞執行時間。由于對于MMD軟件最壞的情況通常是非常 糟糕的并且很少發生,因此平均情況下的估計更加有用。因此,MHTO在特定問題上所需的通 信時間會比snm更多并且通常比SMD顯著更多。此使得MMD編程(尤其是在使用消息傳遞 時)的重要目標是使所需的處理器間通信的數目減到最少并且使處理器通信之間的時間量 增到最大。即使在單卡加速水平下(如使用圖形處理器或GPU)也是如此。
[0109] 數據并行編程也是MMD編程的重要技術,但是在這里,所有任務對不同數據執行 相同操作,并且僅在各個關鍵點同步。MIM0系統的大部分算法以單程序多數據(SPMD)編程 范例編寫。每個處理器有其自身的相同程序的拷貝,執行特定于該處理器或其本地數據上 的核心的代碼部分。SPMD范例的普及源于這一事實:寫入大量將同時跨不同處理器執行但 仍然能夠協作解決單個問題的不同程序是相當困難的。針對存儲器密集型而不是計算密集 型的問題所使用的另一種方法是使用在第8部分中提出的研究來創建如使用JumboMem完成 的虛擬存儲器服務器。此在其下面的實施方案中使用MPI。
[0110] 單指令多數據(Single Instruction,Multiple Data;SIMD)
[0111] snro模型由多個被稱作PE的簡單的算術處理單元構成。每個PE具有其自身的本地 存儲器,PE可以從該本地存儲器獲取和存儲,但是PE并沒有編譯或執行程序的能力。如本文 所使用,術語"并行存儲器"是指在計算系統中統稱的本地存儲器。舉例來說,并行存儲器可 以是SMD計算機系統中本地存儲器(例如,PE的本地存儲器)的集合、MMD計算機系統中處 理器的本地存儲器(例如,中央處理單元的本地存儲器)的集合等。通過被稱作控制單元(或 前端)的處理器處理程序的編譯和執行(奎因,并行計算:理論與實踐,第2版,紐約:麥格勞-希爾出版社,1994)。控制單元通常通過總線連接到所有PE。
[0112] 所有有效PE步調一致地同步執行從控制單元接收到的程序指令。在第79頁,"在任 何時間單元中,單一操作與各自操作不同數據的多個處理單元上的執行狀態相同"(奎因, 并行計算:理論與實踐,第2版,紐約:麥格勞-希爾出版社,1994)。雖然通過所有有效PE并行 地同時執行相同指令,但是可以允許一些PE跳過任何特定指令(貝克(Baker ),S頂D和MASC: CS 6/73301課程筆記:并行和分布式計算-power point幻燈片,(2004)2004)。此通常使用 "如果-否則"分支結構來實現,其中一些PE執行如果指令,而其余的PE執行否則部分。此模 型對于具有可同時出現的最多少量如果-否則分支結構(如圖像處理和矩陣運算)的本質上 "數據并行的"問題是理想的。
[0113]數據可以通過控制單元廣播到所有有效PE,并且控制單元還可以從使用控制單元 與PE之間的連接(通常是總線)的特定PE獲得數據值。另外,該組PE通過如線性陣列、2D網格 或超立方體的互連網絡連接,互連網絡提供PE之間的并行數據移動。通過PE以同步并行型 式貫穿此網絡移動數據,這些PE步調一致地執行包含數據移動的指令。正是控制單元將指 令廣播到pe。具體來說,如今snro網絡不使用由大多數并行計算機所使用的消息傳遞范例。 如此的一個重要優點是,SMD網絡通信極其有效,并且可以通過控制該特定通信的算法的 最壞情況下的時間來確定通信所需的最大時間。
[0114]此部分的其余部分專門描述擴展的snro asc模型。對于此論述,asc是算法設計和 開發的中心內容。
[0115] 關聯計算模型
[0116] 關聯計算(ASC)模型是擴展的SIMD,基于由固特異航空航天(Goodyear Aerospace)的肯尼斯.巴徹(Kenneth Batcher)博士設計的STARAN關聯SIMD計算機和其被 海軍艦船大量使用的后續ASPR0。
[0117] 由肯特州立大學(Kent State University)計算機科學學院(Department of Computer Science)開發,ASC是用于關聯計算的算法模型(波特等人,計算機,27(11):19-25,1994)(波特,關聯計算(48 80(^31:;[¥6(:01]1?111:;[11〖):大規模并行計算機的編程范例(八 Programming Paradigm for Massively Parallel Computers),普萊南出版公司(Plenum Publishing),1992) JSC模型產生于由固特異航空航天構建的關聯處理器STARAN和MPP的 研究。雖然目前在硬件中不受支持,但是目前有效模擬和設計用于此模型的計算機都取得 了一定研究成果。
[0118] 作為擴展的snro模型,asc使用同步數據并行編程,從而避免了多任務和異步點對 點通信路由兩者。由于在任何時間僅執行一個任務,其中在所有有效處理單元(PE)上步調 一致地執行此任務的多個實例,因此多任務是不必要的。如同SMD編程器,ASC避免了包括 負載均衡、同步以及動態任務調度的問題;必須在MPI和其它M頂D集群范例中明確處理的問 題。
[0119] 圖10展示ASC計算機的概念模型。存在又稱為指令流(IS)的單個控制單元和各自 具有其自身的本地存儲器的多個處理單元(PE)。控制單元和PE陣列通過廣播/簡化網絡連 接,并且PE通過PE數據互連網絡連接在一起。
[0120] 如圖10中所見,PE可以利用位于其自身的本地存儲器中的數據。數據保持在適當 的位置,并且響應(有效)PE并行處理其本地數據。對詞語關聯的引用涉及使用搜索以通過 內容而不是存儲地址來定位數據。ASC模型不采用關聯存儲器,替代地,其是關聯處理器,其 中一般循環是搜索-處理-檢索。在(波特等人,計算機,27(11): 19-25,1994)中可獲得該模 型的概述。
[0121] 由于ASC數據結構的自然表格結構,該算法的表格性質適用于使用ASC的計算。 SWAMP充分利用用于步調一致地轉換北鄰域和西北鄰域的數據的跨PE互連網絡的極為有效 的通信,以及用于搜索和用于跨并行計算的最大值的快速恒定時間關聯功能
[0122] 歸因于ASC模型所需的額外硬件,在恒定時間執行關聯操作(吉恩(Jin)等人,第15 屆國際并行與分布式處理會議(15th International Parallel and Distributed Processing Symposium,IF*DPS'01)研討會,舊金山(San Francisco),第193頁,2001)。這些 操作可以通過任何snro類機器有效地執行(但不太快速),并且已經成功調適以在若干snro 硬件平臺上有效地運行(袁(Yuan)等人,并行與分布式計算系統(Parallel and Distributed Computing SystemsJDCS),馬薩諸塞州劍橋(Cambridge,M A) ,2009;塔漢 (Trahan)等人,并行與分布式計算雜志(J.of Parallel and Distributed Computing, JPDC),2009)。因此可以在與snro密切相關的其它系統(包括向量機)上有效地實施SWAMP和 其它ASC算法,這是該模型用作范例的原因。
[0123] 控制單元提取和解碼程序指令并且將控制信號廣播到PE1E在控制單元的指示下 使用其自身的本地數據執行這些指令。所有PE以步調一致方式執行指令,其中指令之間隱 式同步。ASC具有若干相關的高速全局操作:關聯搜索、最大值/最小值搜索以及響應者選 擇/檢測。這些在以下部分中進行描述。
[0124] 關聯功能
[0125] 下文論述與SWAMP算法相關的功能。
[0126] 關聯搜索
[0127] ASC算法中的基本操作是關聯搜索。關聯搜索同時定位其本地數據匹配既定搜索 關鍵字的PE。具有匹配的數據的那些PE被稱作響應者,并且具有非匹配的數據的那些PE被 稱作無響應者。在執行搜索之后,該算法隨后可以限制進一步的處理以通過禁用無響應者 而僅影響響應者(或反之亦然)。執行額外搜索可以進一步細化該組響應者。關聯搜索由 SWAMP+大量用于選擇哪些PE在對角線內的并行行為中有效。
[0128] 最大值/最小值搜索
[0129] 除簡單搜索之外,當每個PE使用標準比較運算符(等于、小于等)比較其本地數據 與搜索關鍵字時,關聯計算機還可以執行全局搜索,其中將來自整個PE陣列的數據組合在 一起以確定該組響應者。最常見類型的全局搜索是最大值/最小值搜索,其中響應者是其數 據是跨整個PE陣列的最大值或最小值的那些PE。最大值由SWAMP+用于其處理以追蹤到目前 為止所計算的最高值的每一對角線。最大值搜索的使用頻繁出現,每個邏輯并行行為中一 次,每個比對中m+n次。
[0130] 響應者選擇/檢測
[0131]關聯搜索可以產生多個響應者,并且關聯算法可以三種不同模式之一處理那些響 應者:并行選擇、連續選擇或單次選擇。并行響應者處理同時對每個響應者執行同一組操 作。連續響應者處理單獨地選擇每個響應者,允許每個響應者的一組不同的操作。單個響應 者選擇(又稱為pickOne)選擇一個任意的所選響應者來進行處理。除多個響應者之外,關聯 搜索還可能產生無響應者。為了處理此情況,ASC模型可以檢測是否存在對搜索的任何響應 者,并且在此情況下執行獨立的一組行為(被稱為任何響應者(anyResponder))。在SWAMP 中,基于上述關聯搜索,并行選擇并且處理含有待比對的字符的多個響應者。如果使用最大 值/最小值搜索時存在具有完全相同的最大值的多個值,且當存在這樣的多個值時,出現單 個響應者選擇。
[0132] PE互連網絡
[0133] 大多數關聯處理器包含某種類型的PE互連網絡以允許陣列內的并行數據移動。 ASC模型本身并不指定任何特定的互連網絡,并且實際上,許多適用的關聯算法不要求任何 特定的互連網絡。通常,關聯處理器實施簡單的網絡,如1D線性陣列或2D網格。這些網絡易 于實施并且允許以同步方式快速傳送數據。舉例來說,1D線性陣列足以在SWAMP算法中用于 PE之間的明確通信。
[0134] 并行計算系統
[0135] 圖11中展示通用的并行處理架構。雖然每個組件展示為具有直接連接,應理解,各 個單元可以是地理上分離的但是經由例如因特網的網絡連接。雖然混合配置是可能的,但 并行計算機中的主存儲器通常或在單個地址空間中的所有處理單元之間共享,或呈分布 式,即每個處理單元具有其自身的本地地址空間。(分布式存儲器是指這樣的事實:存儲器 以邏輯方式分布,但是通常意味著其也以物理方式分布。)分布式共享存儲器和存儲器虛擬 化結合這兩種方法,其中處理單元具有其自身的本地存儲器以及對非本地處理器上的存儲 器的存取權。對本地存儲器的存取通常比對非本地存儲器的存取更快。
[0136] 可以相等時延和帶寬訪問主存儲器的每個單元的計算機體系架構被稱為均勻存 儲器訪問(UMA)系統。通常,只能通過共享的存儲器系統來實現,其中該存儲器并非以物理 方式分布。不具有此性質的系統被稱為非均勻存儲器訪問(NUMA)架構。分布式存儲器系統 具有非均勻存儲器訪問。
[0137] 可以多種方式在硬件中實施處理器-處理器和處理器-存儲器通信,包括經由共享 的(或多端口的或多路復用的)存儲器、縱橫開關、共享總線或無數拓撲的互連網絡(包含星 形、環形、樹形、超立方體、充足超立方體(在一個節點處具有超過一個處理器的超立方體)) 或n維網格實施。
[0138] 基于互連網絡的并行計算機必須合并路由以實現并非直接連接的節點之間的消 息傳遞。用于處理器之間的通信的媒體很可能在大型多處理器機器中分層。此類資源在市 面上可購買用于專用用途,或可以經由例如亞馬遜的云計算的"云"訪問這些資源。
[0139] 計算機一般包含經由總線耦合到存儲器的處理器。存儲器可以包含RAM或R0M,并 且優選地包含至少一個有形的非暫時性媒體,其存儲可執行以致使系統執行本文所描述的 功能的指令。如所屬領域的技術人員在必要時將認識到或最適合于本發明方法的性能,本 發明的系統包含經由總線彼此通信的一個或多個處理器(例如,中央處理單元(CPU)、圖形 處理單元(GPU)等)、計算機可讀存儲裝置(例如,主存儲器、靜態存儲器等)或其組合。
[0140]處理器可以是所屬領域中已知的任何合適的處理器,如由英特爾(加利福尼亞州 圣克拉拉(Santa Clara,CA))以商標XEON E7出售的處理器,或由AMD(加利福尼亞州桑尼維 爾(Sunny va 1 e,CA))以商標0PTER0N6200出售的處理器。
[0141]存儲器可以指計算機可讀存儲裝置并且可以包含任何機器可讀媒體,在該機器可 讀媒體上面存儲一個或多個指令集(例如,體現本文中發現的任何方法或函數的軟件)、數 據(例如,體現任何有形的物理對象,如在患者的染色體中發現的遺傳序列)或兩者。雖然在 示例性實施例中計算機可讀存儲裝置可以是單個媒體,但是術語"計算機可讀存儲裝置"應 被認為包含存儲一個或多個指令集或數據集的單個媒體或多個媒體(例如,集中式或分布 式數據庫和/或相關聯的高速緩沖存儲器和服務器)。因此,術語"計算機可讀存儲裝置"應 被認為包含(但不限于)固態存儲器(例如,訂戶身份模塊(S頂)卡、安全數字卡(SD卡)、微型 SD卡或固態驅動器(SSD))、光學和磁性媒體以及任何其它有形的存儲媒體。優選地,計算機 可讀存儲裝置包含有形的非暫時性媒體。此類非暫時性媒體不包含例如暫時性波和信號。 "非暫時性存儲器"應被解釋為本身不包含計算機可讀傳輸媒體,如信號。
[0142]根據本發明的輸入/輸出裝置可以包含視頻顯示單元(例如,液晶顯示器(IXD)或 陰極射線管(CRT)監視器)、字母數字輸入裝置(例如,鍵盤)、光標控制裝置(例如,鼠標或觸 控板)、磁盤驅動器單元、信號生成裝置(例如,揚聲器)、觸摸屏、加速計、麥克風、蜂窩式無 線電頻率天線以及網絡接口裝置,網絡接口裝置可以是例如網絡接口卡(NIC)、Wi-Fi卡或 蜂窩式調制解調器。
[0143]樣本米集和制備
[0144] 本發明包含用于產生對應于從生物樣本回收的核酸的序列(例如,核酸序列、氨基 酸序列)的方法。在一些實施例中,所得信息可以用于識別在從受試者獲得的核酸材料中呈 現的突變。在一些實施例中,從受試者獲得樣本,即核酸(例如,DNA或RNA),使用下文描述的 方法處理(溶解、擴增和/或純化)核酸并且對核酸測序。在許多實施例中,測序的結果不是 線性核酸序列,而是數千或數百萬個別短核酸讀數的集合,其必須重新組合成針對受試者 的序列。在比對讀數以產生序列后,可以將已比對序列與參考序列相比較以識別可以例如 指示疾病的突變。在其它實施例中,可以基于讀數與參考序列構建體(即,如上文所描述的 有向非循環圖("DAG"))的比對識別受試者的特定突變。
[0145] 出于任何上述目的,可以對生物樣本應用各種方法。生物樣本可以例如包括血液、 全血、血漿、淚液、乳頭吸液、血清、糞便、尿液、唾液、循環細胞、組織、活檢樣本、毛囊的樣本 或含有患者的生物材料的其它樣本。在基于此類樣本進行測試時的一個問題是,在大多數 情況下,僅微小量的含有相關突變的DNA或RNA可以存在于樣本中。在如腮抹試或血液樣本 的非侵入性樣本中尤其如此,其中突變核酸以極少量存在。在一些實施例中,核酸片段可以 是天然的短,即樣本中的相關核酸的隨機剪切可以產生短的片段。在其它實施例中,為便于 處理,或因為測序技術只能序列讀取少于1000個堿基,例如少于500個堿基,例如少于200個 堿基,例如少于100個堿基,例如少于50個堿基,核酸被特意分段。雖然本文所描述的方法可 以用于比對不同長度的序列,但是在一些實施例中,大多數這些多個核酸讀數將由測序方 法產生,并且包括少于1000個堿基,例如少于500個堿基,例如少于200個堿基,例如少于100 個堿基,例如少于50個堿基。
[0146] 可以通過所屬領域中已知的方法獲得核酸。一般來說,核酸可以通過多種技術從 生物樣本提取,這些技術如由馬尼亞迪斯(Maniatis)等人,分子克隆實驗指南(Molecular Cloning:A Laboratory Manual),紐約州冷泉港(Cold Spring Harbor,N.Y.),第280-281 頁,(1982)描述的技術,該文獻的內容以全文引用的方式并入本文中。
[0147] 可能有必要首先制備樣本的提取物,并且隨后執行其它步驟,即示差沉淀、管柱色 譜、用有機溶劑提取等,以便獲得足夠純的核酸制備物。可以使用所屬領域的標準技術通過 例如細胞的化學或機械溶解來制備提取物。隨后可以例如通過過濾和/或離心和/或用離液 序列高的鹽(如異硫氰酸胍或尿素)或用有機溶劑(如苯酚和/或HCC1 3)進一步處理提取物 以使任何污染和潛在的干擾蛋白質變性。在一些實施例中,樣本可以包括從受試者樣本(例 如,血液樣本)收集的RNA,例如mRNA。用于RNA提取的通用方法在所屬領域中是眾所周知的, 并且在分子生物學的標準教科書(包含奧斯貝(Ausubel)等人,分子生物學實驗室指南 (Current Protocols of Molecular Biology),約翰?威利父子出版公司(John Wiley and Sons )(1997 ))中公開。舉例來說,在魯普(Rupp)和洛克(Locker ),實驗室投資 (Lablnvest? )56:A67( 1987)和德安德烈(De Andres)等人,生物技術(BioTechniques) 18: 42044(1995)中公開從石蠟包埋組織提取RNA的方法。這些參考文獻中的每一個的內容以全 文引用的方式并入本文中。具體來說,根據制造商的說明,可使用來自商業制造商(如凱杰 公司(Qiagen))的純化試劑盒、緩沖液組以及蛋白酶執行RNA分離。舉例來說,可以使用凱杰 的RNeasy微型柱來分離來自培養物中的細胞的全部RNA。其它市售RNA分離試劑盒包含 MASTERPURE完整DNA和RNA純化試劑盒(EPICENTRE,威斯康星州麥迪遜(Madison,Wis.))和 石錯塊RNA分離試劑盒(安必遜公司(Ambion, Inc.))。可以使用RNA Stat_60(Tel_Test)從 組織樣本分離全部RNA。可以例如通過氯化銫密度梯度離心分離從腫瘤制備的RNA。
[0148] 分析測序
[0149] 可以通過所屬領域中已知的任何方法測序。DNA測序技術包含使用標記的終止子 或引物以及板或毛細管中的凝膠分離的傳統雙脫氧測序反應(桑格方法)、使用可逆終止標 記的核苷酸的合成測序、焦磷酸測序、454測序、對標記的寡核苷酸探針的庫的等位基因特 異性雜交、對隨后為連接的標記的克隆庫使用等位基因特異性雜交的合成測序、在聚合步 驟期間標記的核苷酸的并入的實時監視、聚合酶克隆測序以及SOLiD測序。分離的分子的測 序最近已經通過使用聚合酶或連接酶的連續擴展或單次擴展反應以及通過使用探針庫的 單次或連續示差雜交得以證明。在測序之前,可能另外有益的是擴增樣本中的一些或全部 核酸。在一些實施例中,使用所屬領域中已知的聚合酶鏈反應(PCR)技術擴增核酸。
[0150] 可以在所提供的本發明的方法中使用的測序技術的一個實例是Illumina測序(例 如,MiSeq?平臺),其是基于聚合酶的合成測序,可被用來擴增DNA或RNA。用于DNA的 Illumina測序是基于使用折回PCR和錨定引物擴增固體表面上的DNA。基因組DNA是分成片 斷的,并且在片段的5'和3'末端添加銜接子。連接到流動細胞通道的表面的DNA片段被擴展 和橋式擴增。片段變為雙鏈,并且雙鏈分子變性。固相擴增隨后變性的多個周期可以在流動 細胞的每個通道中形成數百萬簇的相同模板的單鏈DNA分子的大約1,000個拷貝。使用引 物、DNA聚合酶以及四熒光團標記的可逆終止核苷酸來執行連續測序。在併入核苷酸之后, 使用激光來激發熒光團,并且捕獲圖像以及記錄第一堿基的身份。從每個并入的堿基中去 除3'終止子和熒光團,并且重復并入、檢測以及識別的步驟。當利用Illumina測序來檢測 RNA時,除分離并且擴增RNA片段以確定樣本的RNA表達之外,應用相同的方法。在用測序儀 詢問序列之后,可以在如FASTQ文件的數據文件中輸出序列,該數據文件是用于存儲生物序 列和質量分數的基于文本的格式(參看上文的論述)。
[0151] 可以在所提供的本發明的方法中使用的DNA測序技術的另一實例是生命技術公司 (Life Technologies)提供的Ion Torrent?測序。參看美國專利申請第2009/0026082號、第 2009/0127589 號、第2010/0035252 號、第2010/0137143號、第2010/0188073號、第2010/ 0197507 號、第 2010/0282617 號、第2010/0300559 號、第 2010/0300895 號、第 2010/0301398 號 以及第2010/0304982號,其中每一個的內容以全文引用的方式并入本文中。在Ion Torrent?測序中,DNA被剪切成大約300-800個堿基對的片段,并且這些片段是鈍端的。隨后 將寡核苷酸銜接子連接到片段的末端。銜接子充當用于片段的擴增和測序的引物。片段可 以連接到表面,并且以使得這些片段可個別地分辨的分辨率連接。一個或多個核苷酸的添 加釋放了質子(H+),在測序儀器中檢測并且記錄其信號。信號強度與并入的核苷酸的數目 成正比。Ion Torrent數據也可以作為FASTQ文件輸出。
[0152] 可以在所提供的本發明的方法中使用的DNA和RNA測序技術的另一實例是454?測 序(羅氏公司(Roche))(馬古利斯M(Margulies M)等人,2005,自然(Nature),437,376-380)。454?測序是合成測序技術,該技術還利用焦磷酸測序。DNA的454?測序包括兩個步 驟。在第一步驟中,DNA被剪切成大約300-800個堿基對的片段,并且這些片段是鈍端的。隨 后將寡核苷酸銜接子連接到片段的末端。銜接子充當用于片段的擴增和測序的引物。可以 使用例如含有5 '生物素標記的銜接子B將這些片段連接到DNA捕獲珠子,例如涂布抗生蛋白 鏈菌素的珠子。連接到珠子的片段在油水乳液的液滴內PCR擴增。結果是在每個珠子上克隆 擴增的DNA片段的多個拷貝。在第二步驟中,在孔(皮升大小)中捕獲珠子。并行對每個DNA片 段執行焦磷酸測序。一個或多個核苷酸的添加產生了光信號,該光信號通過測序儀器中的 CCD相機記錄。信號強度與并入的核苷酸的數目成正比。焦磷酸測序利用在核苷酸添加后釋 放的焦磷酸(PPi)。在腺苷5'磷酰硫酸存在下PPi通過ATP硫酸化酶轉化為ATP。熒光素酶使 用ATP將熒光素轉化為氧化熒光素,并且此反應產生被檢測和分析的光。在另一實施例中, 使用焦磷酸測序來測量基因表達。RNA的焦磷酸測序類似于DNA的焦磷酸測序應用,并且通 過將部分rRNA基因序列的應用連接到微觀珠子,并且隨后將連接物放置到個別孔中來實 現。隨后擴增連接的部分rRNA序列以便確定基因表達譜。莎倫?馬爾希(Sharon Marsh),泣 子生物學方、法中的 Pyrosequenciiig.^)方案(Pvroseciuencing'? Protocols in Methods in Molecular Biology),第373卷,15-23(2007)〇
[0153] 可以在所提供的本發明的方法中使用的DNA和RNA檢測技術的另一實例是SOLiD? 技術(應用生物系統公司(Applied Biosystems)) dOLiD?技術系統是可以用來運行DNA和 RNA兩者的大規模并行下一代測序的基于連接的測序技術。在DNA的SOLiD?測序中,基因組 DNA被剪切成片段,并且將銜接子連接到片段的5'和3'末端以產生片斷庫。或者,可以通過 將銜接子連接到片段的5'和3'末端、使片段環化、消化環化的片段以產生內部銜接子以及 將銜接子連接到所得片段的5'和3'末端以產生配對庫來引入內部銜接子。接著,在含有珠 子、引物、模板以及PCR組分的微反應器中制備克隆珠子群。在PCR之后,使模板變性并且使 珠子富集以分離具有擴展的模板的珠子。所選珠子上的模板經歷3'修飾以允許接合到玻璃 載片。可以通過部分隨機的寡核苷酸與由特定熒光團識別的確定中心的堿基(或堿基對)的 連續雜交和連接來確定序列。在記錄顏色之后,裂解并且去除連接的寡核苷酸,隨后重復該 過程。
[0154] 在其它實施例中,使用SOLiD?基因表達系列分析(SAGE)來測量基因表達。基因表 達系列分析(SAGE)是允許大量基因轉錄物的同步和定量分析而不需要為每個轉錄物提供 個別雜交探針的方法。首先,產生含有足夠的信息來唯一地識別轉錄物的短序列標記(約 10-14bp),只要該標記從每個轉錄物內的唯一位置獲得。隨后,將許多轉錄物連接在一起以 形成可以進行測序的長系列分子,同時顯示多個標記的身份。可以通過確定個別標記的豐 度并且識別對應于每個標記的基因來定量評估任何轉錄物群的表達模式。關于更多細節, 參看例如威爾克斯庫(Velculescu)等人,科學(Science)270 :484487(1995);和威爾克斯庫 等人,細胞(Cell)88:24351(1997),其中每一個的內容以全文引用的方式并入本文中。
[0155] 可以在所提供的本發明的方法中使用的另一測序技術包含例如赫利克斯 (Helicos)真實單分子測序(True Single Molecule Sequencing,tSMS)(哈里斯T.D. (Harris T.D.)等人(2008)科學320:106-109)。在tSMS技術中,將DNA樣本裂解成大約100到 200個核苷酸鏈,并且將多聚腺苷酸序列添加到每個DNA鏈的3'末端。每條鏈通過添加熒光 標記的腺苷核苷酸來標記。隨后將DNA鏈與流動細胞雜交,其中含有數百萬被固定到流動細 胞表面的寡-T捕獲位點。模板可以具有約1億個模板/cm 2的密度。隨后將流動細胞載入儀器 (例如,He 1 i Scope . TM.測序儀)中,并且激光照射流動細胞的表面,從而顯示每個模板的位 置。CCD相機可以在流動細胞表面上映射模板的位置。隨后將模板熒光標記裂解并且洗掉。 通過引入DNA聚合酶和熒光標記的核苷酸開始測序反應。寡-T的核酸用作引物。聚合酶以模 板定向的方式將標記的核苷酸并入引物。去除聚合酶和未并入的核苷酸。通過對流動細胞 表面成像來檢測具有定向并入的熒光標記的核苷酸的模板。成像之后,裂解步驟去除熒光 標記,并且用其它熒光標記的核苷酸重復該過程直到實現所要讀取長度。在每個核苷酸添 加步驟下收集序列信息。tSMS的進一步描述展示于例如拉皮迪(Lapidus)等人(美國專利第 7,169,560號)、拉皮迪等人(美國專利申請第2009/0191565號)、奎克等人(美國專利第6, 818,395號)、哈里斯(美國專利第7,282,337號)、奎克等人(美國專利申請第2002/0164629 號)以及布拉斯拉維斯基(Braslavsky)等人,PNAS(USA) ,100:3960-3964(2003)中,這些參 考文獻中的每一個的內容以全文引用的方式并入本文中。
[0156] 可以在所提供的本發明的方法中使用的測序技術的另一實例包含用以對DNA和 RNA兩者進行測序的太平洋生物科學(Pacific Biosciences)的單分子實時(SMRT)技術。在 SMRT中,四個DNA堿基中的每一個連接到四種不同熒光染料之一。這些染料是磷酸相連的。 單個DNA聚合酶與模板單鏈DNA單分子一起固定在零模式波導(ZMW)底部。ZMW是能夠相對于 在ZMW外快速擴散(以微秒為單位)的熒光核苷酸背景觀測單核苷酸通過DNA聚合酶并入的 限制結構。核苷酸并入生長鏈中耗時若干毫秒。在此時間期間,熒光標記被激發并且產生熒 光信號,并且熒光標記裂解開。檢測染料的對應熒光指示并入了哪種堿基。重復該過程。為 了對RNA測序,用ZMW中的逆轉錄酶置換DNA聚合酶,并且相應地遵循該過程。
[0157] 可以在所提供的本發明的方法中使用的測序技術的另一實例是納米孔測序(索尼 G V(Soni G V)和米勒(Meller),臨床化學(AClin Chem)53:1996-2001) (2007)。納米孔是 直徑約為1納米的小孔。納米孔浸入在導電流體中以及跨納米孔施加電勢會因離子傳導通 過納米孔而產生輕微的電流。流動的電流量對納米孔的大小敏感。隨著DNA分子通過納米 孔,DNA分子上的每個核苷酸會不同程度地阻礙納米孔。因此,隨著DNA分子通過納米孔而通 過納米孔的電流的變化呈現DNA序列的讀數。
[0158] 可以在所提供的本發明的方法中使用的測序技術的另一實例包括使用化學敏感 場效應晶體管(chemFET )陣列以對DNA測序(例如,如描述于美國專利申請公開第 20090026082號中)。在該技術的一個實例中,DNA分子可以放入反應室中,并且模板分子可 以與結合到聚合酶的測序引物雜交。通過chemFET,可以通過電流的變化檢測到一個或多個 三磷酸酯并入到測序引物的3'末端處的新核酸鏈中。陣列可以具有多個chemFET傳感器。在 另一實例中,可以將單個核酸連接到珠粒,可以在珠子上擴增核酸,并且可以將個別珠子轉 移到chemFET陣列上的個別反應室,其中每個室具有一個chemFET傳感器,并且可以對核酸 測序。
[0159] 可以在所提供的本發明的方法中使用的測序技術的另一實例包括使用電子顯微 鏡(蒙德里安那基斯E.N. (Moudrianakis E.N.)和比爾M. (Beer M.)美國國家科學院院刊 (Proc Natl Acad Sci USA)1965年3月;53:564-71)。在該技術的一個實例中,使用金屬標 記來標記個別DNA分子,這些金屬標記是使用電子顯微鏡可辨別的。隨后在平坦表面上拉伸 這些分子并且使用電子顯微鏡成像以測量序列。
[0160] 另外的檢測方法可以利用結合微陣列用于后續的熒光或無熒光檢測、使用質譜方 法的條碼質量檢測、發射的無線電波檢測、已比對條碼的散射光的檢測、使用定量PCR或數 字PCR方法的熒光檢測。比較核酸雜交陣列是用于檢測患者的樣本DNA內的拷貝數變異的技 術。樣本DNA和參考DNA是使用例如不同的熒光團以不同方式標記,并且隨后與眾多探針雜 交。隨后測量樣本和參考的熒光強度,并且隨后使用熒光強度比來計算拷貝數變異。在希納 維M(Shinawi M),張 SW(Cheung SW)陣列CGH和其臨床應用(The array CGH and its clinical applications),今日藥物發現(Drug Discovery Today)13(17_18) :760_70中更 詳細論述了比較基因組雜交陣列的方法。微陣列檢測可以不直接產生FASTQ文件,然而可使 用程序將由微陣列測序儀產生的數據轉化為FASTQ格式或類似的格式。
[0161] 檢測DNA分子、RNA分子以及拷貝數的另一方法是熒光原位雜交(FISH)。原位雜交 協議(伊恩達比(Ian Darby)編,2000) AISH是一種分子細胞遺傳學技術,其檢測特定的染 色體重排,如DNA序列的突變和拷貝數變異。DNA分子經過化學變性并且分離成兩個鏈。隨后 將單鏈探針與該DNA的變性鏈一起培育。信號鏈探針取決于目標序列部分而選擇,并且對互 補序列部分具有尚未和性。探針可以包含重復序列探針、全染色體探針以及基因座特異性 探針。在培育時,將合并的探針與DNA鏈雜交。隨后在顯微鏡下將結果可視化并且進行定量 以評估任何變異。
[0162] 在另一實施例中,使用基于MassARRAY?的基因表達譜方法來測量基因表達。在西 格諾公司(Sequenom, Inc.)(加利福尼亞州圣地亞哥)根據RNA和逆轉錄的分離所開發的基 于MassARRAY?的基因表達譜方法中,所得cDNA被外加合成DNA分子(競爭者),其匹配所有位 置中的目標cDNA區(除單一堿基外)并且用作內標。cDNA/競爭者混合物經過PCR擴增并且經 歷后PCR蝦堿性磷酸酶(SAP)的酶處理,使得其余的核苷酸去磷酸化。在堿性磷酸酶失活后, 來自競爭者和cDNA的PCR產物經歷引物延伸,產生針對競爭者和cDNA派生PCR產物的不同質 量信號。純化后,在芯片陣列上分配這些產物,該芯片陣列預負載有用基質輔助激光解吸電 離飛行時間質譜(MALDI-TOF MS)分析進行分析所需的組分。隨后通過分析所產生的質譜的 峰面積比來定量反應中存在的cDNA。關于其它細節,參看例如丁 (Ding)和坎托(Cantor),美 國國家科學院院刊100:3059 3064(2003)。
[0163] 其它基于PCR的技術包含例如示差顯示(梁(Liang)和帕迪(Pardee),科學257:967 971 (1992));擴增片段長度多態性(iAFLP)(川本(Kawamoto)等人,基因組研究(Genome Res. ) 12:1305 1312(1999)) ;BeadArray?技術(加利福尼亞州圣地亞哥的億明達公司 (11 lumina,San Diego,Cal if ?);奧利芬特(01 iphant)等人,疾病標記的發現(生物技術增 刊)(Discovery of Markers for Disease(Supplement to Biotechniques)),2002年6月; 弗格森(Ferguson)等人,分析化學(Analytical Chemistry)72:5618(2000));用于檢測基 因表達的珠子陣列(BADGE ),在用于基因表達的快速分析中使用市售的LuminexlOOLabMAP 系統和多顏色編碼的微球(得克薩斯州奧斯汀的路明克斯公司(Luminex Corp.,Austin, Tex.))(楊(Yang)等人,基因組研究11:1888 1898(2001));以及高覆蓋率表達譜(HiCEP)分 析(福村(Fukumura)等人,核酸研究(Nucl .Acids.Res.)31( 16)e94(2003))。其中每一個的 內容以全文引用的方式并入本文中。
[0164] 在某些實施例中,還可以識別或使用微陣列技術確認基因表達的變異,微陣列技 術包含尼龍膜陣列、微芯片陣列以及玻璃載片陣列,這些陣列例如可從昂飛公司 (Affymetrix)(加利福尼亞州圣克拉拉)購得。一般來說,RNA樣本被分離,并且經由逆轉錄 轉化為標記的cDNA。標記的cDNA隨后通過來自相關細胞或組織的特定DNA探針雜交到尼龍 膜、微芯片或玻璃載片上。隨后檢測雜交的cDNA并且進行定量,可以將所得的基因表達數據 與用于分析的對照進行比較。標記、雜交以及檢測的方法取決于微陣列支撐物是尼龍膜、微 芯片還是玻璃載片而不同。尼龍膜陣列通常用P-dNTP標記的探針進行雜交。玻璃載片陣列 通常涉及用兩個不同的熒光標記的核苷酸來標記。在耶特曼(Yeatman)等人(美國專利申請 第2006/0195269號)中展示了制備微陣列和測定基因產物表達(例如,RNA或蛋白質)的方 法,該申請的內容以全文引用的方式并入本文中。
[0165] 在一些實施例中,可以單獨使用或結合其它方法(例如,免疫分析或RNA測量分析) 使用質譜(MS)分析,以確定本文所公開的一個或多個生物標記在生物樣本中的存在和/或 數量。在一些實施例中,MS分析包含基質輔助激光解吸/電離(MALDI)飛行時間(TOF)MS分 析,如直接點MALDI-T0F或液相色譜MALDI-T0F質譜分析。在一些實施例中,MS分析包括電噴 霧電離(ESI)MS,如液相色譜(LC)ESI-MS。可以使用市售的光譜儀來完成質量分析。使用包 含MALDI-TOF MS和ESI-MS的MS分析來檢測生物樣本中生物標記肽的存在和數量的方法是 所屬領域中已知的。關于進一步的指導,參看例如美國專利第6,925,389號、第6,989,100號 以及第6,890,763號,其中每一個以全文引用的方式并入本文中。
[0166] 可以使用相關領域的技術人員已知的多種技術來測定在本發明的方法、序列構建 體以及系統中使用的蛋白質序列。舉例來說,可以通過以質譜分析蛋白質或蛋白質的一部 分或使用埃德曼降解(Edman degradation)產生氨基酸序列和氨基酸序列讀數。質譜可以 包含例如基質輔助激光解吸/電離(MALDI)飛行時間(TOF)MS分析,如直接點MALDI-T0F或液 相色譜MALDI-T0F質譜分析;電噴霧電離(ESI )MS,如液相色譜(LC)ESI-MS;或其它技術,如 MS-MS。埃德曼降解分析可以使用商業儀器執行,如型號49X Procise蛋白質/肽測序儀(應 用生物系統公司/生命技術公司)。測序后的氨基酸序列(即多肽,即蛋白質)的長度可以是 至少10個氨基酸,例如長度是至少20個氨基酸,例如長度是至少50個氨基酸。
[0167] 以引用的方式并入
[0168] 在本發明通篇中已經參考并且引用了其它文檔,如專利、專利申請、專利公開、雜 志、書籍、論文、網絡內容。所有此類文檔在此出于所有目的以全文引用的方式并入本文中。
[0169] 等效物
[0170]根據包含對本文引用的科學和專利文獻的參考的本文檔的完整內容,所屬領域的 技術人員將顯而易見除本文展示和描述的那些之外的本發明的各種修改以及其許多其它 實施例。本文中的標的物含有重要信息、范例和指南,其可適于本發明在其各種實施例和其 等效物中的實踐。
【主權項】
1. 一種識別疾病誘導的遺傳突變的方法,其包括 獲得對應于生物體的非患病樣本中的核酸的第一核酸序列; 識別所述第一序列與所選擇的非患病參考序列之間的差異; 制備第一參考序列構建體,所述第一參考序列構建體在所述第一序列與所述參考序列 之間存在差異的所述第一參考序列構建體中的位置處將所述第一序列與所述所選擇的參 考序列之間的所述差異表示為兩個或更多個替代路徑; 將對應于所述生物體的患病樣本的第二序列的一個或多個讀數與所述第一參考序列 構建體進行比對;以及 將所述第二序列與所述第一參考序列構建體之間的差異識別為因疾病所致的突變。2. 根據權利要求1所述的方法,其進一步包括制備第二參考序列構建體,所述第二參考 序列構建體在所述第一序列與所述參考序列之間存在差異或所述第二序列與所述第一序 列之間存在差異的所述第二參考序列構建體中的位置處將所述第一序列、所述第二序列以 及所述參考序列之間的差異表示為兩個或更多個替代路徑; 將對應于所述生物體的晚期疾病樣本的第三序列的一個或多個讀數與所述第二參考 序列構建體進行比對;以及 將所述第三序列與所述第二參考序列構建體之間的差異識別為因晚期疾病所致的突 變。3. 根據權利要求1所述的方法,其中所述第二序列表示因所述疾病所致的主要遺傳克 隆。4. 根據權利要求2所述的方法,其中所述第三序列表示因所述疾病所致的次要遺傳克 隆。5. 根據權利要求1到4中任一項所述的方法,其中所述疾病是癌癥。6. 根據權利要求5所述的方法,其中所述癌癥選自乳腺癌、肺癌、皮膚癌、前列腺癌、甲 狀腺癌、胰腺癌、膀胱癌或卵巢癌。7. 根據權利要求5所述的方法,其中所述癌癥是白血病或淋巴瘤。8. 根據權利要求1到4中任一項所述的方法,其中所述疾病是自身免疫疾病。9. 根據權利要求1所述的方法,其中所述參考序列構建體是有向非循環圖。10. 根據權利要求1所述的方法,其中所述序列讀數的長度是至少約50bp。11. 根據權利要求10所述的方法,其中所述序列讀數的長度是至少約l〇〇bp。12. 根據權利要求1所述的方法,其中所述第二序列與所述第一參考序列之間的所述差 異包括插入、缺失、多態性或結構變異。13. 根據權利要求1所述的方法,其中所述參考序列構建體的長度是至少約1,000, 000bp〇14. 根據權利要求1所述的方法,其中所述參考序列構建體表示染色體。15. 根據權利要求1所述的方法,其中所述參考序列構建體表示基因組。16. -種識別生物體中因疾病的晚期所致的突變的方法,其包括: 獲得對應于生物體的非患病樣本的第一序列以及對應于所述生物體的患病樣本的第 二序列; 識別所述第一序列與所述第二序列之間的差異; 制備參考序列構建體,所述參考序列構建體在所述第一序列與所述第二序列之間存在 差異的所述參考序列構建體中的位置處將所述第一序列與所述第二序列之間的所述差異 表示為兩個或更多個替代路徑; 將所述生物體的序列讀數與所述參考序列構建體進行比對;以及 將所述序列讀數與所述參考序列構建體之間的差異識別為因所述疾病的晚期所致的 突變。17. 根據權利要求16所述的方法,其進一步包括將所述生物體診斷為患有所述疾病的 晚期。18. 根據權利要求16或17所述的方法,其中所述疾病是癌癥。19. 根據權利要求18所述的方法,其中所述癌癥選自乳腺癌、肺癌、皮膚癌、前列腺癌、 甲狀腺癌、胰腺癌、膀胱癌或卵巢癌。20. 根據權利要求18所述的方法,其中所述癌癥是白血病或淋巴瘤。21. 根據權利要求18所述的方法,其中所述疾病的所述晚期是轉移性癌癥。22. 根據權利要求16或17所述的方法,其中所述疾病是自身免疫疾病。23. 根據權利要求16所述的方法,其中所述參考序列構建體是有向非循環圖。24. -種評估受試者中已知遺傳疾病的進展的方法,其包括: 創建有向非循環圖,所述有向非循環圖表示受試者的非患病細胞的基因序列以及所述 受試者的患病細胞的所述基因序列; 將對應于所述受試者的遺傳樣本的第一序列讀數與所述有向非循環圖進行比對, 確定所述第一序列讀數與所述有向非循環圖之間的差異,其中差異表示所述疾病的進 展。25. 根據權利要求24所述的方法,其進一步包括修改所述有向非循環圖以并入所述第 一序列讀數與所述原始有向非循環圖之間的所述差異; 將對應于所述受試者的遺傳樣本的第二序列讀數與所述修改的有向非循環圖進行比 對;以及 確定所述第二序列讀數與所述修改的有向非循環圖之間的差異,其中差異表示所述疾 病的進一步進展。26. 根據權利要求24或25所述的方法,其中所述疾病是癌癥。27. 根據權利要求26所述的方法,其中所述癌癥選自乳腺癌、肺癌、皮膚癌、前列腺癌、 甲狀腺癌、胰腺癌、膀胱癌或卵巢癌。28. 根據權利要求26所述的方法,其中所述癌癥是白血病或淋巴瘤。29. 根據權利要求26所述的方法,其中所述疾病的進展與轉移性癌癥相關。30. 根據權利要求24或25所述的方法,其中所述疾病是自身免疫疾病。31. -種確定轉移性癌癥的遺傳標記物的方法,其包括: 創建有向非循環圖,所述有向非循環圖表示受試者的非癌細胞的基因序列與所述受試 者的非轉移性癌細胞的所述基因序列之間的變異; 將對應于所述受試者的轉移性細胞的遺傳樣本的多個序列讀數與所述有向非循環圖 進行比對, 確定所述序列讀數與所述有向非循環圖之間的差異,從而確定轉移性克隆的遺傳標記
【文檔編號】C12Q1/68GK105849279SQ201480066056
【公開日】2016年8月10日
【申請日】2014年10月17日
【發明人】丹尼斯·庫拉爾
【申請人】七橋基因公司