專利名稱:核酸序列測定方法
背景技術:
圖2(引自“ABI PRISM(應用生物系統公司的注冊商標)BigDye(應用生物系統公司的注冊商標)終止子循環測序快速反應試劑盒”)顯示的是熒光染料終止子中若丹明的標準發射譜。四種類型的檢測元件分別被設定成對四種熒光染料(dR110,dR6G,dTAMRA and dROX)最為敏感。
然而,該熒光染料的發射譜顯然不夠尖銳,而且其基部明顯滲入了左右兩側的檢測元件。如圖3所示,四種類型熒光染料的檢測元件都可以檢測到使用dR6G標記的堿基A(腺嘌呤)的峰形,但是在強度上有所不同。由于當前的信號強度比(Pa∶Pt∶Pg∶Pc)是恒定的,因此按照該值進行逆變換,可以專一性地獲得堿基A的峰形。此法亦可應用于其它三種類型的熒光染料。
檢測元件中的信號強度表達如下堿基A峰形的信號強度比=APa(=1)∶Apg∶Apc∶APt堿基G峰形的信號強度比=GPa∶Gpg(=1)∶Gpc∶GPt堿基C峰形的信號強度比=CPa∶Cpg∶Cpc(=1)∶CPt堿基T峰形的信號強度比=TPa∶Tpg∶Tpc∶TPt(=1)堿基A發射強度=Ia堿基G發射強度=Ig
堿基C發射強度=Ic堿基T發射強度=It堿基A的檢測元件Da中檢測到的信號強度=Oa堿基G的檢測元件Dg中檢測到的信號強度=Og堿基C的檢測元件Dc中檢測到的信號強度=Oc堿基T的檢測元件Dt中檢測到的信號強度=Ot此時,熒光染料的發射強度(Ia,Ig,Ic和It)與接收的信號強度(Oa,Og,Oc和Ot)的關系如下面的矩陣所示 因此,為了獲得原始信號,上面表達式的兩端可同乘以矩陣M的反矩陣。例如,堿基(熒光染料)的信號波形(Ia,Ig,Ic和It)可從信號波形(Oa,Og,Oc和Ot)獲得。此反矩陣為矩陣的值。
此外,當一個堿基的峰信號與另一個堿基的峰信號交迭時,所檢測到的波形公認為僅僅是光譜的疊加。
因此,當獲得相關四種類型熒光染料的信號強度比后,各自熒光染料(四種堿基)的峰形可通過在矩陣中表達以及利用其反矩陣乘以原始檢測波形的方式來獲得。正確地獲得信號強度比,就可正確地獲得熒光染料的矩陣值。
一般來說,為了獲得熒光染料的矩陣值,采用因堿基而異的熒光染料標記的堿基依次遷出,通過檢測元件選擇性地分別測定四種波長來檢測信號峰的強度(高度)。
由于依賴各自堿基上所標記的熒光染料以及包括一個光學系統在內的信號檢測系統,熒光染料的矩陣值在某種程度上是特異性的,因此,每次當遷移/檢測的硬件做過調整或組成有所改變時,需要設定一個新值。另一方面,一旦這個值設定后,就沒必要重新設定,除非發生了故障,也就是說,矩陣的值由于某種原因被替換。
從一開始四種類型的熒光染料就是混合在一個試劑盒中用來進行熒光染料終止子標記的。因此需要一個熒光染料是分裝的特定試劑盒來進行矩陣值的校正。
此外,也需要利用這種專一的試劑盒來進行遷移率的校正。該步驟只是在一開始時進行,因此當遷移率正常時,很少會產生問題。當進行更改遷移率條件的實驗時,就要先對試劑盒本身進行評估實驗,或反復校正光學系統。但這非常麻煩,而且代價很高。
當使用這種專一的試劑盒時,堿基必須使用不同的熒光染料進行標記,并且依次遷出。因此,首先不可能清晰分辨出獲得的峰形具體屬于哪個堿基。而且,當采用的是假定檢測元件對某個堿基(例如,圖3中的堿基A)的峰形具有最高信號強度的方法時,并不能保證該峰形只是由一個堿基構成的,也不能保證堿基之間由于遷移率的不同絕對不會與其余的堿基發生交迭。例如,假定鳥嘌呤G的遷移率大于腺嘌呤A,如圖4所示,峰A和G可能有部分互相重疊。當峰部分互相重疊時,信號強度比被改變,從而無法獲得正確的矩陣值。
為了實現這一點,本發明的目的在于提供一種不需依賴專一的試劑盒便可以從實際樣品的遷移率來獲得矩陣值的方法。
本發明提供了一種對波形信號進行矩陣轉換并在此基礎上測定核酸堿基序列的方法,波形信號是從每種熒光染料的檢測元件中獲得的,為了獲得每種堿基的信號波形,大量具有不同熒光波形的熒光染料被用來作為熒光染料終止子標記,該方法獲得用于通過以下步驟從實際樣品遷移率進行矩陣轉換的矩陣值①從一個合適的范圍內提取峰
②刪除間距不規則的峰③依據堿基類型將峰分為四組④獲得已經分類的四組峰的信號強度比⑤將相應的堿基分配到已分類的四組中,然后⑥通過每個堿基組峰形的信號強度比來獲得矩陣的值。
按照本發明,從實際樣品的遷移率所獲得的峰中提取那些符合規定條件的峰,通過這些峰便可得到矩陣的值,籍此不使用專一的試劑盒就能夠測定堿基的序列。
通過下面結合附圖的本發明的具體描述,本發明前述的以及其它的目的,特征,狀況,優點將更加明顯。
優選實施例的描述下面將參照
圖1描述本發明第一個實施例的方法。
①提取峰。
對遷移波形而言,具有良好信噪比的清晰的峰形一般是在信號的開始部分獲得。因此,本操作的起始步驟是在信號起始位點的一定范圍內提取峰。在此情況下,對峰進行判定的依據是最大熒光染料信號的強度要大于使用base caller(堿基測序的程序)所能檢測出的峰的最小水平。這是因為在小信號中信噪比減弱了。
②刪除間距不規則的峰。
一般來說,堿基序列如果連續包含了具有較小或較大遷移值的堿基,這些堿基的峰會互相交迭;而且在此情況下,前后部分的峰間距是不規則的。當檢測到這樣的部分并刪除位于該部分之中的峰,與遷移率有關的大部分問題都可以得到解決。
③依據信號強度將峰分類。
例如,在BigDye終止子中分為A(腺嘌呤)組[Pa>Pt>Pg>Pc],T(胸腺嘧啶)組[Pt>Pa>Pc>Pg],G(鳥嘌呤)組[Pg>Pa>Pt>Pc]及C(胞嘧啶)組[Pc>Pt>Pa>Pg]。四種堿基最初就必須分為四種類型,但由于Sanger反應,純化失敗或噪音問題可能出現額外的可分類的峰組。在這種情況下,將上述四個具有較多峰數的組進行歸類的前提是異常峰出現的概率是很小的。同樣,當個別波長的熒光染料信號強度大于鄰近波長的熒光染料信號強度時,它的峰將視為異常而被刪除。在②中未被刪除的由于遷移率不同而造成的疊加峰將在這步處理中進一步被刪除。
④獲得已經分類的四組峰的信號強度比應用各種計算方法如平均值或中值等計算和獲得每組的信號強度比。
⑤將相應的堿基分配到已分類的四組中。
基本上,在峰A(腺嘌呤)中Pa有最強的信號強度比,而在峰T(胸腺嘧啶)中Pt應該有最強的信號強度比。但由于監測器的敏感性設置或類似情況可能使信號強度發生顛倒。例如,由于監測器對腺嘌呤的低敏感性或監測器對胸腺嘧啶的高敏感性使峰A(腺嘌呤)表現出[Pt Pa]而呈現為T(胸腺嘧啶)。然而,如圖5所示,當A(腺嘌呤)表現為[Pt Pa>Pg>Pc]而T(胸腺嘧啶)表現為[Pt Pa>Pc>Pg]時,可按照第三大信號進行區別,從鄰近的Pg的波長驗證其為A(腺嘌呤)。
當二者都表現為[Pt Pa>Pg>Pc]時,Pg與其鄰近波長Pa的強度比Pg/Pa可分為兩組作為比較,假定具有較大的值的組為A(腺嘌呤)。
⑥通過每個堿基組峰波長的信號強度比來獲得矩陣的值。
通過獲得各堿基組的峰波長的信號強度比來建立信號強度比的矩陣。并計算出該矩陣的反矩陣以獲得矩陣的值。
⑦執行普通的base calling(堿基測序)應用獲得的矩陣值,通過波形信號的矩陣轉換來得到堿基的信號波形,并在此基礎上測定堿基序列。
⑧從base calling的結果進一步獲得最適矩陣值。
Base caller通常具有與已測序堿基相關的可信度。在這一步中,在全部數據范圍內提取幾乎完全正確的堿基(峰信號),用它們的波形信號信息再次運行步驟②到④。現在處理后的峰組作為信號波形其優先級通常大于步驟①中獲得的峰組,而且因為其數據范圍不僅局限在起始點上而且覆蓋在一個寬的范圍上,從而具有更多的峰數。這樣可以獲得一個具有更高精確性的正確的矩陣值。
⑨保存獲得的矩陣值。
隨后按照該矩陣值運行base calling。當某個隨遷移條件和試劑盒而發生變化的指數加到矩陣值中時,運行相同的程序便可簡化矩陣值的分配。
毋需贅言,由于Sanger反應或純化的失敗,聚合物或膠的故障,或者目的(原始)樣品遷移中的噪音問題,建立該矩陣值是不可能的。例如,在上面已被分類的四個組內與步驟③中的其余組內的大量峰沒有明顯的差別,或者在步驟⑧中作為正確堿基(峰)的數量太少。特別是當在步驟⑧中不能獲得大量的可依靠的峰時,原始的矩陣值極有可能是錯誤的。當然,此類樣品的遷移率不能作為目的樣品的遷移率來獲得矩陣值。
以上描述的是在運行過程中沒有任何限制條件的方法,本發明的第二個實施例將描述限制了不同條件的簡單方法。
被限制的條件是如下兩點(1)檢測元件的敏感性設定為Pa在A峰(腺嘌呤)中最強,Pt在T峰(胸腺嘧啶)中最強,Pg在G峰(鳥嘌呤)中最強,Pc在C峰(胞嘧啶)中最強。這種調整一般會造成這樣一個次級效應不同堿基的信號強度是一致的。這對于base caller是非常有利的,但反常的是,為了使堿基的峰高度一致,強度可能會被輕微的顛倒。
(2)利用反應試劑盒來識別的熒光染料遷移率或強度上的差別已經包括在算法中了。
條目(1)顯示的是為了調節一個確保信噪比并施行精確遷移的遷移系統所需要基本內容。同樣在條目(2)中,在每個遷移中使用的反應試劑盒不可能都是完全不同規格的,但當繼續使用現有的反應試劑盒時,一般要重新創建或調節base caller,這樣會改善base caller的精度。換言之,條目(1)與條目(2)并非只是限制條件,更是DNA測序系統中進行堿基精確測序的一般方法,并不會造成大的負擔。
每個熒光染料檢測元件所檢測到的信號強度比與排列的趨勢,盡管是近似的,但按照條目(1)調整靈敏度并按照條目(2)將不同熒光染料間強度的差異識別出來,最終還是可以在一定程度上進行預測的。因此,對于從初始狀態開始就不斷地確定所要提取的峰以及將相同的峰歸到四種堿基類型中去,條目(1)與條目(2)已經足夠了。這樣,步驟③與⑤中的處理可以顯著地簡化。
當從條目(2)中識別出熒光染料的遷移率水平后,峰間距的差量就可輕易地推算出來,以用來提高步驟②中將峰選擇歸類的精度。例如,G(鳥嘌呤)在BigDye終止子中有最高的遷移率,因此存在這樣一種趨向在G(鳥嘌呤)前面的峰間距要比位于其后面的峰間距狹窄,除非G(鳥嘌呤)的前后同樣都是G(鳥嘌呤)。這并不反常,相反它是一個正常的情形。在此情況下,這個G(鳥嘌呤)峰信號依然是有效的,除非它前面的峰間距過于狹窄,影響了信號強度比。
下面將更詳盡地描述第二個實施例。
反應試劑盒是一個ET終止子(amersham pharmacia生物技術公司的注冊商標)。在ET終止子中,只有T(胸腺嘧啶)有較慢的遷移率,其它三種堿基可以認為它們彼此之間的遷移率是充分一致的。熒光染料的發射波長由短到長的順序是G(鳥嘌呤)<T(胸腺嘧啶)<A(腺嘌呤)<C(胞嘧啶)。關于檢測元件的敏感性調整方面,在允許強度可有輕微顛倒時,優先考慮各自堿基峰強度的一致性。
流程現描述如下[1]峰的提取從信號起始位點開始的約50bp(堿基對)的范圍內提取四種類型的堿基(信號峰)。大于A(腺嘌呤)與C(胞嘧啶),并且大于T(胸腺嘧啶)強度90%的峰被選出作為G(鳥嘌呤)的候選物。大于A(腺嘌呤)與G(鳥嘌呤)強度90%的峰被選出作為T(胸腺嘧啶)的候選物。大于G(鳥嘌呤),并且大于T(胸腺嘧啶)與C(胞嘧啶)強度90%的峰被選出作為A(鳥嘌呤)的候選物。大于G(鳥嘌呤),A(腺嘌呤)與T(胸腺嘧啶)的峰被選出作為C(胞嘧啶)的候選物。校正峰間距所提取的峰前面與后面的間隔是已經確定的,那些兩個峰之間間隔狹窄以及前后間隔過大的峰從候選峰中排除掉。考慮到T(胸腺嘧啶)的遷移率慢些,允許在T(胸腺嘧啶)的前面及后面做半個峰間距的位移。當至少三個同樣堿基的峰連在一起時,除了兩端的峰信號外,其它的峰信號優先保留。計算信號強度比,然后獲得矩陣值為了獲得各自堿基的中值作為其代表值,計算校正后所保留的峰的信號強度比。使用中值來代替平均值,是因為在噪音大的系統中,平均值與真實值之間會出現偏差。
通過四種類型的代表值可以構建一個矩陣,其反矩陣作為一個矩陣值被獲得。為了執行base calling,進行信號波形的矩陣轉換。利用base calling的結果獲得一個更合適的矩陣值在全部數據范圍內提取base calling結果中幾乎完全正確的堿基(峰信號),通過其信號強度比計算新的矩陣值。將矩陣值保存到一個文件中在遷移過程中的DNA測序單元的識別編號和ET終止子的標記,與矩陣值一起保留在一個文件中。當以后此ET終止子繼續用于該單元的遷移時,base caller會自動調用這個矩陣值。
如實施例所述,相應于本系統的方法學上的調節非常依賴一個包含反應試劑盒及檢測元件的遷移系統。有時流程的順序會不同,甚至需要進行完全相反的條件設定。
然而,與環境相對應的固定的測量標準是必需的,更是高速base caller擁有高精度的條件。
雖然已經詳細地描述和圖示了本發明,但應清楚理解這僅僅是作為圖示說明和實施例,而不是作為限制因素,本發明限定的要旨與范圍僅如所附的要求所述。
權利要求
1.一種核酸測序方法,即對利用熒光終止標記從每個熒光染料的檢測元件所獲得的波形信號進行矩陣轉換,所述熒光終止標記應用了大量具有不同熒光波形的熒光染料,以獲得每個堿基的信號波形,然后在此基礎上測定堿基序列,其中所述方法通過如下步驟獲得從實際樣品遷移率進行矩陣轉換的矩陣值①從一個合適的范圍內提取峰;②刪除間距不規則的峰;③依據所代表的堿基類型將峰分為四組;④獲得已經分類的四組峰的信號強度比;⑤將相應的堿基分配到已分類的四組中;然后⑥通過每個堿基組峰形的信號強度比來獲得矩陣的值。
2.按照權利要求1所述的測序方法,其中步驟①中的合適范圍是指信號開始點的一定范圍。
3.按照權利要求1所述的測序方法,其中步驟①中所提取的峰是指其最大熒光信號強度大于所用測序程序進行峰檢測的最小標準的強度。
4.按照權利要求1所述的測序方法,其中步驟①中將刪除單獨波形熒光信號強度大于鄰近波形的熒光信號強度的峰。
5.按照權利要求1所述的測序方法,其中步驟③中被分類的四組是指上面具有較大峰數的四組。
6.按照權利要求1所述的測序方法,其中步驟④的信號強度比或者是平均值或者是中值。
7.按照權利要求6所述的測序方法,信號強度比是中值。
8.按照權利要求1所述的測序方法,其中步驟⑤的堿基分配是指當四組的最大檢測信號類型各不相同時,這些最大檢測信號類型作為不同組的堿基種類而被分配。
9.按照權利要求1所述的測序方法,在步驟⑤中,當兩組最大檢測信號的類型相同時,按照該兩組中的第三大檢測信號類型進行堿基分配。
10.按照權利要求1所述的測序方法,其中通過所獲得的矩陣值測定堿基序列,隨后通過已被測定的堿基的峰信號再次獲得矩陣值。
11.按照權利要求1所述的測序方法,其中當限定條件時,可對步驟①到⑥中的至少一步進行簡化處理。
全文摘要
從遷移波形信號起始點的一定范圍內提取峰。按照信號強度對峰進行分類以獲得已分類四組的信號強度比。將相應的堿基分配到已分類的四組中以從各自堿基組峰波形的信號強度比獲得矩陣值。通過矩陣值進行堿基序列測定。從而,不應用專一試劑盒可從實際樣品遷移率獲得矩陣值。
文檔編號G01N21/64GK1358868SQ0113972
公開日2002年7月17日 申請日期2001年11月28日 優先權日2000年11月29日
發明者狹間一 申請人:株式會社島津制作所