用于單體型測定的方法和系統的制作方法
【專利摘要】本發明的實施方案提供用于測定生物樣品的單體型的方法和系統。特定的實施方案提供用于基因組的遠程單倍體分型的方法。
【專利說明】用于單體型測定的方法和系統
[0001]本申請要求2011年2月25日遞交的美國臨時專利申請系列號61/446890和2011年6月20日遞交的美國臨時專利申請系列號61/509960的優先權,其兩者通過引用以其全部結合到本文中。
[0002]背景
人類基因組計劃的努力開辟了更廣闊的人類遺傳密碼的窗口。例如使用高通量測序技術進一步解開人類基因組的工作正在不斷的進行中。HapMap (單體型圖)計劃(HapMap(Haplotype Map) Project)為通過比較沒有特定疾病的人群與具有所述疾病的人群的基因組信息,針對發現導致疾病的基因變異的全球性的科學努力。等位基因,對于特定基因的DNA序列的一種或多種形式,可含有一個或多個不同的基因變異和識別的單體型,或者特定染色體上的不同位置或位點的等位基因的組合為HapMap計劃(HapMap Project)的主要焦點。所確認的其中兩組不同的單體型可能與引起疾病的基因異常的位置相關。這樣,HapMap結果將有助于描述在人類基因變異的常見模式以及這些變異是否潛在地與疾病相關。[0003]從這些努力獲得的信息,即使序列是不完整的,并且存在差距和有時是錯誤的,在幫助破譯疾病和障礙背后的遺傳學方面提供有價值的工具。不幸地,進行這樣大規模測序的成本仍然非常高,并且提供更深入的信息的技術比如單染色體單倍體分型、等位基因或引導序列的取相(phasing)為虛幻的。所需要的是從人類基因組解開更多信息的另外的工具和技術。
[0004]概述
目前的基因分型技術可給研究者提供受試者的基因組成。然而,關于提供方便和可擴展的手段的技術有限,這種手段用來測定一個染色體上的什么序列相對于另一個染色體上的相鄰或鄰近的那些序列彼此相鄰或鄰近。圖2舉例說明一種困境,其中受試者的基因型可被測定,然而為測定關注的序列(例如等位基因、單核苷酸多態性(SNP)、拷貝數目變異體(CNV)、基因插入或缺失(插入/缺失(indel)等)是否位于與另一個關注的序列相同的染色體上所獲得的信息不足。例如,對于采自受試者的樣本中的染色體的混合群體(圖2A),可以能自數據測定示例性的基因型(圖2B)。然而,對于測定雜合性等位基因如何在染色體上組合在一起(單倍體分型)提供的信息不足。例如,不知是否母體A (Pa)提供等位基因α和Y,母體B (Pb)提供等位基因α ’和Y ’(圖2C),或者是否它們為混合的(圖2D)。當那些序列在染色體上彼此相隔很遠或位于遠端或遠程時,甚至更加難以測定哪些關注的序列存在于相同的染色體上,從而測定染色體的長單倍型或等位基因取相。
[0005]本公開的實施方案提供用于測定取相的(phased)等位基因而不管其彼此在染色體上的位置(例如近端或遠端)的新的解決方案。在針對解決當前的單倍體分型挑戰的實驗期間,發現提供遺傳物質的不平衡或不對稱分布,對于受試者的準確單倍體分型問題提供一種新的解決方案。在不平衡分布后的引導序列的任選擴增是特別有用的。本發明不限于特定的機制。的確,理解機制對于實踐本發明是沒有必要的。但是,考慮部分基于不平衡物質的差分擴增(differential amplification),擴增信號強度確定染色體的單體型。例如,不同等位基因信號的比例確定哪一個存在于單染色體上,從而確定樣本的取相的單體型。圖3舉例說明這樣的實施方案。原始樣本分布的不平衡(如在3B和3D所見)被利用,并且差分擴增證實,α等位基因被取相或與Pa的Y ’等位基因組合在一起,和α ’在Pb上取相,與Y組合在一起(3Ε)。進一步地,實施方案不限于單倍體樣本,而是當采用二倍體樣本(例如配對的染色體、DNA插入、YACs、BACs、粘粒、F粘粒(fosmids)等)或單倍體樣本(例如來自精子、卵子、完整的水泡樣胎塊(hydatiform mole)等的遺傳互補)時有效。
[0006]發現從通過實踐本文描述的方法提供的基因組中的等位基因取相獲得的信息,在一般性研究和發現努力以及例如疾病檢測、治療和用于降低移植排斥反應的HLA相容性的更高信心方面具有用途。例如,已知的單體型可能與藥物代謝、藥物發現、疾病狀態、癌癥、障礙、移植排斥反應的風險和指定極少數的個性化的衛生保健計劃相關。的確,關于個性化的衛生保健,一旦受試者的個人單體型為已知,那么受試者的特定疾病相關性和治療選擇可專門地進行設計,以滿足所述受試者的需要。
[0007]本公開的一個實施方案包括用于通過提供部分樣品(在核酸樣品中包含關注的兩個或更多個序列之間可檢測的不平衡),并基于所述可檢測的不平衡測定核酸樣品的單體型,測定核酸樣品的單體型的方法。在一些實施方案中,核酸樣品來自基因組或其片段,其中所述基因組源于一個或多個細胞,例如約1-100個細胞。在一些實施方案中,核酸樣品來自哺乳動物,優選地來自人。在其它的實施方案中,核酸樣品來自非人哺乳動物、植物或病毒。在一些實施方案中,核酸樣品包含關注的序列的野生型序列,而在其它的實施方案中,核酸樣品包含關注的序列的變異序列。在一些實施方案中,關注的序列包含關注的一個序列的野生型序列和關注的另一個序列的變異序列或其組合。在一些實施方案中,變異序列選自單核苷酸多態性、拷貝數目變異體、基因組插入和基因組缺失。在一些實施方案中,樣品中關注的兩個或更多個序列之間可檢測的不平衡通過熒光進行測定。在一些實施方案中,樣品中關注的兩個或更多個序列之間可檢測的不平衡通過核酸測序技術、通過例如在微陣列實施的基因分型技術或通過定量聚合酶鏈反應進行測定。
[0008]本公開的一個實施方案包括制備用于單體型測定的部分的方法,所述方法包括提供包含染色體組分的核酸樣品,并把染色體組分不對稱地分布成多個部分,從而制備用于單體型測定的部分。在一些實施方案中,染色體組分的不對稱分布包括把不等量的染色體組分遞送至多個部分中的不同部分中。在一些實施方案中,不對稱地分布的染色體組分的比例與初始細胞群體中的染色體組分的比例不同。在一些實施方案中,染色體組分的不對稱分布包括在多個部分中的不同部分中差異性地降解染色體組分。在一些實施方案中,染色體組分的不對稱分布包括在多個部分中的不同部分中差異性地擴增染色體組分。在一些實施方案中,核酸樣品來自哺乳動物,優選地來自人。在其它的實施方案中,核酸樣品來自非人哺乳動物、植物或病毒。在一些實施方案中,核酸樣品來自多個細胞,例如約5-300個細胞或約10-100個細胞。在一些實施方案中,多個細胞為中期同步的,而在其它的實施方案中,多個細胞不為中期同步的。在一些實施方案中,染色體組分包含在不同位點的兩個或更多個等位基因,其中這些等位基因進一步包含關注的一個或多個序列。
[0009]本公開的一個實施方案包括用于測定關注的兩個或更多個序列的取相(phasing)的方法,所述方法包括提供其中在所述部分中的染色體組分不對稱地分布的部分,從所述部分創建一個庫,對庫中關注的兩個或更多個序列檢測可檢測的信號,并基于可檢測的信號中的所述差異測定關注的兩個或更多個序列的取相。在一些實施方案中,可檢測的信號為熒光信號。在一些實施方案中,關注的兩個或更多個序列為在同一染色體上,并且進一步地位于同一染色體的兩個或更多個不同位點上。在一些實施方案中,位于同一染色體的兩個或更多個不同位點由至少10000、至少100000、至少100000000或至少200000000個核苷酸隔開。在一些實施方案中,所述部分來自個體生物。在一些實施方案中,所述部分來自哺乳動物,例如來自人。在其它的實施方案中,所述部分來自非人哺乳動物、植物或病毒。在一些實施方案中,在提供所述部分用于相測定之前,測定所述部分中關注的兩個或更多個序列之間的不對稱度。在一些實施方案中,測定不對稱度包括所述部分的定量聚合酶鏈反應分析。在一些實施方案中,測定不對稱度包括所述部分的微陣列分析。在一些實施方案中,測定不對稱度包括測定所述部分中關注的兩個或更多個序列之間的信噪比。在一些實施方案中,所述部分中關注的兩個或更多個序列之間的信噪比大于其它部分中的信噪比。在一些實施方案中,信噪比通過熒光檢測來測定。
[0010]本公開的一個實施方案包括用于測定兩個或更多個不同位點的等位基因的相的方法,所述方法包括提供在兩個或更多個不同位點包含等位基因的核酸分子的不對稱分布,其中不對稱分布包含多個部分,其中各獨立的部分包含等位基因的多份拷貝,和其中各獨立的部分包含不同數量的等位基因,區分存在于一個或多個獨立的部分中的核酸分子拷貝中的等位基因,評價存在于一個或多個獨立的部分中的不同數量的等位基因,并且對于兩個或更多個不同位點的等位基因自等位基因的區分和自不同數量的等位基因的評價測定取相。在一些實施方案中,評價包括檢測兩個或更多個不同位點的等位基因的讀取總數減去兩個或更多個不同位點的等位基因的熒光測序讀取數目的差值。在一些實施方案中,不對稱分布的核酸分子來自個體生物。在一些實施方案中,評價等位基因的不同數量包括測定兩個或更多個不同位點的等位基因的比例。在一些實施方案中,評價不同數量包括計數兩個或更多個不同位點的等位基因。在一些實施方案中,區分等位基因包括核酸測序技術,而在其它的實施方案中,區分等位基因包括在微陣列是實施的基因分型技術。在特殊情況下,可使用核酸測序技術和基于陣列的基因分型技術。在一些實施方案中,兩個或更多個不同位點在同一染色體上并由至少10000個核苷酸分開。在一些實施方案中,位于同一染色體的兩個或更多個不同位點由至少100000、至少100000000或至少200000000個核苷酸分開。
[0011]定義` 本文使用的術語“單體型”指的是單倍體基因型、在染色體的不同位置或位點發現的等位基因或DNA序列的組合或組,其通常作為一個單位遺傳而得和例如在易位事件期間被連接。單體型可提供個體的獨特遺傳模式。單體型可依在給定組的位點之間發生的重組事件的數目而定對于一個位點、幾個位點或整個染色體進行測定。等位基因或DNA序列不限于任何特定的類型,并且包括例如正常的基因序列(即非變異的)或變異的基因序列。例如單核苷酸多態性(SNPs)、短串聯重復序列(STRs)等可被考慮為變異的基因序列。術語“取相的等位基因”指的是在單染色體上的特定等位基因的分布。因此,兩個等位基因的“取相”可指表征或測定等位基因是位于單染色體上,還是位于兩個獨立的染色體(例如母系或父系遺傳的染色體)上。除非另作說明,“單體型”和“取相的等位基因”被認為是同義詞。
[0012]本文使用的術語“分離的”、“純化的”或“純化”指的是自樣品去除組分(例如污染物)的產品或行為。例如,核酸通過去除污染宿主細胞或其它蛋白質、用于自其存在的環境分離核酸的鹽、酶、緩沖劑等,被分離或分離遠離細胞碎屑或分離試劑。
[0013]本文使用的術語“樣品”與其在生物學和化學領域的含義一致進行使用。在某種意義上,其意指包括來自從任何來源比如生物和環境樣品得到的樣本或培養物的核酸。生物樣品可得自動物,所述動物包括但不限于人、非人靈長類動物和非人動物,所述非人動物包括但不限于脊椎動物比如嚙齒動物、綿羊、牛科動物、反芻動物、兔類動物、豬、山羊、馬、犬科動物、貓科動物、鳥類等。生物樣品包括但不限于流體比如血液制品、組織、細胞等。生物樣品可進一步屬于植物來源,單子葉植物的或雙子葉植物的、落葉性或常綠的、草本或木本的,包括但不限于農業植物、景觀植物、苗圃植物等。環境樣品可為細菌、病毒、真菌等起源的。優選的樣品為真核生物起源的。基本上,研究者在測定取相的等位基因中關注的任何生物核酸樣品來源適用于本發明。樣品也可包括合成的核酸。核酸的衍生物或產品比如擴增的拷貝或化學改性的種類也包括在內。
[0014]本文使用的術語“核酸”例如可為核苷酸的聚合物或多核苷酸。該術語可用于指定單分子或分子的集合。核酸可為單鏈或雙鏈,并可包括編碼區和各種控制元件的區域、非編碼區、整個染色體、部分染色體、其片段和變體。
[0015]本文使用的術語“不對稱的”、“不平衡的”、“不等的”或“有偏倚的”,當用于指類似項目的分布時,被認為是同義詞,除非另外說明。所述術語指的是類似項目例如染色體或染色體組分的集合,其跨多個部分、等分試樣、亞組等分布,使得在兩個或更多個獨立的部分存在不同數量的類似項目。多個部分中的兩個或更多個獨立的部分可具有類似項目。然而,不是多個部分中的所有部分需要具有項目,相反一個或多個部分、等分試樣、亞組等可能沒有項目。獨立的部分關于存在的項目可為均勻的,或者作為選擇可在獨立的部分存在項目的不均勻集合,使得與一種或多種不同項目一起存在多個類似項目。類似項目可為基本上類似或相同的。例如,類似項目可為具有共有序列的染色體、具有共有序列的染色體的片段、具有共有序列的染色體的至少一部分的拷貝或具有共有序列的其它核酸分子。類似項目的不對稱或不平衡樣品可通過把樣品離散成其組分的比例與初始群體中的比例不相同的部分、等分試樣、亞組等進行制備。類似項目的不對稱分布為例如兩個親代染色體貢獻的分布(例如一個母源染色體和一個父源染色體),這種分布導致部分中兩個親代染色體貢獻的不相等分布例如0.5:1、1:1.5、1:2、1:3、2:3等比例。部分、等分試樣、亞組等可為例如管、孔(例如在微量滴定板中)、微陣列的特征、表面或基底的斑點、珠或顆粒等。
[0016]應該理解,樣品的不對稱、不平衡或偏倚可為相對特征,或者可以相對的方式測定。例如,樣品可具有染色體或染色體組分的不對稱、不平衡或偏倚,其特征為染色體或染色體組分的量不同于存在于所述樣品源自的個體、組織或細胞的染色體或染色體組分的量。這樣,應該理解,樣品源自的個體、組織或細胞可具有至少一種染色體或染色體組分數量的天然存在的不對稱、不平衡或偏倚,而樣品可偏倚以具有至少一種染色體或染色體組分數量的非天然存在的不對稱、不平衡或偏倚。
[0017]圖示
圖1顯示用于產生包含不平衡分布的父系和母系染色體組分的遺傳物質池的實施方案。
[0018]圖2顯示來自父母兩者的染色體混合群體的實例和測定混合群體的單體型的挑戰。[0019] 圖3顯示示例性的染色體群體及其在測定單體型方面的用途。
[0020]圖4證實對于實踐本文描述的方法可得到的包括遺傳物質的不平衡分布的示例性基因分型信息。
[0021]圖5證實與自給定的試驗產生有用信息的可能性(即可測量差異的概率)相比較的示例性加載百分數(預期加載的目標分子數目/試驗孔或位置X 100)。
[0022]圖6證實用于產生具有兩個代表性等位基因即等位基因A和等位基因B的遺傳物質的不平衡分布的偏倚擴增方法的實施方案。
[0023]圖7證實用于產生遺傳物質的不平衡分布的模板偏倚降解的方法的實例。
[0024]圖8證實用于產生具有兩個代表性的等位基因即等位基因A和等位基因B的遺傳物質的不平衡分布的偏倚降解的方法的實施方案。
[0025]圖9顯示正常二倍體個體的突光原始強度(raw intensities)的示例性散點圖和本文描述的方法把雜合SNPs拆分為其單倍體組分的能力。
[0026]圖10顯示從源自圖9的二倍體樣品的6個12倍稀釋的樣品任意指定A (在Y軸)和B(在X軸)的兩個位點的熒光原始強度的一系列示例性散點圖。
[0027]圖11顯示來自從頂面板(top panel)的細胞HG01377 (頂部)和NA18507 (底部)和底面板(bottom panel)的融合的單體型模塊(blocks)(分別為HG01377和NA28507)衍生的不平衡遺傳物質池的比對區段(aligned segments)。
[0028]圖12顯示來自從細胞NA18506 (頂面板)和底面板的合并單體型域衍生的正常個體的整個人基因組的不平衡遺傳物質池的匹配段。
[0029]實施方案的詳述
本公開的實施方案提供用于測定生物樣品的單體型的方法和系統。特定的實施方案提供用于基因組的遠程單倍體分型的方法。單倍體分型基因組的重要性例如在有助于和驅動個性化的衛生保健系統以及有助于成功的器官和組織移植方面具有深遠的意義。
[0030]常規的基因分型方法(例如微陣列、測序、PCR等)在測定單染色體的單體型中,特別是當關注的序列位于染色體上距離很遠處時面臨困難。例如,微陣列和PCR分析如目前實踐的那樣一般不提供單倍體分型信息,只是序列的存在或不存在。第一代測序技術如目前實踐的那樣,比如基于毛細管的序列分析方法,可以能夠依系統而定檢測近端例如1000bp或者更少范圍內的關注的序列。下一代測序如目前實踐的那樣,落在關于測定遠程單體型的下一代測序(NGS)方法的可量測性之間的某處,已經受到相對短的測序讀取(例如依系統而定幾百個堿基對)的限制。本文描述的實施方案通過在基因組中提供相鄰或近端和遠端或遠程等位基因的取相,填補由這些以上提及的技術留下的缺口。的確,本文描述的實施方案特別適合于鑒定遠程單體型。這些方法特別是很好地適合于鑒定具有長于以所使用的特定技術檢測的核酸片段長度的范圍的單體型。例如,本文闡述的方法的基于NGS的實施方案可用于鑒定具有長于所采用的NGS技術的讀取長度的范圍的單體型。發現從通過實踐本文描述的方法提供的取相等位基因獲得的信息,在例如疾病檢測和個性化的衛生保健(PHC)方面具有用途。例如個體的單體型可能與藥物代謝、藥物發現、疾病狀態、癌癥、障礙、移植排斥反應的風險等相關。的確,關于個性化的衛生保健,一旦受試者的取相的單體型為已知,那么受試者的特定疾病相關性和治療選擇可進行專門設計,以滿足所述受試者的需要。[0031]本文描述的實施方案與其它用于單倍體分型的方法相比較提供更好的選擇。本公開提供例如易于使用、適合于高通量應用和具有取相遠程等位基因的能力的方法,而不管樣品為單倍體還是二倍體,和不管樣品對于關注的等位基因是純合的還是雜合的。
[0032]在圖1中舉例說明產生用于單體型測定的遺傳物質池的實施方案。產生用于很大一部分基因組或染色體,具有不平衡分布的母系和父系染色體組分的遺傳物質池的方法的一個實施方案包括利用泊松隨機性(Poisson randomness),以產生遺傳物質的不相等分布(左箭頭)。例如,正常的DNA樣品具有1:1比例的母系:父系染色體。該樣品可通過實踐本文公開的方法分開,以產生除了 1:1比例之外例如至少1:0.5、至少1:2、至少1:3、至少1:4、至少2:1、至少2:3等的母系:父系染色體(或反之亦然),因此為不平衡分布的染色體。
[0033]在圖2和3中舉例說明包括利用泊松隨機性,以產生不相等分布的遺傳物質的本公開的實施方案。基因型分型樣本可由來自雙親兩者的染色體的混合群體組成(圖2A)。盡管可能對患者測定基因型(圖2B),這種類型的分析將不顯示雜合性等位基因如何在染色體上組在一起。在該實施例中,不知親代A (Parent A)是否在基因α和Y提供示例性的(_)等位基因兩者,和親代B (Parent B)提供示例性的(+)等位基因(圖2C),或者是否它們為混合的(圖2D)。測定單體型的一種方法包括把每一個染色體分離到其自己的隔室(圖3D),并將其作為單獨的樣品處理。這樣,每一個樣品在所有的等位基因為純合的,因為僅在隔室中存在每個基因的一個拷貝。然而,該方法的不利條件是將存在許多空的試驗孔(圖3C)(然而,空孔對于用作陰性試驗對照可為有利的),并且來自具有單染色體的孔的信號可能很低。本文闡述的方法以較高濃度和不對稱分布在那些部分提供以部分比如試驗孔或隔室存在的染色體樣品。只要例如與顯示相等數目的親代染色體的圖3A形成對比,存在來自每個雙親的不等數目的染色體(或具有源于染色體的序列的核酸分子)(圖3B),來自具有更大數目的染色體的等位基因可呈現更高的檢測信號(例如熒光、發光等),并且從而相互關聯,允許測定不同染色體的單體型(圖3E)。
[0034]可以預見的是,實 踐本分開的具體方法所估計的改進可導致與現有技術相比較,加載密度增加至2-3x和來自給定試驗的總可用數據增加至5-6x (圖4和5)。例如,圖4A證實可自標準稀釋法測定得到的基因型分型信息的程度,其中染色體在測定中被稀釋至單分子水平。僅有其中存在一個染色體的那些試驗孔將提供有用的數據,例如Pa=l,Pb=0或反之亦然。相反,有用信息量的大幅度增加起因于實踐本文描述的方法的實施方案,因為,例如,可使用任何數目的染色體/每體積,只要兩個不同等位基因之間的檢測差異大于測量閾值 Θ (theta)(圖 4B)。
[0035]因為實踐所公開的方法的實施方案可導致對于給定數目的部分加載密度較大和每體積或部分產生數據的概率較高,單倍體(即單倍體基因組)的覆蓋范圍與實踐其它方法比如0-1稀釋法相比較應更高(圖5)。例如,可在24%加載下發現對于O或I稀釋情況下(例如如在圖5A中舉例說明的那樣)的最大值,僅有36%的試驗孔產生有用的數據。或者,圖5B證實,如本文公開的不對稱加載方法可提供最多100%加載,76%的試驗孔產生有用的數據。考慮到檢測系統的分辨率或靈敏度影響需要提供有用數據的試驗部分的數目。目標分子(即染色體組分)包括整個染色體、染色體的片段、克隆的染色體插入物比如于BACs> YACs> MACs> F粘粒、粘粒等中發現的那些。進一步地,所公開的方法與0_1稀釋法相比較,可有效地提供給較少的部分同等覆蓋范圍的單倍體。
[0036]在一個實施方案中,偏倚或不平衡的擴增方法包括用于擴增等位基因,具有不同效率的引物和/或擴增條件,使得一組取相的等位基因在擴增的群體中是可區別的,考慮用于產生遺傳物質的不平衡分布(圖1,中間箭頭)。偏倚或不平衡的擴增比如偏倚的或不平衡的聚合酶鏈反應(PCR),可通過例如阻斷(部分地)其中一個等位基因的擴增,用于產生兩個等位基因的不平衡分布。例如一個實施方案包括使用阻斷探針,比如在Rex etal.(2009, J.Virol.Meth.158:24-29)和 Senescau et al.(2005, J.Clin.Micr0.43:3304-3308)中描述的探針(其兩者通過引用以其全部結合到本文中)。例如阻斷探針可為其中一個等位基因的補體(圖6A,頂端反應;阻斷探針顯示跨越A核苷酸),具有與PCR的延伸溫度(extension temperature)適配的Tm,和具有防止其通過DNA聚合酶延長的3’阻斷基團。一旦DNA聚合酶(例如非鏈置換(non-strand displacing))遇到探針,鏈延長(strand elongation)停止,導致最終PCR產物混合物中的一個等位基因表現度減少。相反,其它等位基因的鏈延長將不會由于存在阻斷探針受到阻礙,從而導致最終PCR產物混合物中的所述等位基因表現度正常,從而造成PCR產物混合物中的一個等位基因的表現度偏倚(圖6A,等位基因B比等位基因A更多)。
[0037]在另一個實施方案中,偏倚或不平衡的擴增方法包括熱穩定的MutS蛋白和等位基因-特異性探針,例如等位基因特異性阻斷探針,這種探針在擴增反應中產生不平衡的遺傳物質池(圖6B)。MutS為DNA錯配結合蛋白,其在Mg2+存在下強烈結合于異源雙鏈 DNA (Lishanski et al., 1994,Proc.Natl.Acad.Sc1.91:2674-2678;Stanislawska-Sachadyn and Sachadyn, 2005, Acta Biochim.Pol.52:575-583;其兩者通過引用以其全部結合到本文中)。例如,為一個等位基因的補體的等位基因特異性阻斷探針可退火以與模板DNA分子結合,與兩個等位基因模板形成同源雙鏈DNA和異源雙鏈DNA兩者。MutS可優先結合于已與非補體等位基因配對的阻斷探針(圖6B頂端反應;異源雙鏈形成顯示在B等位基因中和MutS結合作為圓形顯示在底端反應中)。通過使用鏈置換DNA聚合酶(例如phi29 DNA聚`合酶、BST DNA聚合酶大片段、Vent? (外-)DNA聚合酶、Deep Vent? (外-)DNA聚合酶、9°Nm DNA聚合酶等),可去除未通過MutS結合的探針(例如通過使用抗-MutS的陰性抗體選擇),以允許完美匹配的模板分子的鏈延長,而MutS-復合的探針依然存在于適當的位置,從而停止錯配模板分子的鏈延長,從而在最終產物混合物中產生等位基因的不平衡表現度(圖6B,等位基因A比等位基因B更多)。
[0038]在另一個實施方案中,偏倚或不平衡的擴增方法通過圖6C舉例說明。在圖6C (頂部組的等位基因)中,短探針可雜交至位點的任何一側。對于那些匹配特定等位基因的探針,可發生探針的延伸和連接。然而,當探針和等位基因為非同源時,沒有或存在探針的最小延伸和連接(來自頂部第二組等位基因)。在延伸和連接后,可升高溫度,使得已經延伸和連接的那些探針將保持雜交至模板,而沒有延伸的短探針將自模板釋放(第三組等位基因)。雜交和延伸的探針可交聯至模板,從而阻斷PCR擴增,導致一個等位基因比另一個更多(在這種情況下,等位基因B比等位基因A更多)。
[0039]在另一個實施方案中,偏倚或不平衡的擴增方法通過圖6D舉例說明。圖6D顯示等位基因特異性的PCR的使用,其中引物之一在靠近多形態位點(即SNP或其它多態性的位置)于其3’末端退火。錯配的引物將不引發復制,而匹配的引物可以復制,這樣導致一個等位基因比另一個更多(圖6D,等位基因A比等位基因B更多)(Newton, 1989,Nucl.Acid.Res.17:2503-2516;通過引用以其全部結合到本文中)。
[0040]在一個實施方案中,產生遺傳物質的不平衡分布包括等位基因的偏倚降解(圖1,右箭頭)。例如,模板可在引物之間的兩個位點(例如示例性位點包括ATACC和TTGTC)上于等位基因-特異性位置消化,使得僅有一個等位基因(例如未消化的等位基因)擴增,并且擴增鏈上的所有等位基因因此共享相同的相(圖7)。可把樣品分成幾個獨立的部分(A、B和C)。一些位點在等位基因靶標(A和G)為雜合的(7A),其中在降解之后生成的群體將超過代表的單一單倍體組分(在該實例中為位點TTGTC和等位基因G),從而允許區域中的所有等位基因在例如把單獨的反應索引和排序后取相。一些位點在等位基因靶標(等位基因T)為純合的(例如7B和C),或者在兩個單倍體染色體貢獻之間產生同等擴增的群體(7B)或者很少甚或沒有擴增(7C,等位基因C)。
[0041]圖8證實用于偏倚降解方法的幾個示例性實施方案。作為圖6B的示例性修飾,圖8A證實,完全匹配的雙鏈分子可用例如雙鏈特異性核酸酶DSN選擇性地破壞,而MutS-結合的錯配雙鏈被保護免于裂解。圖8A證實熱穩定的MutS蛋白(圓形)、等位基因特異性探針和雙鏈特異性核酸酶(剪刀)的使用,其中雙鏈特異性核酸酶可對等位基因B超過對等位基因A的偏倚擴增裂解同源雙鏈DNA。
[0042]在另一個實施方案中,偏倚降解方法包括對于單核苷酸錯配具有強的靶標位點傾向的曬菌體 Mu 轉座子(Yanagihara and Mizuuchi, 2002, Proc.Natl.Acad.Sc1.99:11317-11321;通過引用以其全部結合到本文中)和等位基因特異性探針。Mu本身可伴隨錯配優先插入異源雙鏈DNA中,使得其在例如庫制備方案方面的用途(圖SB,作為圓形顯示的Mu轉座子)可用于使錯配等位基因的模板分子破裂,而完美匹配的等位基因的模板分子保持完整并用作PCR擴增的模板,從而產生偏倚或不平衡的基因池用于單體型測定(圖8B,等位基因A比等位基因B更多)。
[0043]在另一個實施方案中,偏倚或不平衡的擴增方法通過圖SC舉例說明,其為圖SB的修飾。在圖8C中,生物素化的等 位基因特異性探針(對于B)被顯示雜交于模板DNA。鏈霉抗生物素轉座子融合蛋白(例如如在來自Epicentre Biotechnologies的NextEra DNA樣品制備試劑盒中舉例說明的用圓形指定的Mu轉座子)可通過鏈霉抗生物素-生物素相互作用募集到雙鏈雜交位點,從而導致完美匹配的等位基因破裂和一個等位基因比另一個更多(圖8C,等位基因B比等位基因A更多)。
[0044]在另一個實施方案中,偏倚降解方法可包括限制性內切核酸酶,如在圖8D中證實的那樣。例如,可選擇一種或多種限制性內切核酸酶,使得存在約一個限制位點/每個擴增子對(例如通過靶向已知的雜合位點或通過基于擴增子長度的統計學)。包含靶向位點的擴增子可被降解(即通過在圓形指定的限制性內切核酸酶受到限制),使得擴增為不可能的。未消化的等位基因可優先擴增,產生表現度不等的等位基因用于單體型測定(圖8D,等位基因A比等位基因B更多)。
[0045]本公開提供用于測定基因組的單體型的方法。在一個實施方案中,本公開的方法自受試者的二倍體或單倍體基因組樣品產生遺傳物質(即染色體組分)的不平衡分布。用標準方法(例如微陣列、測序、PCR、基于凝膠等)對不平衡的遺傳物質進行基因型分型,使得能夠對于遠程單倍體分型在大的基因組區域測定單體型。例如,當對于遺傳物質的不對稱或不平衡分布采用本文描述的方法用于單倍體分型時,如果特定基因組區域中關注的一組引導序列比另一組等位基因擴增信號強度更高(3x)(例如通過微陣列)或讀取更多(3x)(測序),那么推斷兩個相應的組對應于兩個不同的單體型。不平衡的遺傳物質池中關注的每一個引導序列的相對量一旦測定,與自正常二倍體基因組或匯集的正常基因組測定的量進行比較,從而測定受試樣品中的異常現象。
[0046]本公開提供包括樣品的不相等、不平衡、偏倚或不對稱分布,用于單體型測定的方法。不相等分布可為例如稀釋、不對稱PCR、靶標降解等的結果。特別是,本文描述的實施方案在各部分比如基底上的測試位置(例如板上的孔、玻片上的區域、多個毛細管、柔性帶中/上的孔等)之間提供分布不均的來自受試者的遺傳物質。在某些實施方案中,樣品的遺傳物質的不均勻分布代表位于基底上一個或多個測試位置的染色體的分布不等。考慮一些測試位置不含遺傳物質,并且發現這些位置在如在圖3C中舉例說明的試驗中作為陰性對照品具有用途。基底包括但不限于微陣列基底比如二氧化硅或高密度塑料玻片、芯片等、板比如96、384、1536孔測定板、毛細管例如如用于流過PCR的毛細管、柔性的高通量測試條(例如Douglas Scientific的Array Tape ? )、珠粒、納米顆粒等。本文描述的方法不受在其上或其中實施測試的基底的限制。
[0047]本文描述的方法的特定實施方案可用于例如測定染色體上彼此近端和遠端兩者的關注序列的單體型。考慮關注的序列不被任何特定的距離分開,例如關注的序列可在染色體上為彼此相鄰或者近端的。相反,考慮關注的序列在染色體上為彼此遠端分離的或遠程的。的確,實踐本文描述的實施方案在測定遠程單體型時可為特別有益的。關注的序列之間的距離不打算限制所述方法,例如關注的序列可由至少100、200、300、400、500、750或至少1000個堿基對分開。然而,實施方案發現,當關注的序列在染色體上間隔離得很遠,并且由例如至少10000、至少100000、至少1000000、至少10000000、至少100000000、至少150000000、至少200000000、至少247000000或者更多個堿基對分開時,對測定其單體型特別有用。這樣,本文描述的實施方案可提供特別適合于個體基因組的遠程單倍體分型的方法,而不管被提供的用于測定的樣品是單倍體還是二倍體。
[0048]在本公開的實施方案中,提供用于測定單體型,特別是位于染色體上遠側的關注序列的方法。在一些實施方案中,關注的序列為單核苷酸多態性,或SNPs。在一些實施方案中,SNPs為彼此相鄰的或接近的,而在其它的實施方案中,SNPs為彼此離得很遠或遠程的。在一些實施方案中,關注的序列為基因組中序列的插入或缺失,或者插入/缺失(indels)。在一些實施方案中,關注的序列為基因組拷貝數目變異,或者CNVs。在其它的實施方案中,關注的序列為等位基因,或者位于染色體上特定位置的基因或序列的替代形式。在一些實施方案中,等位基因為野生型或正常的識別序列,而在其它的實施方案中,等位基因與野生型相比較可隱匿一個或多個突變,比如SNPs、CNVs、插入/缺失等。
[0049]這樣的突變可被確定為與疾病狀態比如癌癥、遺傳疾病等直接相關。突變的等位基因對于研究者具有特別意義,并且實踐本公開的實施方案可在使得研究者能夠研究等位基因突變及其單體型方面提供有價值的工具。單體型在定義個體的二倍體基因組的基因組成方面是有價值的。單倍體分型信息可導致更多的理解,并且在許多科學研究領域發現具有更廣泛的用途,這些領域包括但不限于藥物代謝、藥物發現、個性化的衛生保健計劃、移植成功群體遺傳學的HLA分型、復雜疾病連鎖、遺傳人類學、疾病和癌癥的醫學遺傳學、癌癥和其它疾病的結構變化、等位基因的特異性表達和修飾比如等位基因特異性甲基化模式以及更始基因組(de novo genome)組裝。當用于單倍體分型的關注的等位基因來自小的基因組區域時,包括偏倚擴增和偏倚降解的實施方案是特別有利的。這樣,臨床應用比如其中需要超過幾千個堿基或者一個或多個基因組區域的單體型測定的HLA基因型分型(例如HLA-A、HLA-B、HLA-C、HLA-DRB1、HLA-DQB1、HLA-DQAI 等),將極大地得益于實踐本文公開的方法。
[0050]把等位基因分配到染色體(即單倍體分型)的能力強大,因為其可例如通過提供關于基因組中重組事件的信息來提供臨床相關性的信息。這種信息對于確定引起疾病的突變的位置可為重要的,并可有助于確定連鎖不平衡,或者基因組中兩個多態性的存在之間的統計關聯性,此為疾病基因組廣泛疾病關聯性研究的一種關鍵特性。例如,如果兩種多態性之間的關聯性(即連鎖不平衡)高,已知一種多態性(即SNP)的基因型可有助于預測另一種多態性(即SNP)的基因型。通過測定其單體型更完全匹配人白細胞抗原(HLA)的能力將極大地改善例如移植接受者的臨床結果(Crawford and Nickerson, 2004, Ann.Rev.Med.56:303-320,通過引用以其全部結合到本文中)。例如,通過實踐本文公開的方法,移植接受者和潛在供者可沿著主要組織相容性復合體對多個標記進行基因型分型,并可自產生的數據測定單體型。這樣的匹配的實例可見于本文公開的實施例中。這樣的匹配可提供移植接受者與供者之間高度準確的HLA匹配,導致比不是如此匹配的患者與供者更好的移植結果。
[0051]另外,存在一些疾病,其中單體型而不是在特定位點的基因型可預測疾病的嚴重性,這樣準確的單體型將不僅對于確定具體患者的疾病嚴重性具有廣泛用途,而且也提供給臨床醫生基于診斷和/或預后確定有效的治療選擇方面的信息,因為不同的治療選擇可能與不同的疾病狀態和/或嚴重性水平相關。例如,特定的鐮狀細胞性貧血β_球蛋白位點單體型與不太嚴重的鐮狀細胞性貧血有關,并且ILlO啟動子區域的單體型與移植物抗宿主病和接受細胞移植的患者死亡的發生率較低有關。這樣,提供基因組樣品的單倍體分型的方法可對例如疾病相關性的研究、疾病診斷和預后實踐以及治療方案的應用具有很大影響。然而,單倍體分型也在農業和其它園藝領域具有重要意義,特別是在其中疾病或有利的性質可能與動物或植物中的特定單體`型有關的牲畜飼養和農作物方面。
[0052]本文提供的實施方案描述用于測定樣品中取相的等位基因的方法。通常,樣品包括核酸樣品。在一些實施方案中,核酸樣品源于體液,例如來自受試者的血液、痰液、尿液、脊髓液等。在其它的實施方案中,生物樣品源于固體,例如來自受試者的組織、活組織切片檢查、細胞刮取、細胞學或細胞樣品等。在一個實施方案中,生物樣品為純化的單染色體或其片段,或者例如在粘粒、F粘粒、質粒、酵母人工染色體(YAC)、細菌人工染色體(BAC)、哺乳動物人工染色體(MAC)、植物克隆系統(例如農桿菌iAgrobacterium tumefacians)T-DNA克隆系統、雙元載體克隆系統等)或其片段中的DNA插入等。在優選的實施方案中,生物樣品為如在一種或多種細胞中發現的二倍體DNA樣品。然而,本文描述的方法的實施方案不限于二倍體樣品,因為單倍體樣品(例如源于卵子、精子、水泡樣胎塊(hydatiformmole)的核酸,和機械分開和/或分離的染色體、其片段、克隆的DNA片段等)同樣適用于實踐本文描述的方法。
[0053]在一個實施方案中,樣品為細胞樣品或組織樣品。細胞或組織樣品可來自任何來源,例如來自解離組織的細胞、來自血液或其它體液的細胞、來自細胞學樣本的細胞、來自非人動物的細胞、來自植物的細胞等。在優選的實施方案中,細胞為哺乳動物起源的,優選地為人起源的。然而,本文描述的方法不限于細胞樣品的來源。在一些實施方案中,用于實踐本文描述的方法的基因組材料源于多個細胞。在一些實施方案中,多個細胞為至少2-1000個細胞之間、至少5-500個細胞之間、至少10-300個細胞之間、至少10-100個細胞之間。除非特別相反地指出,實踐本文闡述的方法可采用本領域技術范圍內的病毒學、免疫學、微生物學、分子生物學和DNA重組技術的常規方法。這種技術在以下文獻中得到充分說明:參見例如1995, Ausubel et al.,精編分子生物學實驗指南(Short Protocols inMolecular Biology),(第3版),Wiley & Sons; 2001, Sambrook and Russell,分子克隆:實驗室手冊(Molecular Cloning: A Laboratory Manual)(第3版);1982, Maniatuset al.,分子克隆:實驗室手冊(Molecular Cloning: A Laboratory Manual) ; DNA 克隆:一種實用方法(DNA Cloning: A Practical Approach),第 I 和 II 卷(D.Glover 編輯);1984,寡核苷酸合成(Oligonucleotide Synthesis) (N.Gait 編輯);1985,核酸雜交(Nucleic Acid Hybridization) (B.Hames 和 S.Higgins 編輯);1986,動物細胞培養(Animal Cell Culture) (R.Freshney 編輯);1984, Perbal,分子克隆的實用指南(A Practical Guide to Molecular Cloning)。基因組材料可通過本領域已知的方法收獲,并且本文描述的方法不一定限于用于分離基因組材料的任何具體方法。技術人員應理解,對于這種分離存在大量的市售和自產的(homebrew)替代品。
[0054] 在一個實施方案中,由受試者提供用于單倍體分型的樣品。受試者可為對希望測定來自所述實體的單體型的研究者關注的任何生物實體。這樣,用于測試的樣品不一定限于特定受試者,并且受試者可為例如動物或植物起源的。例如,提供樣品的受試者可為動物(人或非人)或植物,例如相關的經濟作物等。在優選的實施方案中,受試者為人。在其它優選的實施方案中,受試者為經濟相關的動物或其衍生物。在其它的實施方案中,受試者為經濟相關的植物或其衍生物。
[0055]通過實踐本公開的方法提供的不對稱分布的樣品易于應用于下游應用。在一些實施方案中,考慮在測序或其它儀器相關的單體型測定之前對樣品實施下游過程。在一些實施方案中,不對稱分布的樣品的等分試樣或部分用于制備群集(clustering)準備下一代測序的DNA庫。例如通過在Nextera ? DNA樣品制備試劑盒(Nextera ? DNA SamplePrep Kit) (Epicentre? Biotechnologies, Madison WI)、GL FLX 欽庫制備試劑盒(GLFLX Titanium Library Preparation Kit) (454 Life Sciences, Branford CT)>SOLiD ?庫制備試劑盒(SOLiD ? Library Preparation Kits) (Applied Biosystems ? LifeTechnologies, Carlsbad CA)等實施所描述的方法產生這種庫。本文描述的樣品一般通過例如多重鏈置換擴增(MDA)技術進行進一步擴增用于測序或微陣列分析。對于MDA后的測序,例如通過以如在配對庫制備試劑盒(Mate Pair Library Prep kit)、基因組DNA樣品制備試劑盒(Genomic DNA Sample Prep kits)或TruSeq ?樣品制備或外顯子組富集試劑盒(TruSeq ? Sample Preparation or Exome Enrichment kits) (Illumina?, Inc.,San Diego CA)產生所描述的DNA庫,制備擴增的樣品庫。有用的群集擴增(clusteramplification)方法描述在例如美國專利第5641658號、美國專利公布號2002/0055100、美國專利第7115400號、美國專利公布號2004/0096853、美國專利公布號2004/0002090、美國專利公布號2007/0128624和美國專利公布號2008/0009420中,其每一個通過引用以其全部結合到本文中。另一種用于在表面擴增核酸的有用方法為例如如在Lizardi etal., Nat.Genet.19:225-232 (1998)和 US 2007/0099208 中描述的滾環擴增(RCA),其每一個通過引用以其全部結合到本文中。乳液PCR方法也是有用的,示例性方法被描述于Dressman et al., Proc.Natl.Acad.Sc1.USA 100:8817-8822 (2003)、WO 05/010145或美國專利公布號2005/0130173或2005/0064460中,其每一個通過引用以其全部結合到本文中。本公開的方法不一定受到任何具體的庫制備或擴增方法的限制,因為考慮本文描述的樣品的不對稱分布適用于本領域已知和/或對此目的市售可得到的各種方法中的任何一種。[0056]例如,包含不平衡分布的遺傳物質的DNA庫可被固定在基底比如流動池上,并在對例如通過合成方法學得到的序列進行測序之前對固定化的多核苷酸實施橋式擴增(bridge amplification)。在橋式擴增中,固定化的多核苷酸(例如來自DNA庫)被雜交至固定化的寡核苷酸引物。固定化的多核苷酸分子的3’末端提供給模板自固定化的寡核苷酸引物延伸的,聚合酶催化的,模板定向的伸長反應(例如引物延伸)。生成的雙鏈產物“橋接”兩個引物,并且兩個鏈共價連接于載體(support)。在下一個周期中,在產生固定于固體載體的一對單鏈(固定化的模板和延伸的引物產物)的變性之后,兩個固定化的鏈可用作用于新的引物延伸的模板。因此,第一和第二部分可被擴增,以產生多個群集。術語“群集”和“集落”可互換使用,并且指的是核酸序列和/或其附著于表面的補體的多個拷貝。通常地,群集包含核酸序列和/或其通過其5’末端附著于表面的補體的多個拷貝。示例性橋式擴增和群集方法學被描述在例如國際專利公布號W000/18957和W098/44151、美國專利第5641658號、美國專利公布號2002/0055100、美國專利第7115400號、美國專利公布號2004/0096853、美國專利公布號2005/0100900、美國專利公布號2004/0002090、美國專利公布號2007/0128624和美國專利公布號2008/0009420中,其每一個通過引用以其全部結合到本文中。本文描述的組合物和方法在采用包含群集的流動池通過合成方法學得到的序列中為特別有用的。
[0057]用于在測序之前擴增核酸的乳液PCR方法也可與本文描述的方法和系統組合使用。乳液PCR包括銜接子側面鳥槍DNA庫在油包水乳液中的PCR擴增。PCR為多模板PCR,僅使用單引物對。PCR引物中的一個系于微尺度珠(microscale beads)的表面(5’附著)。低的模板濃度導致存在不多于一個模板分子,含有大多數珠粒的乳液微泡。在生產乳液微泡(其中存在珠粒和模板分子兩者的乳液微泡)中,PCR擴增子可被捕獲于珠粒的表面。在破乳后,可選擇性地富集帶有擴增產物的珠粒。每一個克隆擴增的珠粒將在其表面帶有對應于來自模板庫的單分子擴增的PCR產物。乳液PCR方法的各種實施方案被闡述于例如Dressman et al., Proc.Natl.Acad.Sc1.USA 100:8817-8822 (2003)、國際專利公布號 TO 05/010145、美國專利公布號 2005/0130173、2005/0064460 和 US2005/0042648 中,其每一個通過引用以其全部結合到本文中。
[0058]DNA納米球也可與本文描述的方法和系統組合使用。產生和采用用于基因組測序的DNA納米球的方法可見于例如美國專利和出版物7910354、2009/0264299、2009/0011943、2009/0005252、2009/0155781、2009/0118488,以及如在例如 Drmanac etal., 2010, Science 327(5961): 78-81中描述的那樣,其全部通過引用以其全部結合到本文中。簡言之,在銜接子連接的基因組DNA片段連續來回之后,擴增和消化導致被環化為單鏈DNA (例如通過用圓形連接酶(circle ligase)連接)和滾環擴增(例如如在Lizardiet al., Nat.Genet.19:225-232 (1998)和 US 2007/0099208 Al 中描述的那樣,其每一個通過引用以其全部結合到本文中)的圓形基因組DNA模板/銜接子序列的多個拷貝的首尾相接的串聯體。所述串聯體的銜接子結構促進單鏈DNA的盤繞,從而產生緊密的DNA納米球。DNA納米球可被捕獲于基底上,優選地產生有序或圖形排列,使得保持每一個納米球之間的距離,從而使得能夠將單獨的DNA納米球測序。
[0059]在一些實施方案中,一旦不對稱分布的樣品得到進一步處理,將其應用于測序、微陣列分析、基因型分型或其它下游應用。例如,測序可按照制造商的方案,在系統比如由 Illumina, Inc.(HiSeq 1000, HiSeq 2000,基因組分析儀(Genome Analyzers),MiSeq, HiScan, systems (系統))、454 Life Sciences (FLX基因組測序儀(FLX GenomeSequencer), GS Junior)、Applied Biosystems ? Life Technologies (ABI PRISM? 序列檢測系統(Sequence detection systems), SOLiD ? System)、1n Torrent? LifeTechnologies (個人基因組機械測序儀(Personal Genome Machine sequencer))提供的那些系統、進一步如在例如美國專利和專利申請5888737、6175002、5695934、6140489、5863722、2007/007991、2009/0247414、2010/0111768 和 PCT 申請號 W02007/123744 中描述的那些系統上進行,其每一個通過引用以其全部結合到本文中。
[0060]在一些實施方案中,發現本文描述的用于測定單體型的方法在用于測序,例如合成測序(SBS)技術時具有特別的用途。合成測序通常包括使用聚合酶依序增添一個或多個標記的核苷酸,以使多核苷酸鏈在5’至3’方向生長。延伸的多核苷酸鏈與可附著于基底(例如流動池、芯片、玻片等)上,并含有引導序列的核酸模板互補。用于SBS的標記的核苷酸可包括各種熒光團、質量標記、可電子檢測的標記或其它類型標記中的任何一種。用于SBS的標記的核苷酸也可包括可逆性的終止基團,使得每個SBS循環僅增添一個核苷酸。在所結合的核苷酸被檢測之后可加入解封劑,以提供增添的適合于在隨后的循環中延伸的核苷酸。SBS方法對于核酸樣品的不同序列片段的平行分析特別有用。例如數百、數千、數百萬或者更多的不同序列片段可使用已知的SBS技術在單一基底上同時進行測序。示例性的測序方法被描述于例如 Bentley et al., Nature 456:53-59 (2008) ,WO 04/018497,US7057026、WO 91/06678、WO 07/123744、US 7329492、US 7211414、US 7315019、US 7405281和US 2008/0108082中,其每一個通過引用以其全部結合到本文中。
[0061]也發現所公開的用于測定單體型的方法在用于連接法測序、雜交測序及其它測序技術時具有用途。示例性的連接法測序方法學為應用生物系統公司的(AppliedBiosystems’)SOLiD ?測序系統采用的二元化編碼(例如色彩空間測序)(Voelkerdinget al., 2009,Clin Chem 55:641-658;通過引用以其全部結合到本文中)。
[0062]用于本文公開的單倍體分型的方法可通過雜交技術用于測序。雜交測序包括使用向其增添分裂成碎片的標記的目標DNA的一些列短序列的核苷酸探針(例如,如在Drmanacet al., 2002, Adv Biochem Eng Biotechnol 77:75-101; Lizardi et al., 2008, NatBiotech 26:649-650,美國專利7071324中描述的;通過引用以其全部結合到本文中)。對雜交測序的進一步改進可見于例如美國專利申請出版物2007/0178516、2010/0063264和2006/0287833中(通過引用以其全部結合到本文中)。結合雜交與連接生物化學的測序方法已得到開發和商業化,比如由完整的染色體組,高原病展望(Complete Genomics,Mountain View), CA)實踐的基因組測序技術。例如,組合的探針-錨定序列連接方法或 cPAL? (Drmanac et al., 2010, Science 327(5961): 78-81)采用連接生物化學,同時利用雜交測序的優勢。單分子測序技術,例如如在Pushkarev et al.(2009, Nat.Biotechnol.27:847-52;通過引用以其全部結合到本文中)描述的和如由HeliScope?單分子測序器(Helicos,Cambridge, MA)實踐的單分子測序技術,也可利用所公開方法的優勢用于測定單體型。
[0063]本文描述的方法不受到任何特定測序樣品制備方法的限制,并且備選方法對技術人員是顯而易見的,并考慮在本公開的范圍內。然而,發現在本文的方法應用于以下測序裝置時具有特殊的用途:比如流動池或陣列,其用于實踐合成測序方法學或其它相關的測序技術,比如聚合酶測序技術(polony sequencing technology) (Dover Systems)、通過雜交突光平臺測序(Complete Genomics)、sTOP 技術(Industrial Technology ResearchInstitute)和合成測序(Illumina, Life Technologies)中的一種或多種實踐的那些測序技術。
[0064]在一些實施方案中,本文描述的不對稱分布的樣品經MDA處理,并進行進一步處理用于微陣列和/或其它基因型分析試驗。例如,在一些實施方案中,樣品經定量PCR(qPCR)處理,以信噪比表征各部分或等分試樣(例如通過采用Eco PCR系統(Illumina?,Inc.))。這種表征在定義自下游測序或微陣列分析潛在提供最高概率的可判斷數據的部分或等分試樣方面是有用的。在一些實施方案中,進行進一步處理用于微陣列分析之前的制備。例如,不對稱分布的樣品在經MDA擴增和/或經qPCR表征之后進行制備,用于經各種方法進行微陣列分析,所述方法包括但不限于以上對庫樣品制備先前描述的那些。
[0065]有用的示例性微陣列包括但不限于可得自Illumina?, Inc.(San Diego, CA)的Sentrix? Array或Sentrix? BeadChip Array,或者其它孔中包含珠粒的微陣列,比如在例如美國專利第 6266459,6355431,6770441 和 6859570 號和 PCT 公布號 WO 00/63437 (其每一個通過引用以其全部結合到本文中)中描述的那些微陣列。
[0066]其它表面上具有顆粒的陣列包括在US 2005/0227252、US 2006/0023310、US2006/006327,US 2006/0071075,US 2006/0119913,US 6489606,US 7106513,US 7126755、US 7164533、WO 05/033681和WO 04/024328 (其每一個通過引用以其全部結合到本文中)中闡述的那些微陣列。用于測試如通過實踐本公開的方法提供的不對稱分布的樣品的一系列珠粒也可呈流動格式(fluid format),比如流式細胞分析儀或類似裝置的液流。用于區分珠粒的市售可得到的流動格式包括例如用于來自Luminex的XMAP?技術或來自LynxTherapeutics的MPSS?方法的那些流動格式。
[0067]可與通過實踐本公開的方法提供的樣品一起使用的,市售可得到的微陣列的其它實例包括例如Affymetrix? GeneChip?微陣列,或按照如例如在以下文獻描述的有時稱為VLSIPS ? (極大尺度的固定化聚合物合成(Very Large Scale Immobilized PolymerSynthesis))技術的技術合成的其它微陣列:美國專利第5324633、5744305、5451683、5482867、5491074、5624711、5795716、5831070、5856101、5858659、5874219、5968740、5974164、5981185、5981956、6025601、6033860、6090555、6136269、6022963、6083697、6291183、6309831、6416949、6428752和6482591 (其每一個通過引用以其全部結合到本文中)。
[0068]點樣微陣列也可與通過實踐本公開的方法提供的樣品一起使用。示例性的點樣微陣列為可得自安瑪西亞公司(Amersham Biosciences)的CodeLink ? Array (陣列)。有用的另一種微陣列為使用噴墨印刷法比如可得自安捷倫科技(Agilent Technologies)的SurePrint? Technology制作的微陣列。可使用的其它微陣列包括但不限于在Butte,2002, Nature Reviews Drug Discov.1:951-60 或美國專利第 5429807、5436327、5561071、5583211、5658734、5837858、5919523、6287768、6287776、6288220、6297006、6291193和6514751號及WO 93/17126和WO 95/35505 (其每一個通過引用以其全部結合到本文中)中描述的那些微陣列。
[0069]來自測序、微陣列或其它基因分型方法學或儀器的輸出可具有任何方式。例如,一些技術采用生成可讀輸出的光,比如熒光或發光,而其它技術測量電子或離子的釋放。然而,本發明不限于可讀輸出的類型,只要可對關注的特定序列測定輸出信號的差異。可用于表征源于實踐本文描述的方法的輸出的分析軟件的實例包括但不限于Pipeline,CASAVA,基因組 Studio 數據分析(Genome Studio Data Analysis), BeadStudio Genotyping andKaryoStudio 數據分析軟件(IIlumina?, Inc.)、SignalMap and NimbleScan 數據分析軟件(Roche NimbleGen)、GS Analyzer 分析軟件(454 Life Sciences)、S0LiD ?,DNASTAR?SeqMan? NGen? and Partek? Genomics Suite ? 數據分析軟件(Life Technologies)、特征提取和 Agilent 染色體組工作臺(Feature Extraction and Agilent GenomicsWorkbench)數據分析軟件(Agilent Technologies)、Genotyping Console ? ,染色體分析研究和基因芯片序列分析(Chromosome Analysis Suite and GeneChip? SequenceAnalysis)數據分析軟件(Affymetrix?)。技術人員應了解用于微陣列、測序和PCR產生的輸出的數據分析的另外眾多的商業和學術上可用的備選軟件。本文描述的實施方案不限于任何數據分析方法。
[0070]本公開的示例性方`法不一定受到任何特定的測序、微陣列或基因分型系統的限制,因為考慮對于特定儀器要求的特定樣品制備適合用于本文描述的不對稱分布的樣品。然而,考慮任何給定檢測系統的分辨率或靈敏度可影響可被測試以產生可判斷的結果的部分的數目。在圖3B (K)和圖4B (0)中舉例說明分辨率差異。
[0071]以下實施例描述用于通過采用不對稱產生的樣品進行測序測定SNP單體型的方法。在該具體實施例中,采用低輸入DNA水平(例如IO-1OOpg)的制備方法比如Nextera ?DNA樣品制備試劑盒是特別有用的,因為用這種試劑盒處理的樣品適合準備測序,并且不需進一步處理,比如多鏈置換擴增。另外,可需要另外的擴增步驟,比如MDA。所制備的樣品可例如在 Illumina, Inc.基因組分析儀(Genome Analyzer), HiSeq, MiSeq, TruSeq 或其中產生對應于每個熒光標記的核苷酸的熒光讀數用于分析的其它測序平臺上進行測序。對于該實施例的目的,自不對稱分布的樣品制備得到以下測序結果:
ity>2? 56- ?94;--;|31.0:'501
aIagtGTcTgT^gCCGT' , l|c^AA0
- /s J
4料mii04...49? 2SB廣 f492 S08
在該實施例中,用雙散列線(double hash lines)自不連續和可能遠離地位于染色體區域分離單個位點的核酸。對一個位置列出的兩個核苷酸代表雜合序列變異或關注的序列中的單核苷酸多態性(SNPs)。核苷酸上面和下面的數目代表出自讀取總數,例如在這種情況下讀取約800的特定核苷酸位置的讀取數目。遠程SNP取相通過匹配具有如下相似讀數的SNP位置進行測定:
【權利要求】
1.一種用于測定核酸樣品的單體型的方法,所述方法包括提供核酸樣品的一個或多個部分,其中母系和父系染色體的貢獻不相等,檢測核酸樣品的一個或多個部分中關注的兩個或更多個序列之間的不平衡,并基于所述可檢測的不平衡測定所述核酸樣品的單體型。
2.權利要求1的方法,其中所述核酸樣品來自基因組或其片段。
3.權利要求2的方法,其中所述基因組來自一個或多個細胞。
4.權利要求3的方法,其中所述一個或多個細胞為約10-100個細胞。
5.權利要求1的方法,其中所述核酸樣品來自哺乳動物。
6.權利要求5的方法,其中所述哺乳動物為人。
7.權利要求1的方法,其中所述母系和父系染色體包括選自單核苷酸多態性、拷貝數目變異體、基因組插入和基因組缺失的一種或多種變異序列。
8.權利要求1的方法,其中母系和父系染色體的所述不相等貢獻包括除了1:1比例的染色體比例。
9.權利要求1的方法,其中所述單體型通過熒光進行測定。
10. 權利要求1的方法,其中所述單體型通過核酸測序技術進行測定。
11.權利要求1的方法,其中所述單體型通過在微陣列上實施的基因分型技術進行測定。
12.權利要求1的方法,其中所述單體型通過定量聚合酶鏈反應進行測定。
13.一種制備用于單體型測定的部分的方法,所述方法包括: a)提供包含對樣品為天然的一定比例的母系和父系染色體組分的核酸樣品,和 b)產生多個部分,其中一個或多個部分包含偏倚比例的母系和父系染色體組分,其中所述偏倚比例基本上不同于對所述個體為天然的比例,從而制備用于單體型測定的部分。
14.權利要求13的方法,其中所述產生包括向多個部分中的一個或多個部分不對稱地分布母系和父系染色體組分。
15.權利要求13的方法,其中所述產生包括在所述多個部分的一個或多個部分中差異性地降解母系或父系染色體組分中的一種或多種。
16.權利要求13的方法,其中所述產生包括在所述多個部分的一個或多個部分中差異性地擴增母系或父系染色體組分中的一種。
17.權利要求13的方法,其中所述核酸樣品來自哺乳動物。
18.權利要求17的方法,其中哺乳動物為人。
19.權利要求13的方法,其中所述核酸樣品來自多個細胞。
20.權利要求19的方法,其中所述多個細胞為中期同步的。
21.權利要求19的方法,其中所述多個細胞為約5-約300個細胞。
22.權利要求19的方法,其中所述多個細胞為約10-約100個細胞。
23.一種用于對樣品中關注的多個序列測定單體型的方法,所述方法包括: a)提供來自權利要求13的一個或多個部分, b)自所述一個或多個部分創建一個庫, c)對所述多個關注的序列檢測可檢測的信號, d)基于可檢測的信號的所述差異測定關注的多個序列的單體型。
24.權利要求23的方法,其中所述關注的兩個或更多個序列在同一染色體上。
25.權利要求23的方法,其中所述關注的兩個或更多個序列位于同一染色體的兩個或更多個不同位點上。
26.權利要求24的方法,其中同一染色體的兩個或更多個不同位點由至少10000個核苷酸分開。
27.權利要求24的方法,其中所述兩個或更多個不同位點位于同一染色體上,并由至少100000個核苷酸分開。
28.權利要求24的方法,其中所述兩個或更多個不同位點位于同一染色體上,并由至少100000000個核苷酸分開。
29.權利要求24的方法,其中所述兩個或更多個不同位點位于同一染色體上,并由至少200000000個核苷酸分開。
30.權利要求23的方法,其中所述一個或多個部分來自個體生物。
31.權利要求23的方法,其中所述一個或多個部分來自哺乳動物。
32.權利要求23的方法,其中所述一個或多個部分來自人。
33.權利要求23的方法,所述方法進一步包括在步驟b)之前測定母系和父系染色體的比例。
34.權利要求23的方法,其中所述測定單體型包括部分的定量聚合酶鏈反應分析。
35.權利要求23的方法,其中所述測定單體型包括部分的微陣列分析。
36.權利要求23的方法,其中所述測定單體型包括對多個關注序列中的每一個檢測序列讀取數目的差異,匹配具有相似序列讀數的關注的序列,并基于所匹配的關注的序列測定單體型。
37.權利要求23的方法,其中所述可檢測的信號為熒光。
38.權利要求36的方法,其中所述可檢測的信號為突光。
39.權利要求23的方法,其中所述兩個或更多個關注的序列選自等位基因、單核苷酸多態性、拷貝數目變異體、基因組插入和基因組缺失。
40.權利要求23的方法,其中所述檢測包括核酸測序技術。
41.權利要求23的方法,其中所述檢測包括在微陣列上實施的基因分型技術。
42.權利要求23的方法,其中所述檢測包括定量聚合酶鏈反應基因分型技術。
43.權利要求40的方法,其中所述測序技術檢測自多個關注序列的讀取總數扣除多個關注序列的讀取數目的差值。
44.權利要求43的方法,其中檢測讀取數目包括檢測多個關注的序列產生的熒光信號的數目。
45.一種測定多個位點的等位基因的取相的方法,所述方法包括: a)提供核酸分子的不對稱分布,其中不對稱分布包含多個部分,其中各個部分包含等位基因的多份拷貝,和其中各個部分包含不同數量的等位基因; b)區分存在于一個或多個各個部分中的核酸分子拷貝中的等位基因; c)評價存在于一個或多個各單獨的部分中等位基因的不同數量;和 d)自等位基因的區分和自不同數量的等位基因的評價確定多個位點的等位基因的取相。
46.權利要求45的方法,其中所述評價包括檢測自讀取總數扣除多個位點的等位基因的熒光測序讀取數目的差值。
47.權利要求45的方法,其中所述核酸分子來自個體生物。
48.權利要求45的方法,其中所述不同數量的評價包括測定多個位點的等位基因的比例。
49.權利要求45的方法,其中所述等位基因的區分包括測定存在于多個位點的一個或多個核苷酸的同一'I"生。
50.權利要求45的方法,其中所述等位基因的區分包括核酸測序技術。
51.權利要求45的方法,其中所述等位基因的區分包括在微陣列上實施的基因分型技術。
52.權利要求45的方法,其中所述多個位點位于同一染色體上,并由至少10000個核苷酸分開。
53.權利要求45的方法,其中所述多個位點位于同一染色體上,并由至少100000個核苷酸分開。
54.權利要求45的方法,其中所述多個位點位于同一染色體上,并由至少100000000個核苷酸分開。
55.權利要求45的方法, 其中所述多個位點位于同一染色體上,并由至少200000000個核苷酸分開。
56.一種用于測定單體型的核酸部分,其中所述核酸部分包含不對稱地分布的母系和父系染色體組分,其中所述不對稱分布的染色體組分為偏倚比例的母系與父系染色體組分,這種偏倚比例不同于對個體為天然的比例。
【文檔編號】C12N15/11GK103492588SQ201280010224
【公開日】2014年1月1日 申請日期:2012年2月24日 優先權日:2011年2月25日
【發明者】J-B.范, J.S.費希爾, F.凱珀 申請人:伊路敏納公司