測序基因分型技術中測序酶切組合的確定方法
【技術領域】
[0001] 本發明設及生物技術領域,具體的,設及一種測序基因分型技術中測序酶切組合 的確定方法。
【背景技術】
[0002] 遺傳分子標記(在一個或多個群體內不同個體間可測量的可遺傳多態性)牢牢 地占據著現代遺傳學的核屯、地位,也是群體遺傳學,生態學和發育生物學等學科的重要研 究方向。目前主流的遺傳標記已經發展至第Ξ代,即單核巧酸多態性(SingleNucleotide Polymo巧hisms,SNP)分子標記。運種遺傳標記的特點是單個堿基的置換,并且一般只有兩 種堿基組成,是一種二態的標記,與第一代的RFLP及第二代的STRW長度的差異作為遺傳 標記的特點截然不同。
[0003] 目前主流的全基因組SNP分型技術主要有基因分型忍片和二代測序兩種方法。基 因分型忍片的特點是技術穩定,結果重復率高,但忍片技術分型一個實驗樣本的成本很高, 對于群體遺傳學研究領域,群體分型的成本代價太大,并且忍片技術由于技術所限,還存在 著SNP多態位點在不同群體中通用差,標記密度低(目前農業動物領域主流的SNP忍片密 度約為60000個SNP/忍片)等缺陷,不能滿足精細功能基因定位和全基因組關聯分析等問 題。下一代測序技術的發展使得基因組學和轉錄組學的研究能夠更加深入,測序能獲得全 基因組水平的高密度標記圖譜,但同時也存在著單位樣本成本過高的缺點。
[0004] 簡化基因組測序技術(reduced-representationsequencing)使得群體分析研究 所需的覆蓋全基因組的高通量分子標記的鑒定與分型成為可能。但不同的簡化基因組測序 方法在建庫策略、單酶切/雙酶切的組合選擇、測序平臺的選擇等方面均有較大差別,運些 都會顯著影響后續分型的效率和成本。舉例來說,RAD測序的方法,建庫策略復雜,過多的 步驟會干擾后續實驗結果;不同的限制性內切酶在不同的物種基因組上酶切頻率和分布均 有較大不同,對于特定物種,選用哪種酶進行實驗就成為決定實驗獲取SNP數量和成本的 決定因素;2b-RAD技術使用IIB型限制性內切酶,2b-RAD技術雖然可W得到全基因組水平 的酶切片段,但運種酶切的片段大小只有25-3化P,根據全基因組變異的平均頻率,過短的 酶切片段很難富含SNP位點,會帶來大量的測序數據損失;此外,短序列在面對基因組重復 區域比對的時候,會帶來大量的比對錯誤,也會強烈干擾到SNP的分型準確性,進而嚴重干 擾下游應用。當進行SNP標記位點分析時,單酶切不利于后續試驗中酶切片段的篩選,而部 分雙酶切組合存在著酶切片段過多或過少的缺點,酶切片段過多會增加實驗成本,酶切片 段過少將降低SNP挖掘的密度,進而影響后續生物學分析,還有的酶切組合會由于基因組 的甲基化影響酶切效率。綜上諸多原因,對任何需要研究的物種,酶切組合優選的實驗是必 不可少的。
[0005] 因此有必要開發一種新的具有各物種通用的SNP標記位點分析過程中酶切組合 的確定方法,從而在進行SNP標記位點分析時快速簡便的獲得最適的酶切組合,W降低基 因分型的成本,為基因分型后的下游應用提供便利。
【發明內容】
[0006] 針對現有技術的不足,本發明的目的在于提供一種基于測序基因分型技術的SNP 標記位點分析過程中酶切組合的確定方法。
[0007] 為達到W上目的,本發明提供了一種測序基因分型技術中測序酶切組合的確定方 法,包括W下步驟:
[0008] (1)對目的基因組進行限制性內切酶酶切位點預測,統計不同酶切方式獲得的酶 切片段數目;
[0009] (2)根據步驟(1)中所預測的各種酶切方式的酶切片段設計每種酶切片段兩端的 接頭序列及PCR擴增引物序列;
[0010] (3)分別針對不同酶切方式利用GBS技術構建測序文庫;
[0011] (4)利用步驟(3)構建的測序文庫進行測序;
[0012] (5)根據測序結果獲得SNP標記位點;
[001引 (6)根據不同酶切組合所獲得的SNP標記位點個數、酶切片段大小確定針對目的 基因組的特定酶切組合;
[0014] 其中,在步驟(1)中,對目的基因組的酶切位點預測包括單酶切預測和雙酶切預 測。
[0015] 在本發明中,酶切位點預測可W通過計算機程序進行,例如,在本發明的一種實施 方式中,編寫perl腳本Site_predict.pi如下,需要輸入的文件為牛基因組的染色體名稱、 序列W及被預測酶的酶切位點序列。運行命令為:pe;rlSite_predict.pl。牛的基因組序 列從化sembl上下載,版本號為:UMD3. 1,INSDCAssemblyGCA_000003055. 3,Nov2009。
[0016]
[0017]
[0018] 在獲得單個限制性酶切結果之后,可W根據需要對兩兩組合的限制性酶的模擬結 果進行處理,W獲得兩種酶同時作用情況下的模擬結果。WEcoRI和MspI為例,命令如 下:
[0019] less-Secorl.posIawk,0FS= "\t" {p;rint$l, $2, "1"},Iless_S〉ecor
[0020] less-Smspl.posIawk,OFS= "\t" {p;rint$l, $2, "2"},Iless-S〉msp
[0021] catecormspIsort-kl,l-k2, 2nIless-S〉double_length_input
[0022] 可選的,步驟(1)中所述的酶切方式包括如表1所示的7種單酶切方式和8種雙 酶組合方式;
[0023] 表 1
[0024]
[00巧]可選的,步驟(2)中每種酶切片段的接頭序列包括一個通用接頭和一個條形碼接 頭。
[0026] 可選的,所述通用接頭是由2條通用接頭序列(通用接頭序列1和2)退火形成的 雙鏈DNA,其中通用接頭序列1經過5'憐酸化修飾,所述條形碼接頭是由兩條條形碼接頭序 列(條形碼接頭序列1和2)退火形成的雙鏈DNA,其中條形碼接頭序列2經過5'憐酸化修 飾。
[0027] 其中所述條形碼接頭序列1和2中包括長度為6-9bp的任意短核巧酸條形碼序 列。
[002引可選的,步驟似所述的PCR擴增引物序列如SEQIDNO: 1-2所示。
[0029] 可選的,步驟(3)中包括W下步驟:
[0030] (a)利用限制性內切酶對基因組進行酶切獲得酶切產物;
[0031 ] 化)制備通用接頭和條形碼接頭;
[0032] (C)分別將通用接頭和條形碼接頭與酶切產物進行連接反應,獲得連接產物;
[0033] (d)將連接產物等比例進行混池,獲得混池后的連接產物;
[0034] (e)在混池后的連接產物中加入1. 2-1. 4倍體積的磁珠進行第一純化獲得第一純 化產物;
[0035] (f)在所述第一純化產物中加入0. 8-0. 9倍體積的磁珠進行第二純化獲得第二純 化產物;
[0036] (g)對第二純化產物進行PCR擴增獲得PCR產物;
[0037] 化)在PCR產物中加入1. 2-1. 4倍體積的磁珠進行第Ξ純化獲得第Ξ純化產物;
[0038] (i)在第Ξ純化產物中加入0. 8-0. 9倍體積的磁珠進行第四純化獲得簡化基因組 測序文庫。
[0039] 可選的,所述第一純化和第Ξ純化的步驟相同,具體包括:加入磁珠后,在旋轉 儀上室溫解育18-22min獲得解育后體系;解育結束后放置在磁力架上,棄去上清,加入 480-520μL的70 %乙醇,靜置30-40S后緩慢旋轉,使磁珠在管壁上移動,待溶液澄清后,去 除上清液,再重復此步驟一次獲得沉淀;再在所獲得的沉淀中加入LowΤΕ,用移液器上下吸 打后振蕩,離屯、后靜置澄清獲得上清液;其中,相對于100μL所述沉淀,LowTE的添加量為 140-160μL。
[0040] 可選的,第二純化和第四純化的步驟相同,具體包括:加入磁珠后,在旋轉儀上室 溫解育13-16min;解育結束后放置在磁力架上,棄去上清,加入480-520μL的70%乙醇,靜 置30-40S后緩慢旋轉,使磁珠在管壁上移動,待溶液澄清后,去除上清液,重復此步驟一次 獲得沉淀;再在所獲得的沉淀中加入LowΤΕ,用移液器上下吸打后振蕩,離屯、后靜置澄清獲 得上清液;其中,相對于100μL所述沉淀,LowTE的添加量為30-50μL。
[0041] 可選的,步驟(C)中所述的通用接頭的退火體系為:100μΜ通用接頭序列15μL; 100μΜ通用接頭序列25μL,5XAnnealingBuffer10μL,無核酸酶水30μL;退火程序 為:加熱至95°C,并WrC/min的速度降溫至25°C,25°C保溫30min后于4°C保存。
[0042] 條形碼接頭的退火體系為:100μΜ條形碼接頭序列15μΙ;100μΜ條形碼接頭 序列25μL,5