一種基因組重測序分析系統及方法
【技術領域】
[0001]本發明涉及生物信息分析技術領域,尤其涉及一種基因組重測序分析系統及方法。
【背景技術】
[0002 ]生物信息學(Bi ο inf ormati c s)是研究生物信息的采集、處理、存儲、傳播,分析和解釋等各方面的學科,也是隨著生命科學和計算機科學的迅猛發展,生命科學和計算機科學相結合形成的一門新學科。它通過綜合利用生物學,計算機科學和信息技術而揭示大量而復雜的生物數據所賦有的生物學奧秘。
[0003]基因組重測序是對已知基因組序列的物種進行不同個體的基因組測序,并在此基礎上對個體或群體進行差異性分析。基因組重測序方向是生物信息學中比較重要的一個分支,已經廣泛應用到了農學、醫學等領域,并對育種和靶向治療起到了極具意義的指導作用。
[0004]高通量測序技術(High-throughput sequencing)又稱“下一代”測序技術("Next-generat1ysequencing technology),以能一次并行對幾十萬到幾百萬條DNA分子進行序列測定和一般讀長較短等為標志。高通量測序技術的出現使基因組學數據出現了指數型增長,海量數據的產生給生物信息學帶來了極大的挑戰,如何快速、高效、準確的完成數據分析,挖掘數據中的科學意義
【發明內容】
[0005]針對現有技術中的缺陷,本發明提供一種基因組重測序分析系統及方法,用于簡化基因組重測序分析流程,提高基因組重測序效率,節省了科研成本。
[0006]第一方面,本發明提供一種基因組重測序分析系統,所述系統包括:
[0007]Web應用單元,用于接收基因組重測序數據和基因組重測序參數,并將所述基因組重測序參數發送至Java交互單元;
[0008]Java交互單元,用于根據所述Web應用單元接收的基因組重測序參數,生成基因組重測序任務信息,并將所述基因組重測序任務信息發送至分析單元;
[0009]分析單元,用于根據所述Java交互單元生成的基因組重測序任務信息,讀取所述基因組重測序數據,并通過調用生物信息學軟件庫和腳本庫,對所述基因組重測序數據進行分析,獲取基因組重測序分析結果;
[0010]其中,所述生物信息學軟件庫,包括:13¥六、8&1]11:0018、6六1'1(、口;^&1(1、13代&1<:dancer、Control_FREEC、SnpEff和blast;
[0011 ] 所述腳本庫,包括:SNP檢測腳本、InDe I檢測腳本、SV檢測腳本、CNV檢測腳本、功能注釋腳本和繪圖及統計腳本。
[0012]優選地,所述Java交互單元包括:
[0013]任務調度模塊,用于根據所述Web應用單元接收的基因組重測序數據和基因組重測序參數,生成基因組重測序任務信息,并將所述基因組重測序任務信息發送至分析單元;
[0014]所述任務調度模塊,在基因組重測序過程中,還用于實時監測基因組重測序任務的運行狀態及進度。
[0015]優選地,所述Java交互單元還包括:
[0016]結果推送模塊,用于在基因組重測序分析結束時,根據所述任務調度模塊發送的展示指令,將所述分析單元獲取的基因組重測序分析結果在Web應用單元進行呈現。
[0017]優選地,所述Java交互單元還包括:
[0018]數據庫交互模塊,用于在基因組重測序分析結束時,根據所述任務調度模塊發送的存儲指令,將所述分析單元獲取的基因組重測序分析結果存儲至數據庫。
[0019]優選地,所述分析單元包括:
[0020]數據評估模塊,用于對所述基因組重測序數據進行質量檢測,并根據質量檢測結果,判斷所述基因組重測序數據是否可以進行基因組重測序;
[0021 ]其中,所述質量檢測包括堿基質量分布檢測和堿基類型分布檢測。
[0022]優選地,所述分析單元還包括:
[0023]序列比對模塊,用于將所述數據評估模塊評估后的基因組重測序數據與參考基因組分別進行比對率統計、測序深度分布統計、插入片段分布統計,分別得到比對率、基因組覆蓋深度、基因組覆蓋度;
[0024]所述序列比對模塊,還用于過濾評估后的基因組重測序數據中的重復序列,得到過濾后的基因組重測序數據。
[0025]優選地,所述分析單元還包括:
[0026]突變檢測模塊,用于通過調用所述生物信息學軟件庫和腳本庫,對所述過濾后的基因組重測序數據進行突變檢測分析;
[0027]其中所述突變檢測分析包括單核苷酸多態性檢測、插入缺失檢測、結構變異檢測和拷貝數變異檢測。
[0028]優選地,所述突變檢測模塊還用于,
[0029]在突變檢測分析過程中,對突變所在的基因組位置進行注釋,所述基因位置包括基因區、基因間區和非翻譯區。
[0030]優選地,所述分析單元還包括:
[0031]功能注釋模塊,在突變檢測分析過程中,用于根據功能注釋數據庫,對突變基因進行功能注釋;
[0032]其中,所述功能注釋數據庫包括GO、C0G\K0G、Pfam、KEGG、NR、SWISS-PROT。
[0033]第二方面,本發明提供一種基因組重測序分析方法,所述方法包括:
[0034]接收基因組重測序數據和基因組重測序參數;
[0035]根據所述基因組重測序參數,生成基因組重測序任務信息;
[0036]根據所述基因組重測序任務信息,通過調用生物信息學軟件庫和腳本庫,對所述基因組重測序數據進行分析,獲取基因組重測序分析結果;
[0037]其中,所述生物信息學軟件庫,包括:13¥4、8&1]11:0018、641'1(4;^&1(1、13代&1<:dancer、Control_FREEC、SnpEff和blast;
[0038]所述腳本庫,包括:SNP檢測腳本、InDe I檢測腳本、SV檢測腳本、CNV檢測腳本、功能注釋腳本和繪圖及統計腳本。
[0039]由上述技術方案可知,本發明提供了一種基因組重測序分析系統及方法,通過Web應用單元接收基因組重測序數據和基因組重測序參數,Java交互單元根據Web應用單元接收的基因組重測序參數,生成基因組重測序任務信息,分析單元根據Java交互單元生成的基因組重測序任務信息,讀取所述基因組重測序數據,并通過調用生物信息學軟件庫和腳本庫,對所述基因組重測序數據進行分析,獲取基因組重測序分析結果。本發明通過調用生物信息學軟件和個性化分析腳本庫,簡化基因組重測序分析流程,提高基因組重測序效率,節省了科研成本。此外,本發明還具有保存基因組重測序分析結果,進行二次查詢的功能。
【附圖說明】
[0040]為了更清楚地說明本公開實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本公開的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些圖獲得其他的附圖。
[0041]圖1為本發明一實施例提供的一種基因組重測序分析系統的結構示意圖;
[0042]圖2為本發明另一實施例提供的一種基因組重測序分析系統的結構示意圖;
[0043]圖3為本發明一實施例提供的一種基因組重測序分析方法的流程示意圖;
[0044]圖4為本發明一實施例中基因組重測序流程示意圖。
【具體實施方式】
[0045]下面將結合本公開實施例中的附圖,對本公開實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本公開中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本公開保護的范圍。
[0046]以下對本發明實施例中提及的部分詞語進行說明。
[0047]單核苷酸的多態性SNP(Single Nucleotide Polymorphism)是指在基因組上單個核苷酸的變異,包括轉換、顛換、缺失和插入,形成的遺傳標記,其數量很多,多態性豐富。
[0048]插入缺失標記InDel(Insert1n and Delet1n),指的是兩種親本中在全基因組中的差異,相對另一個親本而言,其中一個親本的基因組中有一定數量的核苷酸插入或缺失(Jander et al.,2002)0
[0049]結構變異SV(Structure variat1n