二代基因測序技術(shù)的發(fā)展對測序數(shù)據(jù)的處理分析提出了很高的要求。目前二代基因測序?qū)嶒炇医ㄔO(shè)數(shù)據(jù)分析軟件很多,但是絕大多數(shù)軟件僅能完成單一的分析功能,如何能正確高效地選擇整合這些軟件已成為迫切需求。藍恩勵對于二代基因測序?qū)嶒炇医ㄔO(shè)已經(jīng)有所研究。
來自藍恩勵的研究人員設(shè)計了一套基于二代基因測序的實驗室建設(shè)方案,*的實驗設(shè)計原理,一站式建設(shè)和規(guī)劃方案,簡化了數(shù)據(jù)分析過程中的人工操作,大大提高了運行效率。
二代基因測序?qū)嶒炇医ㄔO(shè)技術(shù) 大幅度降低了測序的時間和成本,使得大規(guī)模測序逐漸成為常規(guī)的實驗室研究和臨床檢測手段。測序產(chǎn)生的數(shù)據(jù)量急劇增加,如何高效地分析這些數(shù)據(jù),已成為迫切需要解決的問題。目前,分析序列信息的生物信息學(xué)軟件紛繁復(fù)雜,但基本上每個軟件只能完成單一的分析功能,實現(xiàn)一個完整的分析流程則需要對眾多軟件進行整合,而手動串聯(lián)的效率往往不盡人意;同時,這些軟件需要在Linux工作環(huán)境下以命令行運行,要求用戶具備較好的計算機背景;另外,即便一些實驗室完成了分析流程的構(gòu)建,他們往往不會公開許多細節(jié),新用戶仍然要從頭建起。
針對這一問題,研究人員希望能通過構(gòu)建經(jīng)典的二代基因測序?qū)嶒炇医ㄔO(shè)數(shù)據(jù)分析流程,并實現(xiàn)各個環(huán)節(jié)的高效自動化管理和分析,減輕研究者前期的工作負擔(dān),促進相關(guān)領(lǐng)域進一步對基因組測序研究項目的順利開展。

?
研究人員為此設(shè)計了一套基于 perl 語言和 SGE 資源管理的自動化處理流程來分析 Illumina 平臺基因組測序數(shù)據(jù)。該流程以測序原始序列數(shù)據(jù)作為輸入,調(diào)用業(yè)界標(biāo)準(zhǔn)的數(shù)據(jù)處理軟件(如:BWA,Samtools,GATK,ANNOVAR 等),較終生成帶有相應(yīng)功能注釋、便于研究者進一步分析的變異位點列表。
這程通過自動化并行腳本控制流程的高效運行,一站式輸出分析結(jié)果和報告,簡化了數(shù)據(jù)分析過程中的人工操作,大大提高了運行效率。用戶只需填寫配置文件或使用圖形界面輸入即可完成全部操作,為廣大研究者分析二代基因測序?qū)嶒炇医ㄔO(shè)數(shù)據(jù)提供了便利的途徑。
目前測序數(shù)據(jù)處理軟件很多,研究人員綜合考慮了適用性和效率,整合出了一套標(biāo)準(zhǔn)的數(shù)據(jù)處理流程。具體來說,獲得 FASTQ格式的原始測序數(shù)據(jù)后,需要數(shù)據(jù)進行以下處理: (1)使用BWA 軟件把這些短序列和參考基因組進行對比,確定短序列在基因組上的位置,把短序列組裝成完整的人類參考基因組; (2)使用 Samtools 軟件把這些短序列調(diào)整成按一定順序(1-22,X,Y,其他)排列的序列,并進行數(shù)據(jù)格式的轉(zhuǎn)換; (3)使用 Picard 軟件把測序產(chǎn)生的冗余信息和噪聲去掉; (4)使用 GATK 尋找樣本測序數(shù)據(jù)與參考基因組的差異,列出這些差異點; (5)使用 Annovar對這些變異位點進行功能注釋,得到一個易于理解的變異位點列表。