請輸入產(chǎn)品關(guān)鍵字:
郵編:201100
聯(lián)系人:陳
電話:021-64133189
傳真:021-64129208
手機(jī):13788995069
留言:發(fā)送留言
個性化:www.runwelltac.com
網(wǎng)址:www.runwelltac.com
商鋪:http://www.hbwxwy.cn/st111352/
新手如何開始基因組測序數(shù)據(jù)分析
點(diǎn)擊次數(shù):2976 發(fā)布時間:2011-11-9
新手如何開始基因組測序數(shù)據(jù)分析
作為生命科學(xué)領(lǐng)域的“圈內(nèi)人”,如果你還不知曉近期基因組測序的飛速發(fā)展,那你就實(shí)在太out了。。。這項(xiàng)技術(shù)在短短5年時間里,從一種令人仰望的技術(shù)變成了實(shí)驗(yàn)室里的常規(guī)操作,僅僅就去年一年時間,這項(xiàng)技術(shù)就應(yīng)用到了千人基因組計(jì)劃、人類微生物計(jì)劃這兩項(xiàng)重要的研究項(xiàng)目中,識別了大量孟德爾遺傳疾病相關(guān)的基因,比如朱伯特綜合癥(Joubert Syndrome),米勒費(fèi)雪綜合癥(Miller Syndrome),還破解了蘋果,虱子,以及前段時間侵襲海地的霍亂弧菌的基因組,實(shí)力確實(shí)不可小窺。
然而由于這一領(lǐng)域的發(fā)展速度飛快,因此一些新接觸的實(shí)驗(yàn)人員可能會感到茫然無措:雖然這些研究人員都具有實(shí)體測序?qū)嶒?yàn)操作經(jīng)驗(yàn),但是如何處理獲得的龐大數(shù)據(jù)是一個巨大挑戰(zhàn)。幸運(yùn)的是,目前已經(jīng)有了一些免費(fèi)的,或者說是低成本的多元化工具,以及活躍的用戶群,可以幫助我們解決其中的一些問題,包括大部分新手都會提的一個問題——從那兒開始?以下的這些測序?qū)<視倪@一zui常見的新手問題開始,一一幫助我們解答疑惑。
需要什么IT基礎(chǔ)設(shè)備?
簡而言之:視情況而定。測序數(shù)據(jù)集信息量都很大,但不是所有的數(shù)據(jù)集都一樣,比如說,*基因組測序項(xiàng)目包括原始測序數(shù)據(jù),比對數(shù)據(jù),變異檢出數(shù)據(jù)等,每個樣品都能達(dá)到上百GB,而像ChIP-Seq數(shù)據(jù)集(例如染色體免疫共沉淀實(shí)驗(yàn)數(shù)據(jù))就小得多了,才幾個GB而已。
因此要回答需要多少空間來存儲所有數(shù)據(jù)這個問題,也是視情況而定。弗吉尼亞州立聯(lián)邦大學(xué)生物標(biāo)記研究及個性化醫(yī)療中心有一臺2010年早期購買的ABI SOLiD 4測序儀,目前這個中心有大約35TB(即35000GB)的磁盤空間來存儲數(shù)據(jù),其中一些保存在實(shí)驗(yàn)室內(nèi),但是大部分實(shí)際上都外包了,比如1575個個體甲基化測序數(shù)據(jù)。中心主任Edwin van den Oord說,“僅僅是實(shí)驗(yàn)室里產(chǎn)生的數(shù)據(jù)不需要這么大的空間”,但即使是35TB的空間還是不夠的,“我們需要購買更多的磁盤才能分析這些數(shù)據(jù)”。來自杜克大學(xué)的Kevin Shianna實(shí)驗(yàn)室完成了200個*基因組測序,以及另外100個基因組外顯子(即蛋白編碼區(qū)域)測序,目前他們有300TB磁盤空間,而且其中大部分都是滿的!
除了磁盤空間外,另外一個關(guān)鍵的元素就是電腦的運(yùn)作能力,數(shù)據(jù)文件如此之大,往往不能通過臺式機(jī)來準(zhǔn)確分析,因此需要計(jì)算機(jī)PC集群(cluster)——一種特別的ad-hoc超級電腦(ad-hoc:電腦到電腦網(wǎng)絡(luò)),電腦之間通過網(wǎng)絡(luò)鏈接,由許多小電腦并聯(lián)組成。舉例而言,杜克大學(xué)所用的一種軟件工具:Sequence Variant Analyzer(能注釋基因變異,以及這些變異在基因組中位置)就是“一個內(nèi)存怪獸”,Shianna說,“它至少需要24-32GB的內(nèi)存空間。”
如果沒有這些設(shè)備該怎么辦?
許多高校都提供集群資源服務(wù),但也不是每個都有,對于沒有集群設(shè)施的研究人員來說,可以尋找一些Web,云模式(cloud-based)為基礎(chǔ)的來替代,比如Amazon Web Services,這是一種可以提供基礎(chǔ)設(shè)施的計(jì)算平臺服務(wù),包括云計(jì)算平臺EC2(Elastic Compute Cloud)——擁有幾乎無限的計(jì)算設(shè)施,和云儲存服務(wù)S3(simple storage service)——提供在線存儲服務(wù)。每個人都可以在AWS上建立自己的戶頭,這要求有一臺實(shí)體的機(jī)器,一個計(jì)算機(jī)界面來連接網(wǎng)絡(luò),然后通過Amazon的云服務(wù)進(jìn)行數(shù)據(jù)分析。
這種付費(fèi)系統(tǒng)靈活性很大,通過Amazon(或其它的云服務(wù)平臺,比如Google和Microsoft)完成繁重的高計(jì)算量任務(wù),研究人員就能從購買,維修和升級IT設(shè)備這些繁雜的事情中脫身,DNAnexus公司總裁Andreas Sundquist說,“我看到Amazon預(yù)算好像訂了十萬個CPU,還有上百個PB(1PB=1000TB)磁盤”,“世界上能接觸到這么多計(jì)算機(jī)和磁盤的地方非常少”,一些無私的研究人員還研發(fā)了一種預(yù)先組態(tài)(preconfigured)生物信息學(xué)為基礎(chǔ)的虛擬Linux機(jī)器,作為一個Amazon鏡像系統(tǒng)(Amazon Machine Image),這種打包的服務(wù)器環(huán)境能運(yùn)行需要的軟件和應(yīng)用程序,
除此之外,還可以試試賓州的Galaxy (galaxy.psu.edu/),其網(wǎng)頁介紹道,“Galaxy能幫助你完成其它任何地方都無法完成的分析,而且無需安裝或者下載任何東西,你可以分析多重比對,比較基因組注釋,解析宏基因組樣品等更多得多的應(yīng)用”,這一系統(tǒng)包含有大量的文檔資料和教程視頻,來自凱撒西儲大學(xué)的Mark Adams將Galaxy稱為“一個能整合不同類別數(shù)據(jù),查詢數(shù)據(jù),協(xié)調(diào)性尤其好的系統(tǒng)”。
對于云計(jì)算有更高要求的研究人員就可以嘗試下一些商業(yè)公司,比如 DNAnexus (dnanexus.com)和GenomeQuest (www.genomequest.com),前者可以通過直接上傳,或者聯(lián)網(wǎng)的測序儀上接收數(shù)據(jù),進(jìn)行變異查找,RNA表達(dá)分析和ChIP-Seq分析。Sundquist說,“你不用考慮這些分析在哪里進(jìn)行,也不用考慮結(jié)果存儲在哪里,這些DNAnexus云計(jì)算都能幫你做到”。這些服務(wù)(AWS)的價格是20美元/GB/2年(科研單位),5美元/GB(測序機(jī)構(gòu))。