谷歌希望憑借人類基因組云端服務Google Genomics在基因組研究市場占有一席之地,如今,公司正忙于用最好的工具來填滿這個工具箱。
Google Genomics是谷歌2013年推出的一項云端服務,幫助大學實驗室和醫院等機構將患者或科研對象的生物基因儲存到云端上,推進人類基因組信息的存儲、對比和分析。
Google Genomics和基因數據創業公司Tute Genomics日前宣布,Tute Genomics將把其海量基因信息數據庫放到Google Genomics平臺上以便于查詢。Google Genomics托管的其他基因數據庫還包括1000 Genomes Project、Illumina Platinum Genomes和MSSNG Database for Autism Researchers等。
Google Genomics工程主管、Google+項目前工程主管大衛?格雷澤(David Glazer)曾表示,搜索不是搜索關鍵字,研究人員可以搜索基因組的特定片段及基因組序列,從而找到具有共同變異的基因組片段。
Google Genomics產品經理喬納森?秉海姆(Jonathan Bingham)表示,為了區分自己不僅僅是一個數據存儲平臺,Google Genomics還將利用谷歌的搜索工具和計算設施來處理和分析基因數據。
用戶在Google Genomics上存儲數據后,還可以共享給任何想共享的人。此外,Google Genomics還支持基因組數據的處理,包括變異調用、三級結構分析(tertiary analysis)和群組對比等。
Google Genomics除了存儲數據,還提供數據分析服務。秉海姆稱:“Google Genomics建立在Google Cloud云平臺之上,我們需要解決的一個問題是可存儲性。此外,還要便于研究人員進行分析,在速度和靈活性方面要有保證!
秉海姆還稱,BigQuery就是Google Cloud平臺上的一個云數據分析引擎,之前已被證明對于基因組數據分析大有幫助。BigQuery是谷歌推出的一項Web服務,允許開發者使用谷歌架構運行SQL語句對超級大數據庫進行分析,TB級數據十幾秒便可返回結果。
“向BigQuery加載數據后,如來自特定父母群體的基因變異數據,用戶就可以對一些問題進行查詢,如等位基因頻率、全基因組關聯、與表型性狀或藥物治療的關聯等,幾秒鐘便可返回結果。”
但BigQuery是針對無結構數據(unstructured data)進行設計的,因此Google Genomics團隊還對BigQuery引擎進行了調整,使之適應基因組數據。
秉海姆表示,此次與Tute Genomics合作后,將允許用戶通過BigQuery進行更深層的數據挖掘。 “人們已經意識到,Google Genomics和BigQuery的結合允許人們利用基因變異和之前的相關知識做一些十分有意義的事情。如果你之前做過基因測序研究,或者有了新的人類基因組,可以加入到Tute Genomics數據庫中,然后咨詢一些問題。例如,如果我給患者做了基因測序,如何能知道他們的變異?哪些與疾病的關聯度最高?如何知道他們對藥物的反應?”
這項服務的成本和速度分別是:88 GB的人類基因組變異信息加入到Tute Genomics數據庫僅30秒鐘,費用不到1美元。
Tute Genomics基因數據庫是一個“注釋型”數據庫,對許多基因變異進行了解讀,所使用的標準包括SIFT、PolyPhen2、PhyloP、GERP++、MutationTaster、MutationAssessor、FATHMM、MetaLR和MetaSVM等。同時,Tute Genomics數據庫也整合了自身的預測系統,可預測單核苷酸多態性(SNP)或插入缺失標記(InDel)是否與孟德爾表型(Mendelian phenotypes)相關。
Tute Genomics數據庫還整合了公眾數據,如來自1000 Genomes Project和NHLBI ESP-6500等基因組項目的數據。此外,Tute Genomics數據庫還包含了來自NCBI的ClinVar數據庫的臨床注釋。Tute Genomics首席科學官(CSO)大衛?米特曼(David Mittelman)稱,Tute Genomics基因數據庫是其他基因變異數據庫的補充。
谷歌與Tute Genomics的合作始于去年。當時,Tute Genomics CEO雷德?羅比遜(Reid Robison)與谷歌Google Genomics工程主管格雷澤在一次會議上相遇,發現兩家公司的產品很適于合作。
米特曼說:“我們對Google Genomics感到很興奮,它不僅允許你存儲基因數據,還能對其進行分析。在Tute Genomics,我們的工作重心集中在整個注釋層面,但基因變異的背后又意味著什么呢?如何與我們當前的已知內容結合起來呢?就是搜索引擎的任務了。”
今年2月底,谷歌加入了全球基因組學與健康聯盟(Global Alliance for Genomics and Health),旨在推進基因組和臨床數據的安全和有效共享。對于谷歌這種做法,米特曼表示支持。
米特曼說:“如果你擁有一個知名品牌,招募了一群優秀的工程師,正在制定一個開放標準,這些就是成功的關鍵要素。如果想白手起家,從頭打造自己的體驗,或者與毫無經驗的人合作,那意義不大。”
米特曼認為,當前的基因組社區仍在探索研究與合作的方向,但他對谷歌正在打造的社區印象深刻。米特曼說:“人們不只是想把數據上傳到云端,他們還想進行適當的互動。谷歌的該戰略就是測試市場的好方法,看看人們是否愿互動。如果人們能夠積極互動,我相信將催生出更多創新。”
Google Genomics產品經理秉海姆稱,除了Tute Genomics,谷歌還對與其他更多平臺合作持開放態度。
Tute Genomics首席科學官米特曼說:“我們將繼續在Google Cloud平臺上為我們的數據庫打造一系列新工具和功能。這只是我們合作的開始,未來數月還會進行更深入地整合!