用圖像識別做基因預測 谷歌拿到了FDA挑戰賽最高分
去年,谷歌宣布從Mobile First(移動先行)轉向AI First(人工智能先行)。在過去的幾年內,其不僅收購了多家AI公司(包括主攻語義理解、語義網絡的Metaweb;深度學習公司DNNresearch;專注于機器學習跟神經網絡研究的DeepMind;聊天機器人API.AI等),由谷歌旗下DeepMind公司團隊開發的阿爾法狗(AlphaGo)也在近期成為了“網紅”,其在去年與圍棋世界冠軍、職業九段選手李世石進行了扣人心弦的人機大戰,并且以4:1的總比分獲勝。谷歌推出的Tensor Flow深度學習框架也得到了廣泛的好評。
當然,谷歌還得繼續在人工智能領域“搞事情”。
制定目標 超越GATK

GATK(The Genome Analysis Toolkit)是目前使用最廣泛的二代測序數據分析軟件,主要注重于變異的查找、基因分析且高度重視數據質量。GATK使用了一種人工編碼算法,可以將統計數據應用到測序機器最常出錯的地方。
2015年6月份,Google Genomics(谷歌基因組)宣布與博德研究所(Broad Institute)進行合作,兩者聯手推出基因組分析軟件GATK(The Genome Analysis Toolkit)的云端版。谷歌基因組是谷歌公司為幫助科學界存儲、處理和管理海量基因組數據而搭建的云端平臺,于2013年3月份推出。科學家可利用谷歌云端提供的API接口,儲存、處理、分析以及分享DNA序列。
不過,谷歌并不滿足于此,想自己開發一套能超越GATK的基于人工智能的工具。此前,谷歌的人工智能對遺傳學一無所知。事實上,這些人工智能工具只用來識別圖像,正如識別上傳到谷歌貓狗照片的神經網絡一樣,要學習的地方還有很多。
Mark DePristo和Ryan Poplin接手了這項工作,他們也曾是GATK創建小組的成員。
DePristo表示:“(GATK)不可能再有進展了,我們建立了許多不同的模型,但毫無成效。”然后,人工智能技術出現了。
僅僅過去了八個月,(Mark DePristo和Ryan Poplin牽頭開發的)這個神經網絡準確判斷了DNA序列中的突變點,贏得了“FDA”(美國食品藥品管理局Food and Drug Admistraton)挑戰賽的最高分。短短一年,該人工智能已超越了標準的人工編碼算法GATK,它就是谷歌DeepVariant。
DeepVariant強在哪里?
DeepVariant可實現將高通量測序所測區的數據,轉換成完整的基因組圖像。其可以自動識別測序數據中的插入基因、缺失突變以及單堿基對變異。
和GATK一樣,DeepVariant解決了“變異檢測”(variant calling)這個重要的技術性問題。分析DNA時,現代測序儀不會返回一條長鏈,而是可能返回長達100個堿基且相互重疊的短DNA片段。這些片段排列成一條直線,與已知序列的參考基因組進行對比。真正的突變可能出現在不同于參考基因組的片段上,當現在片段與參考基因組和其余片段有差異時,問題就出現了。
GATK試圖通過大量數據解決這一問題。DNA測序器運行時偶爾會出錯,GATK團隊著重研究其易出錯的地方(比如堿基GTG)。他們長期思索著像“隱馬爾可夫模型的統計模型”這樣的事情,然后試圖預測DNA某一具體位置的實際堿基。
與GATK不同,DeepVariant雖然對DNA測序器一無所知,但已經吸收了大量數據。神經網絡通常被類比為處理逐漸復雜化概念的“神經元”層——第一層感應光,第二層感應形狀,第三層則感應實際物體。通過數據訓練,DeepVariant可以判斷哪些“神經元”更重要,哪些可以忽略。最后,從誤判中分辨出實際的突變點。
為了使用圖像識別AI處理DNA測序數據,谷歌決定將數據轉化為圖像。科學家在識別變異點時,經常將排列整齊的基因片段提取出來進行研究。

對此,Poplin表示,“如果將DNA識別當作一個視覺任務,為什么不直接以視覺形式呈現呢?”秉持這種觀念,谷歌將圖像概念嵌入到識別任務中。將數據轉化為RGB(紅、綠、藍)圖像,其中紅色標記ATCG四種堿基,綠色標記序列質量,藍色用來表示DNA的正反向鏈。

之后只需要輸入神經網絡數據。根據Depristo的說法,“很大程度上改變了我們處理問題的角度,從開始努力研究現有數據到現在致力于尋找更多數據。”
DeepVariant將人工智能引入了未來基因研究領域
去年十二月,團隊發表了關于DeepVariant的預印本(Preprint)。上周,谷歌正式發布該工具。這期間,團隊不斷改進修正DeepVariant。
在之前采用紅黃藍三色的基礎上,團隊正考慮為其新增兩個數據層。在人們眼中這些數據是無法構成圖像的,增加幾層數字對于機器來說并不意味著什么。
DeepVariant自身無法改變現有遺傳學研究。與GATK相比,該工具只顯示出了微弱優勢。一定條件下,速度只能達到GATK的一半。然而,DeepVariant逐漸將AI技術引入了未來基因研究領域。
目前,Oxford Nanopore等新型測序技術愈發流行,在這些技術的幫助下,如果DeepVariant能夠趕超GATK(GATK花費了五年時間最終成型),更快地學會識別變異點,可以加速測序技術的投入使用。
Depristo表示,將數據層放置于基因組中能夠解決比預測變異更加重要的問題。比如用數據層表示基因是否具備活性。DeepVariant以三個數據層為出發點,現在已經發展為七個,最終可能會達到幾十個。毫無疑問,人工智能可以讓在人腦中毫無意義的數據變得更有價值。



