新冠病毒破解有了巨大突破,達摩院做了什么?
阿里巴巴達摩院正在用AI算法抗擊新型冠狀病毒肺炎疫情。2月1日,浙江省疾控中心上線自動化的全基因組檢測分析平臺。利用阿里達摩院研發(fā)的AI算法,可將原來數(shù)小時的疑似病例基因分析縮短至半小時,大幅縮短確診時間,并能精準(zhǔn)檢測出病毒的變異情況。
本文引用地址:http://www.ex-cimer.com/article/202002/409530.htm當(dāng)前,全國新型冠狀病毒肺炎疫情依然嚴峻,快速、精確診斷對于疫情控制尤其重要。公開信息顯示,該病毒是基因組序列最長的病毒之一,全基因組序列全長29847bp,臨床診斷需要將患者樣本與該病毒基因序列進行比對才能確定診斷結(jié)果。
目前醫(yī)院普遍采用核酸檢測方法,其只能檢測到病毒基因的局部。由于病毒存在變異的可能性,對于整個基因序列來說這種檢測方法猶如盲人摸象,一旦病毒發(fā)生變異,就可能出現(xiàn)漏檢的情況。
不同于傳統(tǒng)核酸檢測方法,全基因組檢測技術(shù)可以對疑似病例的病毒樣本進行全基因組序列分析比對,能夠有效防止病毒變異產(chǎn)生的漏檢。此次阿里巴巴達摩院與杰毅生物技術(shù)公司聯(lián)合研發(fā)的平臺采用的就是全基因組檢測方法,其突破之處在于大幅縮短了檢測時間。
在基因分析階段,阿里巴巴達摩院和阿里云彈性計算團隊提供的系統(tǒng)還能提供病毒快速拼接能力,將快速精準(zhǔn)捕捉變異后的病毒序列,二級結(jié)構(gòu)及三維結(jié)構(gòu),為病毒疫苗和藥物提供了基礎(chǔ)。
診斷效率的提升得益于算法的創(chuàng)新。達摩院團隊針對新型冠狀病毒基因進行特征分析,并推出多個算法模型。在序列比對過程中,達摩院對算法增加了分布式設(shè)計,提升了比對效率;在病毒序列拼接階段使用分布式設(shè)計的de Bruijn圖算法,變異病毒也能精準(zhǔn)檢測。
浙江省疾控中心基因測序負責(zé)人孫逸博士表示:“該平臺基于阿里云的強大算力與達摩院新算法可以為病毒的解析提供支撐,基于該平臺,未來還可以在短時間內(nèi)將檢測范圍覆蓋整個確診病例,也為后續(xù)疫苗與藥物研發(fā)打下了堅實基礎(chǔ)。”
以下是達摩院算法專家對該平臺的解讀:
Q:這一平臺有何特點?
A:此次研發(fā)的自動化全基因組檢測分析平臺屬于高通量測序,平臺由阿里巴巴達摩院聯(lián)合杰毅生物共同研發(fā),可以給浙江省疾控在新型冠狀病毒疫情防控上提供了全自動建庫和分布式計算分析能力。杰毅生物開發(fā)了全自動高通量測序建庫儀,把整體常規(guī)人工需要12小時的工作縮短到2個小時。每次測序過程會產(chǎn)生海量的數(shù)據(jù),達摩院采用分布式設(shè)計的分析算法,樣本基因分析的速度由數(shù)小時縮短到半小時;同時,由于采用分布式算法,病毒拼接的速度由30分鐘-1小時縮短到15-30分鐘。除此之外,不同于傳統(tǒng)核算檢測方法,這一平臺還可以檢測到病毒的全貌,避免因為病毒變異造成的漏檢情況。
Q:達摩院團隊提供的算法有哪些價值?
A:達摩院針對新冠病毒基因的特征進行了分析,基于pdb等公共數(shù)據(jù)集的數(shù)據(jù)進行算法的優(yōu)化訓(xùn)練。本次分析病毒檢測和病毒變異部分主要基于開源算法,設(shè)計分布式算法以加速分析流程。病毒序列拼接完成后,通過設(shè)計BiLSTM+DNN的方式訓(xùn)練模型預(yù)測病毒蛋白二級結(jié)構(gòu)。同時,達摩院還在研究基于序列的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測模型以及藥物篩選模型。
評論