阿里達(dá)摩院專家解密:AI算法將肺炎疑似病例基因分析縮短至半小時(shí)的背后
到今天為止,肺炎疫情的發(fā)展依舊是每個(gè)人頭腦里繃得最緊的一根弦。
本文引用地址:http://www.ex-cimer.com/article/202002/409557.htm截至2月1日24時(shí),國(guó)家衛(wèi)生健康委收到31個(gè)?。ㄗ灾螀^(qū)、直轄市)和新疆生產(chǎn)建設(shè)兵團(tuán)累計(jì)報(bào)告確診病例14380例,疑似病例有19544例。
盡管疫情嚴(yán)重,但一個(gè)好消息是,AI正成為前線醫(yī)務(wù)人員的重要加持力量。
雷鋒網(wǎng)了解到,2月1日,浙江省疾控中心上線自動(dòng)化的全基因組檢測(cè)分析平臺(tái),利用阿里達(dá)摩院研發(fā)的AI算法,可將原來數(shù)小時(shí)的疑似病例基因分析縮短至半小時(shí),大幅縮短確診時(shí)間,并能精準(zhǔn)檢測(cè)出病毒的變異情況。
達(dá)摩院算法專家顧斐博士在疾控中心基因檢測(cè)分析現(xiàn)場(chǎng)
核酸檢測(cè)方法的局限性
在這么多天科普知識(shí)的瘋狂輸出下,我們可以知道的一點(diǎn)是,新型冠狀病毒感染的肺炎患者的臨床表現(xiàn)與流感的臨床表現(xiàn)差別并不大。
因此,醫(yī)務(wù)人員口中所說的“小盒子”——核酸檢測(cè)試劑盒的檢測(cè)結(jié)果對(duì)于確診來說非常重要。
在核酸檢測(cè)試劑盒開發(fā)過程中,基因組測(cè)序是必不可少的步驟,這個(gè)過程會(huì)耗費(fèi)數(shù)日。一旦完成,核酸檢測(cè)試劑盒的開發(fā)將變得很快。
那么,試劑盒數(shù)量夠了就行了嗎?遠(yuǎn)遠(yuǎn)不是。
此前,北京大學(xué)醫(yī)學(xué)部病原生物學(xué)系教授,美國(guó)伯明翰阿拉巴馬大學(xué)醫(yī)學(xué)院微生物學(xué)系分子病毒學(xué)終身教授羅光湘曾表示,核酸檢測(cè)試劑盒并不能獨(dú)立使用,需要搭配PCR儀器共同進(jìn)行檢測(cè),而這種儀器只有規(guī)模較大的醫(yī)院才有,社區(qū)醫(yī)院、縣城醫(yī)院或許還未普及,只能送往中心城市的醫(yī)院或疾控中心進(jìn)行檢測(cè)。
所以,一開始,新型冠狀病毒核酸檢測(cè)只能在湖北省疾控中心進(jìn)行,而且核酸檢測(cè)試劑盒生產(chǎn)較少,就出現(xiàn)了疑似患者確診困難,得不到及時(shí)救治的狀況。
此外,新型冠狀病毒本身也很“難纏”。
公開信息顯示,該病毒是基因組序列最長(zhǎng)的病毒之一,全基因組序列全長(zhǎng)29847bp,臨床診斷需要將患者樣本與該病毒基因序列進(jìn)行比對(duì)才能確定診斷結(jié)果。
達(dá)摩院算法專家顧斐博士表示,目前醫(yī)院普遍采用核酸檢測(cè)方法,只能檢測(cè)到病毒基因的局部。一旦病毒發(fā)生變異,就可能出現(xiàn)漏檢的情況。
在接受雷鋒網(wǎng)采訪時(shí),一位知情人士透露,核酸檢測(cè)方法是一種用于放大擴(kuò)增特定DNA片段的分子生物學(xué)技術(shù),能利用聚合酶鏈?zhǔn)椒磻?yīng)將微量的DNA大幅擴(kuò)增,從而檢測(cè)出帶有特定基因片段的病毒,也就是說這種方法只能檢測(cè)到樣本基因的局部。
(新型冠狀病毒結(jié)構(gòu))
所以,面對(duì)洶涌的疫情,單靠“人肉輸出”來獲得有漏檢風(fēng)險(xiǎn)的結(jié)果,目測(cè)已經(jīng)不是一個(gè)好辦法了,大量疑似的患者仍然存在。
AI算法成破局利器
嚴(yán)峻的抗疫形勢(shì)下,AI成為破局的一把利器。
此次研發(fā)的自動(dòng)化全基因組檢測(cè)分析平臺(tái)屬于高通量測(cè)序,由浙江省疾病預(yù)防控制中心、阿里達(dá)摩院醫(yī)療AI團(tuán)隊(duì)和杰毅生物技術(shù)公司共同研發(fā),突破之處在于大幅縮短了檢測(cè)時(shí)間。
針對(duì)平臺(tái)的合作細(xì)節(jié)以及未來的應(yīng)用規(guī)劃,雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))與阿里達(dá)摩院的一位算法專家進(jìn)行了采訪。
Q:傳統(tǒng)的病毒基因分析過程,主要包含哪些步驟和階段?
A:一般而言整個(gè)流程涵蓋:樣本標(biāo)記、分裝;核酸提??;熒光定量PCR體系配制;上機(jī)檢測(cè);數(shù)據(jù)報(bào)告分析。
Q:這么一套平臺(tái),達(dá)摩院這邊投入了多少人力,什么時(shí)候開始做,前后花了多長(zhǎng)時(shí)間?
A:疫情發(fā)生后,達(dá)摩院投入十余人研發(fā)這套新平臺(tái),例如針對(duì)新冠病毒基因的特征進(jìn)行了分析,基于PDB等公共數(shù)據(jù)集的數(shù)據(jù)進(jìn)行算法的優(yōu)化訓(xùn)練,也有算法專家奔赴浙江省疾控中心前線,與兩個(gè)合作方溝通合作,才研發(fā)了這套平臺(tái)。
Q:既然是AI算法,就存在準(zhǔn)確性的問題,達(dá)摩院的AI算法、模型在各個(gè)階段應(yīng)用過程中是否需要考慮準(zhǔn)確性的問題?
A:目前,沒有不準(zhǔn)確的情況。在檢測(cè)過程中,對(duì)于算法而言,需要做到100%的準(zhǔn)確率。
Q:病毒基因的檢測(cè)和分析是兩種不同的工作,你們是如何合作的?
A:杰毅生物開發(fā)了全自動(dòng)高通量測(cè)序建庫(kù)儀,把整體常規(guī)人工需要12小時(shí)的工作縮短到2個(gè)小時(shí)。簡(jiǎn)單一點(diǎn)理解,就是檢測(cè)的結(jié)果進(jìn)行“數(shù)據(jù)化”,然后交由達(dá)摩院開發(fā)的算法進(jìn)行分析。每次測(cè)序過程會(huì)產(chǎn)生海量的數(shù)據(jù),基于一系列優(yōu)化的算法,可以加快樣本病例的檢測(cè)速度。在這個(gè)環(huán)節(jié)里,算力和算法同樣重要。
Q:這樣一個(gè)幫助醫(yī)務(wù)人員在減負(fù)和提效之間保持平衡的平臺(tái),未來的應(yīng)用方法和合作途徑如何?
A:接下來,全基因組檢測(cè)分析平臺(tái)會(huì)在全省大規(guī)模應(yīng)用。達(dá)摩院會(huì)與合作伙伴共同將這套技術(shù)推廣至全國(guó)。對(duì)于是否有其他省市醫(yī)院尋求使用,暫時(shí)不好透露。
點(diǎn)睛之筆——分布式設(shè)計(jì)的算法
值得注意的是,達(dá)摩院這次的分布式設(shè)計(jì)算法是整個(gè)平臺(tái)的“點(diǎn)睛之筆”。
在序列比對(duì)過程中,達(dá)摩院對(duì)算法增加了分布式設(shè)計(jì),提升了比對(duì)效率;樣本基因分析的速度由數(shù)小時(shí)縮短到半小時(shí);在病毒序列拼接階段,達(dá)摩院使用分布式設(shè)計(jì)的de Bruijn圖算法,變異病毒也能精準(zhǔn)檢測(cè),病毒拼接的速度由30分鐘-1小時(shí)縮短到15-30分鐘。
除此之外,不同于傳統(tǒng)核酸檢測(cè)方法,這一平臺(tái)還可以檢測(cè)到病毒的全貌,對(duì)疑似病例的病毒樣本進(jìn)行全基因組序列分析比對(duì),避免因?yàn)椴《咀儺愒斐傻穆z情況。
本次分析病毒檢測(cè)和病毒變異部分主要基于開源算法,設(shè)計(jì)分布式算法以加速分析流程。病毒序列拼接完成后,通過設(shè)計(jì)BiLSTM+DNN的方式訓(xùn)練模型預(yù)測(cè)病毒蛋白二級(jí)結(jié)構(gòu)。
與此同時(shí),達(dá)摩院還在研究基于序列的蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)模型以及藥物篩選模型。
浙江省疾控中心基因測(cè)序負(fù)責(zé)人孫逸博士表示:“該平臺(tái)基于阿里云的強(qiáng)大算力與達(dá)摩院新算法可以為病毒的解析提供支撐,基于該平臺(tái),未來還可以在短時(shí)間內(nèi)將檢測(cè)范圍覆蓋整個(gè)確診病例,也為后續(xù)疫苗與藥物研發(fā)打下了堅(jiān)實(shí)基礎(chǔ)?!?/p>
一場(chǎng)關(guān)乎全民的技術(shù)戰(zhàn)
為了抗疫這場(chǎng)關(guān)乎全民的戰(zhàn)役,國(guó)內(nèi)的科技巨頭第一時(shí)間站了出來。
為了幫助加速新藥和疫苗研發(fā),此前,阿里云宣布將向全球公共科研機(jī)構(gòu)免費(fèi)開放一切AI算力。
目前,中國(guó)疾控中心已成功分離病毒,但在新藥和疫苗研發(fā)期間,需要進(jìn)行大量的數(shù)據(jù)分析、大規(guī)模文獻(xiàn)篩選和科學(xué)超算工作。阿里云的AI算力,可以支持病毒基因測(cè)序、新藥研發(fā)、蛋白篩選等工作,幫助科研機(jī)構(gòu)縮短研發(fā)周期。
而且,除了這次的全基因組檢測(cè)分析平臺(tái),達(dá)摩院還在春節(jié)期間,用五天時(shí)間推出了“智能疫情機(jī)器人”,目前正在為浙江省新型肺炎公共服務(wù)與管理平臺(tái)提供服務(wù)。
今天(2月2日),“7000人鏖戰(zhàn),9天建成”的武漢火神山醫(yī)院正式交付??梢韵嘈诺氖?,在防疫戰(zhàn)役越來越深入的情況下,全基因組檢測(cè)分析平臺(tái)會(huì)像火神山醫(yī)院一樣,用AI的力量為民眾和醫(yī)務(wù)工作者帶來更多的信心。
本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。
評(píng)論