從生物統(tǒng)計(jì)下一代數(shù)據(jù)分析趨勢(shì)說(shuō)起
2009年,SAS公司在北美發(fā)布了全新的JMP/SAS CLINICAL產(chǎn)品,內(nèi)部人士認(rèn)為JMP/SAS Clinical產(chǎn)品是SAS針對(duì)生命科學(xué)領(lǐng)域的“下一代數(shù)據(jù)分析平臺(tái)”。作為全球生命科學(xué)領(lǐng)域數(shù)據(jù)分析和研發(fā)改善的領(lǐng)導(dǎo)者,SAS的這一舉動(dòng)毫無(wú)疑問(wèn)將引領(lǐng)全球生物統(tǒng)計(jì)分析的方向,也令整個(gè)產(chǎn)業(yè)界重新思考,生物統(tǒng)計(jì)及其在藥物、衛(wèi)生等領(lǐng)域的應(yīng)用將走向何方?
SAS的生命科學(xué)領(lǐng)域新動(dòng)向
前SAS生命科學(xué)資深科學(xué)家,現(xiàn)任JMP/SAS CLINICAL產(chǎn)品經(jīng)理的GEOFFREY MANN在今年年初舉行的JMP/SAS CLINICAL新版本發(fā)布會(huì)上,展示了這一產(chǎn)品是如何改善臨床試驗(yàn)和藥物評(píng)審等各個(gè)環(huán)節(jié)數(shù)據(jù)分析的。在“探索臨床試驗(yàn)數(shù)據(jù)背后的隱藏模式,來(lái)自 SAS——臨床數(shù)據(jù)分析軟件標(biāo)準(zhǔn)”這一話題下,他展示了新一代生物統(tǒng)計(jì)分析的方向和耐人尋味的諸多細(xì)節(jié):
JMP/SAS Clinical是全球首款全面支持CDISC數(shù)據(jù)標(biāo)準(zhǔn)的軟件。而SAS作為CDISC的積極參與者,在推廣CDISC應(yīng)用上自然是不遺余力。JMP/SAS Clinical產(chǎn)品在功能全面性、先進(jìn)性和易用性上配置豐富,其組成模塊包括:
− SAS Clinical Standards Toolkit
− SAS BASE2
− SAS ACCESS to PC Files
− SAS Genetics
− SAS GRAPH
− SAS IML
− SAS STAT
− JMP Life Sciences SAS components 12=
− SAS Integration Technologies
SAS Enterprise Guide (此為可選項(xiàng),僅僅適用于客戶端而非服務(wù)器端)
− JMP
− JMP for Clinical
這一共十二個(gè)模塊涵蓋了生命科學(xué)領(lǐng)域所需的數(shù)據(jù)整理、數(shù)據(jù)分析、SAS編程、JMP數(shù)據(jù)可視化圖形界面等全部?jī)?nèi)容。其安裝模式與其他傳統(tǒng)SAS模塊一樣,既可以單機(jī)安裝,又可以客戶端、服務(wù)器的模式安裝。盡管SAS對(duì)這個(gè)打包產(chǎn)品的價(jià)格三緘其口,但一些迅速購(gòu)買(mǎi)該產(chǎn)品包的客戶透露“和以往相比,其價(jià)格令人驚喜”。對(duì)于價(jià)格敏感型客戶來(lái)說(shuō),廠商這種為推廣新策略而進(jìn)行的促銷(xiāo)的確是降低采購(gòu)成本的好機(jī)會(huì)。
同時(shí),SAS公司網(wǎng)站也宣稱“JMP/SAS Clinical是JMP(藥物評(píng)審員的不二之選)和SAS(制藥業(yè)生物統(tǒng)計(jì)學(xué)家的標(biāo)準(zhǔn)分析與報(bào)告工具)的完美結(jié)合”。至此,SAS的策略可見(jiàn)一斑。
功能上,JMP/SAS Clinical能通過(guò)JMP菜單進(jìn)行“point,click and discover”式數(shù)據(jù)分析,所有鼠標(biāo)操作會(huì)在后臺(tái)自動(dòng)記錄為JMP程序,以便反復(fù)調(diào)用;也可以直接沿用過(guò)往已經(jīng)寫(xiě)好的SAS程序;對(duì)于SAS程序員來(lái)說(shuō),還可以繼續(xù)編程。以前SAS給人的大致印象基本上是程序員和統(tǒng)計(jì)學(xué)家的工具,而其他業(yè)務(wù)人員(比如藥物評(píng)審員、臨床醫(yī)生、流行病學(xué)家、生物測(cè)定小組成員,數(shù)據(jù)監(jiān)察員和任何想理解臨床研究結(jié)果的人)使用傳統(tǒng)SAS軟件的準(zhǔn)入門(mén)檻教高,學(xué)習(xí)曲線相對(duì)陡峭而難于盡快熟練掌握。JMP/SAS CLINICAL的使命似乎不僅僅在于取悅傳統(tǒng)用戶,讓分析和編程工作更簡(jiǎn)單和高效,其精美的圖形也很有利于對(duì)統(tǒng)計(jì)結(jié)果的解釋和溝通,還在于讓大量非統(tǒng)計(jì)專業(yè)人員得以輕松使用SAS強(qiáng)大的統(tǒng)計(jì)分析性能而又不必經(jīng)受漫長(zhǎng)而痛苦的學(xué)習(xí)和培訓(xùn)過(guò)程。
下一代數(shù)據(jù)分析?
那么,所謂的“下一代數(shù)據(jù)分析平臺(tái)”,其實(shí)就是以生物統(tǒng)計(jì)所常用的SAS模塊為基礎(chǔ),對(duì)軟件進(jìn)行了改造和封裝,輔之以行業(yè)標(biāo)準(zhǔn)和優(yōu)化的分析能力,降低使用門(mén)檻,提升專業(yè)性,在深度和廣度兩個(gè)維度同時(shí)發(fā)力。筆者個(gè)人理解,“下一代”的提法應(yīng)該和SAS基本模塊多年來(lái)在用戶友好、可視化、交互性分析等方面的進(jìn)展較慢有關(guān),而JMP在易用性,交互性、探索性數(shù)據(jù)分析(EDA)等方面與傳統(tǒng)SAS模塊(如SAS GRAPH)相比可謂后來(lái)居上,正好在這些方面提供了很好的補(bǔ)充。而這些方面多年來(lái)也一直是很多傳統(tǒng)統(tǒng)計(jì)軟件倍受用戶抱怨的地方:難學(xué),難用,展示效果也亟待提升。
比如,在臨床試驗(yàn)的藥審工作中,美國(guó)FDA要求對(duì)于受試對(duì)象的年齡、性別、種族等信息進(jìn)行分析,并以如下圖表的形式展示:
而在JMP/SAS CLINICAL中,既可以用上述圖形/圖表展示,交互式的數(shù)據(jù)分析又可以通過(guò)點(diǎn)擊圖形中SEX變量下的M或者F,被點(diǎn)擊選中的這些數(shù)據(jù)的在其他變量維度(Age, Race等)中會(huì)自動(dòng)變色,對(duì)應(yīng)的數(shù)據(jù)行在后臺(tái)也被同步選中,病人情況的展示也會(huì)很清晰和完全;若要進(jìn)行下一步的子集化、分組以便進(jìn)行進(jìn)一步探索也很方便。
在“韋氏圖”和“火山圖”里,無(wú)論是考察個(gè)體之間的關(guān)系還是探索不良反應(yīng)的程度,JMP/SAS CLINICAL提供的圖形都比傳統(tǒng)圖形手段更為清晰直觀,交互性也更強(qiáng),為在這些重要分析步驟有效地中“探索”和“發(fā)現(xiàn)”臨床數(shù)據(jù)中的重要信息提供了可能。
據(jù)筆者了解,JMP作為SAS旗下主打數(shù)據(jù)分析可視化和交互性的軟件部門(mén),一直在走一條與傳統(tǒng)SAS模塊化策略不同的道路:敏捷計(jì)算+可視化+交互式。JMP繼承了SAS在分析和建模領(lǐng)域的巨大優(yōu)勢(shì),沿襲了SAS的數(shù)據(jù)挖掘和傳統(tǒng)統(tǒng)計(jì)功能,在DOE(試驗(yàn)設(shè)計(jì))等高級(jí)分析領(lǐng)域一直獨(dú)占鰲頭,近10年來(lái)在圖形和交互式分析方面也有明顯的進(jìn)步。其運(yùn)行性能(速度、穩(wěn)定性等)堪稱優(yōu)秀,所處理的數(shù)據(jù)量也從原先的42億行65535列升級(jí)到軟件本身對(duì)數(shù)據(jù)無(wú)限制DD也就是取決于內(nèi)存大小。
那么,這一新動(dòng)向能否給SAS帶來(lái)預(yù)期的效果?其背后是否有更高層面的策略?
也許先看看其他行業(yè)會(huì)幫助我們理解這一動(dòng)向。在對(duì)分析能力和數(shù)據(jù)吞吐量更高的銀行業(yè),SAS的數(shù)據(jù)挖掘平臺(tái)長(zhǎng)期以來(lái)一直是行業(yè)標(biāo)準(zhǔn)。2011年5月初,SAS總部宣布一項(xiàng)新的產(chǎn)品戰(zhàn)略,在SAS ENTERPRISE MINDER(企業(yè)級(jí)數(shù)據(jù)挖掘平臺(tái))上加入JMP產(chǎn)品。并且,和這個(gè)產(chǎn)品策略相對(duì)應(yīng),推出了“探索性數(shù)據(jù)挖掘”的概念。 這個(gè)舉動(dòng)不由令人產(chǎn)生簡(jiǎn)單的聯(lián)想:JMP/SAS Clinical 和SAS ENTERPRISE MINER兩個(gè)SAS引以為傲的拳頭產(chǎn)品和核心競(jìng)爭(zhēng)力,都已經(jīng)和JMP融合,除了這兩款拳頭產(chǎn)品,SAS旗下的一系列主打產(chǎn)品包括SAS VBI, SAS VDD,SAS MLA等,都是在傳統(tǒng)SAS模塊的基礎(chǔ)上融合JMP而形成的新一代產(chǎn)品。這種把傳統(tǒng)數(shù)據(jù)分析融入可視化交互式數(shù)據(jù)探索的舉動(dòng),是不是SAS新的產(chǎn)品策略?
反觀全球統(tǒng)計(jì)分析業(yè)界,商業(yè)智能新秀TIBCO并購(gòu)了SPLUS和SPOTFIRE,IBM并購(gòu)了SPSS和COGNOS,ORACLE并購(gòu)了HyperionDD這些并購(gòu)是否昭示著傳統(tǒng)統(tǒng)計(jì)分析與圖形、可視化能力的結(jié)合這一趨勢(shì)已經(jīng)在全球范圍內(nèi)實(shí)實(shí)在在地發(fā)生了呢? 站在這樣的角度,跳出“生物統(tǒng)計(jì)”的小圈子,不難發(fā)現(xiàn),數(shù)據(jù)分析正走向一個(gè)全新的方向:分析可以是文本的,圖形的,而不再只是數(shù)據(jù)表的。
就此,筆者相信,“下一代數(shù)據(jù)分析”這種提法,無(wú)論是否真正成為幾大巨頭的產(chǎn)品策略并不重要。事實(shí)是,在數(shù)據(jù)分析領(lǐng)導(dǎo)者JMP/SAS和傳統(tǒng)IT巨頭IBM, ORACLE等的推動(dòng)下,大幕已經(jīng)就此拉開(kāi)。這一潮流的第一登陸點(diǎn),似乎并非金融和電信,而是我國(guó)十二五規(guī)劃中重點(diǎn)發(fā)展的生物醫(yī)藥行業(yè)。
中國(guó)生物醫(yī)藥數(shù)據(jù)分析的機(jī)會(huì)與挑戰(zhàn)
和其他科技領(lǐng)域一樣,我國(guó)的技術(shù)界習(xí)慣了“引進(jìn)一流技術(shù)與設(shè)備”,或者“業(yè)界老大用什么,我們就用什么”。這種依賴國(guó)外同行的選擇來(lái)降低決策風(fēng)險(xiǎn)的做法,一段時(shí)期曾經(jīng)起到過(guò)相當(dāng)積極的作用。只是在創(chuàng)新領(lǐng)域,永遠(yuǎn)模仿競(jìng)爭(zhēng)對(duì)手的做法,只能產(chǎn)生跟隨者,而不是創(chuàng)新。
我國(guó)藥品新的注冊(cè)管理辦法的核心就是要保證藥品質(zhì)量,鼓勵(lì)新藥創(chuàng)新和遏制低水平的重復(fù)。生物制藥的創(chuàng)新和自主研發(fā),需要藥企和研發(fā)機(jī)構(gòu)在以臨床醫(yī)學(xué)(包括治療、診斷、倫理等)為基礎(chǔ),并豐富以藥學(xué)、藥理學(xué)、毒理學(xué)、藥代動(dòng)力學(xué)、生物統(tǒng)計(jì)、現(xiàn)代生物技術(shù)、信息學(xué)等的各學(xué)科方面都有足夠的積累和深入研究。在數(shù)據(jù)分析方面,先進(jìn)的生物統(tǒng)計(jì)方法加上計(jì)算機(jī)軟硬件技術(shù)的飛速發(fā)展,可以實(shí)現(xiàn)由工具層面的升級(jí)到生產(chǎn)/研究方法的革新。
反觀國(guó)內(nèi)大學(xué)的生物統(tǒng)計(jì)和其他類型的應(yīng)用統(tǒng)計(jì)教學(xué),基本上都是數(shù)學(xué)學(xué)科的延伸。闡述數(shù)理統(tǒng)計(jì)原理的要求,遠(yuǎn)遠(yuǎn)高于了應(yīng)用數(shù)據(jù)分析方法的要求。這一特征使得我國(guó)培養(yǎng)的數(shù)據(jù)分析人員,在數(shù)據(jù)分析的應(yīng)用和拓展方面,創(chuàng)新能力不夠,思路課本化、程式化。在商業(yè)領(lǐng)域,無(wú)論是臨床數(shù)據(jù)分析還是銀行數(shù)據(jù)分析,都更傾向于:
1.采用SAS編程的手段進(jìn)行分析,過(guò)于強(qiáng)調(diào)編程的必要性和重要性
2.分析過(guò)程仍然以“帶著問(wèn)題找結(jié)果”的邏輯展開(kāi)
3.在分析結(jié)果的溝通和展示上,以部分傳統(tǒng)統(tǒng)計(jì)分析圖形和數(shù)據(jù)表為主
4.部分?jǐn)?shù)據(jù)分析和對(duì)結(jié)果的解釋存在普遍誤用乃至于錯(cuò)誤
創(chuàng)新的一大特征就是繞開(kāi)模式思維的盲點(diǎn)。擺脫傳統(tǒng)思路和模式,用全新的方法、手段、工具去開(kāi)展工作,其本身就是創(chuàng)新的一部分。藥物研發(fā)水平的升級(jí)和創(chuàng)新密不可分。在數(shù)據(jù)分析層面,在部分保留傳統(tǒng)編程手段的同時(shí),恰當(dāng)引入可視化、交互式而又更加強(qiáng)大的數(shù)據(jù)分析能力和方法,能否為我國(guó)生物制藥領(lǐng)域的研究和發(fā)展提供一些創(chuàng)新的源動(dòng)力?我們拭目以待。
評(píng)論