亞信數(shù)據(jù)何鴻凌:我們?yōu)槭裁匆龃髷?shù)據(jù)PaaS
作者:何鴻凌/亞信數(shù)據(jù)LDP云平臺(tái)部總經(jīng)理
本文引用地址:http://www.ex-cimer.com/article/201605/290936.htm1 分工是推動(dòng)人類社會(huì)進(jìn)步的原動(dòng)力
隨著人類進(jìn)步的速度不斷加快,分工不斷細(xì)化;細(xì)化以后的分工導(dǎo)致了更加專業(yè)的技術(shù)出現(xiàn),更加專業(yè)的技術(shù)反過(guò)來(lái)又促進(jìn)了分工的進(jìn)一步細(xì)化,由此人類社會(huì)的發(fā)展變成了非線性的指數(shù)級(jí)增長(zhǎng)模式。
當(dāng)每個(gè)家庭不再自己磨麥子、做面包,而是從面包師手中購(gòu)買以后,分工更細(xì)了,所有人的工作效率得以提升,從而整個(gè)社會(huì)的效率得以提升,人類也從農(nóng)業(yè)社會(huì)逐步過(guò)渡到工業(yè)社會(huì),從工業(yè)社會(huì)到信息社會(huì)更是如此。
我們要做大數(shù)據(jù)PaaS的原因也是如此。我們認(rèn)為,不久的將來(lái),一切皆服務(wù),一切IT也皆服務(wù)。
2 IT世界的分工
最開(kāi)始做IT是在二戰(zhàn)之后的50年代,那個(gè)時(shí)代基本沒(méi)有什么分工,連軟件都是編碼在硬件之中。到了60年代,基本上操作系統(tǒng)的概念已經(jīng)非常明確了,軟件正式被從硬件中分離了出來(lái),之后一類一類的專業(yè)軟件被分化出來(lái):工具軟件、數(shù)據(jù)庫(kù)、中間件。
軟件專業(yè)化之后出現(xiàn)了部署方式的分工,標(biāo)志性事件就是云計(jì)算概念的提出。其實(shí)這個(gè)概念非常早就出現(xiàn)了,但直到網(wǎng)絡(luò)帶寬可以比擬計(jì)算機(jī)內(nèi)部帶寬的時(shí)代才有了實(shí)用價(jià)值。
最初是IaaS,aws的一系列服務(wù)極大改變了IT的業(yè)態(tài),創(chuàng)業(yè)公司不再租用主機(jī)設(shè)備、機(jī)房和網(wǎng)絡(luò),而是按需購(gòu)買。IaaS的分工有效解決了系統(tǒng)搭建和運(yùn)維的問(wèn)題,降低了創(chuàng)業(yè)公司的門檻,但這一仍還不夠。
接著aws推出了一些稱之為iPaaS的服務(wù),比如 RDS和Elastic Cache。在解放了(或者說(shuō)解雇了)系統(tǒng)管理員的基礎(chǔ)上,aws進(jìn)一步解放了(或者說(shuō)解雇了)平臺(tái)管理員,人們不再需要DBA之類的角色,因?yàn)閍ws把所有事情都統(tǒng)一做了,而且因?yàn)槠湟?guī)模效應(yīng)而收費(fèi)便宜。
這一切仍然不夠,人們(通常先是創(chuàng)業(yè)公司,然后是大型企業(yè))希望能更簡(jiǎn)單、更快速,怎么辦呢?Google給出了另一個(gè)選擇--GAE服務(wù),大體的意思是用戶提供代碼,GAE進(jìn)行運(yùn)行(Show me the code)。而Heroku推出的服務(wù)更是可以跟開(kāi)發(fā)人員日常使用的版本管理工具git緊密結(jié)合起來(lái),就像保存代碼到版本服務(wù)器上一樣,發(fā)布應(yīng)用就完成了。這簡(jiǎn)直是一個(gè)神奇的魔法。于是Devops、十二因子開(kāi)發(fā)方法等逐漸形成。這種形態(tài)的服務(wù)可以稱之為aPaaS,因?yàn)槠浞?wù)于application。
當(dāng)然在往上還有一個(gè)最終的形態(tài)就是SaaS,所有的碼農(nóng)都被解放了(或者解雇了),軟件通過(guò)服務(wù)的形式直接提供給最終用戶。不過(guò)軟件往往有很多個(gè)性化的東西,具備長(zhǎng)尾現(xiàn)象,這是SaaS模式難以全部覆蓋的。
3 大數(shù)據(jù)的世界是如何的?
很有幸,2001年本人畢業(yè)就進(jìn)入了BI/DW(數(shù)據(jù)倉(cāng)庫(kù)與商業(yè)智能)這個(gè)領(lǐng)域,與數(shù)據(jù)打交道的時(shí)間超過(guò)了15年。從一個(gè)人寫(xiě)統(tǒng)計(jì)分析程序,到帶領(lǐng)團(tuán)隊(duì)建設(shè)系統(tǒng),再到運(yùn)營(yíng)商總部負(fù)責(zé)全網(wǎng)BI和集中化BI的規(guī)劃,可以說(shuō)從不同的角度體驗(yàn)了數(shù)據(jù)分析和平臺(tái)的方方面面。
毫無(wú)疑問(wèn),在不久之前,這個(gè)領(lǐng)域的技術(shù)含量實(shí)在是少得可憐。有限的數(shù)據(jù)和有限的分析方法加上有限的需求使得建BI就是為了出報(bào)表,各個(gè)公司的BI系統(tǒng)都需要努力證明自己是有價(jià)值的。但是世界改變得很快,隨著技術(shù)的進(jìn)步,大量的數(shù)據(jù)被累積下來(lái),Hadoop等大規(guī)模并行處理的平臺(tái)被發(fā)明出來(lái),各種使用數(shù)據(jù)的場(chǎng)景被一一探明?!按髷?shù)據(jù)”這個(gè)替代BI 的概念被正式提出。
很快,大數(shù)據(jù)領(lǐng)域的技術(shù)復(fù)雜度飛快地上去了,一開(kāi)始大家都在搭建各種各樣的傳統(tǒng)數(shù)據(jù)庫(kù)、然后是各種各樣的MPP數(shù)據(jù)庫(kù)、接著是Hadoop中的各個(gè)組件、現(xiàn)在又都在搭建加入了實(shí)時(shí)流處理技術(shù)的lambda架構(gòu)。
因此,大數(shù)據(jù)的軟件專業(yè)化相比傳統(tǒng)IT的軟件專業(yè)化來(lái)得更早,時(shí)間更短。但是大數(shù)據(jù)平臺(tái)部署的專業(yè)化,只能說(shuō)處于非常早期的萌芽狀態(tài)。各地方、各公司,甚至是公司中的各個(gè)部門都在重復(fù)的搭建大數(shù)據(jù)基礎(chǔ)平臺(tái)。
參考網(wǎng)上的資料和文檔自己搭建一個(gè)大數(shù)據(jù)平臺(tái)來(lái)進(jìn)行測(cè)試和開(kāi)發(fā)固然難度不大,但是要真正投入生產(chǎn)、進(jìn)行性能調(diào)優(yōu)、保證數(shù)據(jù)安全就不是那么簡(jiǎn)單的事情了,需要豐富的經(jīng)驗(yàn)才有可能做好。如果大數(shù)據(jù)的平臺(tái)無(wú)法形成規(guī)模效益,而又想要享受所有大數(shù)據(jù)紅利的話,相當(dāng)于每一個(gè)公司都在做與BAT一樣的事情,一定會(huì)忙于搭建各種硬件、大數(shù)據(jù)軟件平臺(tái),而沒(méi)有時(shí)間精于自己的業(yè)務(wù)邏輯和分析算法,這樣想要取得成功基本是不可能的。
4 大數(shù)據(jù)尚未與云計(jì)算有機(jī)結(jié)合
早前在運(yùn)營(yíng)商負(fù)責(zé)全網(wǎng)BI系統(tǒng)規(guī)劃時(shí),會(huì)頻繁遇到一個(gè)問(wèn)題,各個(gè)省公司、各個(gè)部門都希望自己搭建大數(shù)據(jù)平臺(tái),到處都缺少人才,甚至都在爭(zhēng)搶集成商的支持。隨著大數(shù)據(jù)技術(shù)的蓬勃發(fā)展,這個(gè)問(wèn)題變得非常嚴(yán)重,關(guān)鍵在于沒(méi)有規(guī)模效益。公司能培養(yǎng)一百名大數(shù)據(jù)專家已經(jīng)非常不容易了,但是如果分散在三十一個(gè)省,又分散在其中的3個(gè)IT部門(業(yè)務(wù)支撐、網(wǎng)管支撐和管理信息支撐系統(tǒng)),那么每個(gè)部門只能分到一個(gè)人。
所以當(dāng)時(shí)我們就開(kāi)始規(guī)劃“能否實(shí)現(xiàn)平臺(tái)和應(yīng)用分離?”“可否統(tǒng)一搭建一個(gè)大數(shù)據(jù)平臺(tái),然后各個(gè)省公司、專業(yè)公司在平臺(tái)上做分析模式、搭建自己的應(yīng)用?”這種集中化經(jīng)分的規(guī)劃,可能是業(yè)界第一次提出大數(shù)據(jù)能力開(kāi)放平臺(tái)(PaaS)的概念。希望數(shù)據(jù)能夠集中,能力能夠集中,而應(yīng)用可以分散。這樣的話既能充分發(fā)揮大數(shù)據(jù)的價(jià)值、又能達(dá)到大數(shù)據(jù)平臺(tái)的規(guī)模效益。當(dāng)前這個(gè)系統(tǒng)還在建設(shè)的過(guò)程中。
后來(lái)我來(lái)到了亞信數(shù)據(jù),因?yàn)槲艺J(rèn)為同樣的情況可能更廣泛的存在。如果能把大數(shù)據(jù)和云計(jì)算結(jié)合起來(lái),將大數(shù)據(jù)能力通過(guò)云計(jì)算的模式來(lái)提供,是否可以避免各個(gè)企業(yè)、各個(gè)部門重復(fù)去搭建大數(shù)據(jù)基礎(chǔ)設(shè)施?如果可以按需享受到比擬BAT的頂級(jí)大數(shù)據(jù)平臺(tái)的服務(wù),只用使用而不用維護(hù),他們會(huì)不會(huì)Happy?這就是大數(shù)據(jù)PaaS平臺(tái)正在做的事情。這些雜七雜八專業(yè)的事情,通過(guò)分工的形式由專業(yè)的公司來(lái)進(jìn)行保障,使用者只需使用即可。
5 數(shù)據(jù)本身,其實(shí)也是一種服務(wù)
大數(shù)據(jù)PaaS最重要的就是數(shù)據(jù)資源的管理,把它與大數(shù)據(jù)能力一樣看待,通通抽象成服務(wù),即一切皆服務(wù)。誰(shuí)能用這些數(shù)據(jù),誰(shuí)不能用這些數(shù)據(jù),反應(yīng)到PaaS中就是誰(shuí)能訂購(gòu)這些服務(wù),而誰(shuí)不能。這樣簡(jiǎn)單的抽象簡(jiǎn)化了系統(tǒng)的實(shí)現(xiàn)。
6 忙忙碌碌在干什么
如同開(kāi)篇所說(shuō)的一樣,我們認(rèn)為分工是推動(dòng)人類社會(huì)進(jìn)步的原動(dòng)力。而現(xiàn)在可以看到大數(shù)據(jù)平臺(tái)的領(lǐng)域中,分工并沒(méi)有達(dá)到最優(yōu),還能看到很多簡(jiǎn)單的重復(fù)勞動(dòng)。這些勞動(dòng)由于沒(méi)有達(dá)到規(guī)模效應(yīng)而效率很差,造成擁有成本很高。這種高的成本導(dǎo)致的現(xiàn)象,就使很多企業(yè)的大數(shù)據(jù)價(jià)值無(wú)法充分發(fā)揮出來(lái),無(wú)論是對(duì)內(nèi)大數(shù)據(jù)變現(xiàn)還是對(duì)外大數(shù)據(jù)變現(xiàn)。由于無(wú)法達(dá)成交易,整個(gè)社會(huì)的福利也因此受到了影響。
我們希望改變這一切,根據(jù)多年的經(jīng)驗(yàn),將大數(shù)據(jù)的PaaS平臺(tái)定位成框架、應(yīng)用和服務(wù)3個(gè)方面。
·重型的,帶有持久化的部分作為“服務(wù)”被集成到大數(shù)據(jù)PaaS平臺(tái)中,比如MPP數(shù)據(jù)庫(kù)、Hadoop之類的就屬于此,還包括更加流行的流處理、機(jī)器學(xué)習(xí)等能力。各項(xiàng)能力通過(guò)一個(gè)標(biāo)準(zhǔn)的能力管理接口接入框架之中,提供了對(duì)大數(shù)據(jù)能力的透明性。采用的標(biāo)準(zhǔn)是Cloud Foundry中的service broker協(xié)議,目前版本為2.8。
·輕型的,不帶持久化的部分作為“應(yīng)用”被集成到大數(shù)據(jù)PaaS平臺(tái)中,比如各種可視化、數(shù)據(jù)探索、推薦引擎、監(jiān)控告警等。采用的技術(shù)標(biāo)準(zhǔn)是Docker,并通過(guò)Kubernetes容器管理系統(tǒng)進(jìn)行封裝。也就是說(shuō)任何能跑在Docker中的應(yīng)用,無(wú)論是單機(jī)的,還是集群的,均可以放心的托管到系統(tǒng)上,可擴(kuò)展性和高可用性都由平臺(tái)去搞定。
·管理上述兩塊就是框架。它將“服務(wù)”和“應(yīng)用”有機(jī)地結(jié)合在一起。并負(fù)責(zé)認(rèn)證、權(quán)限、計(jì)費(fèi)、審計(jì)、日志、監(jiān)控等管理。
毫無(wú)疑問(wèn)我們采用的是一個(gè)開(kāi)放的體系,因?yàn)槲覀冋J(rèn)為大數(shù)據(jù)的世界如此的豐富多彩,任何一個(gè)廠家都無(wú)法提供所有的服務(wù),開(kāi)發(fā)所有的應(yīng)用,開(kāi)放合作可以實(shí)現(xiàn)共贏。
7 小結(jié)
知名調(diào)研公司Gartner預(yù)計(jì),今年公共云服務(wù)方面的全球開(kāi)支將增長(zhǎng)16%,達(dá)到超過(guò)2040億美元,同時(shí)預(yù)測(cè)全球IT開(kāi)支將比上一年略下降0.5%,達(dá)到3.49萬(wàn)億美元。請(qǐng)注意這種開(kāi)支的下降是在IT需求增加的背景下達(dá)成的,云計(jì)算提高社會(huì)效率可見(jiàn)一斑。
去年CSDN的調(diào)查中,發(fā)現(xiàn)全國(guó)IT人員的分布中,數(shù)據(jù)庫(kù)管理員DBA的職位比例明顯下降,這疑似被云中的各種RDS所替代。這又是云計(jì)算提高社會(huì)效率的一個(gè)例證。從個(gè)人或某個(gè)細(xì)分的職業(yè)來(lái)說(shuō),可能是悲劇,但對(duì)于社會(huì)整體來(lái)說(shuō),這是進(jìn)步要付出的代價(jià)。這也提醒從事大數(shù)據(jù)職業(yè)的人群,如果工作無(wú)法達(dá)到規(guī)模效益,效率無(wú)法持續(xù)提高,那么其崗位就有被其他模式所替代的風(fēng)險(xiǎn)。
大數(shù)據(jù)的能力是否也能像云一樣流淌到千家萬(wàn)戶?在不久的將來(lái),是否每個(gè)公司、甚至每個(gè)個(gè)人,都可以像在BAT這樣的大公司中一樣享受低成本的大數(shù)據(jù)紅利?
當(dāng)這種長(zhǎng)尾的效應(yīng)釋放出來(lái)的時(shí)候,世界應(yīng)該會(huì)變得更加有效率。
評(píng)論