扎克伯格的尷尬與AI的真實(shí)進(jìn)展
扎克伯格如果要優(yōu)化效果,那么基本方法有下面幾類:
本文引用地址:http://www.ex-cimer.com/article/201612/342079.htm一種可能是扎克伯格覺得真實(shí)場景下的信號(hào)優(yōu)化(聲學(xué)、硬件等)也沒什么,找?guī)讉€(gè)人做做就完了,如果這么想Facebook可能會(huì)自己組建個(gè)硬件、聲學(xué)團(tuán)隊(duì)來做Echo Dot那樣的終端。但這么做很可能短期就不會(huì)有下次演示了。因?yàn)樽屨Z音識(shí)別匹配前端聲學(xué)信號(hào)是容易的,但反過來讓牽涉硬件和物理的聲學(xué)來適應(yīng)語音識(shí)別則基本會(huì)做掛。而在互聯(lián)網(wǎng)公司里通常后端偏算法的勢力會(huì)大,所以很容易走到前面那條路上去(這事情國內(nèi)至少做掛了兩撥人了)。國內(nèi)的大公司很容易走上這條路,但從分工習(xí)慣來看,國外公司更愿意在技術(shù)棧上卡住特定位置,非自己核心的部分會(huì)更愿意開放給其它人,所以扎克伯格這么干的可能性不高,除非他覺得自己也得搞Amazon Echo那種產(chǎn)品了。
一種可能是扎克伯格和深度學(xué)習(xí)科學(xué)家思路一致,認(rèn)為所有東西都可以通過深度學(xué)習(xí)在云端算法層面來解決。這種思路下,就會(huì)通過深度學(xué)習(xí)來做降噪等信號(hào)層面的工作,用算法挑戰(zhàn)各種物理層面的問題。如果走上這條路,那估計(jì)短期也不會(huì)有下次演示了,因?yàn)樗龅降膯栴}并非單純的降噪問題,回聲抵消、Beamforming、降噪、聲源定向這些東西是關(guān)聯(lián)在一起的,指望深度學(xué)習(xí)短期突破這些問題更像科研上的一種設(shè)想而非工程上的一種實(shí)踐。“設(shè)想”是說可以成為一種探索的思路,但結(jié)果完全沒譜,高度不確定,相當(dāng)于把不確定性引入產(chǎn)品開發(fā)之中。
一種可能是扎克伯格走下一步的時(shí)候想的很清楚,知道自己這類公司的能力邊界,因此把這部分開放出去,讓專業(yè)的人做專業(yè)的事。物理的事情歸物理,算法的事情歸算法,這樣的話就會(huì)滿世界找聲學(xué)和遠(yuǎn)場語音識(shí)別供貨商,但這反倒是最快的一種方式。
不知道扎克伯格具體會(huì)走那條路,如果是最后一種,聲智科技這樣的公司應(yīng)該會(huì)很快收到消息。
打破原子與比特的邊界
扎克伯格這件事情事實(shí)上也提供了一個(gè)跳出來看AI的機(jī)會(huì)。
下圖是Jarvish的系統(tǒng)架構(gòu)圖:
一般來講,從產(chǎn)品體驗(yàn)上可以看出技術(shù)水平,從架構(gòu)圖則可以看出來認(rèn)知上的差異。
根據(jù)上圖,顯然的在扎克伯格這里Jarvish被理解成了一個(gè)命令控制型的系統(tǒng),但感知這環(huán)節(jié)被忽略了,盡管扎克伯格自己在文章里也提到感知上下文是非常關(guān)鍵的一個(gè)環(huán)節(jié)(Understanding context is important for any AI)。
這種理解在互聯(lián)網(wǎng)企業(yè)那里很可能非常有代表性,但問題就在于感知恰恰是打造一個(gè)初級(jí)的Jarvis這樣的系統(tǒng)時(shí)最難的環(huán)節(jié),因?yàn)楦兄偸且虼┰雍捅忍氐倪吔?。Language Processing、Speech Recognition、Face Recognition總是立刻可用的,只受限于算法的發(fā)展程度和數(shù)據(jù),但感知部分不是這樣,不單要算法行,器件、生產(chǎn)都要行才能有好的結(jié)果。比如說麥克風(fēng)陣列,你算法再好但MEMS麥克風(fēng)不給力,那你一樣抓瞎。如果要說的短板的話,在深度學(xué)習(xí)突破后,感知這一環(huán)節(jié)才是真的短板。
這就涉及到這次AI突破的一個(gè)深層次問題:這次的AI起于深度學(xué)習(xí)的突破,但真要想創(chuàng)造價(jià)值并不能停步在深度學(xué)習(xí)本身。關(guān)鍵原因就在于其AI創(chuàng)造價(jià)值的鏈條比較長,必須打破軟硬的邊界,補(bǔ)全整個(gè)鏈條,價(jià)值才會(huì)體現(xiàn)出來。幾乎我們所有能想到的大機(jī)會(huì)都是這樣,語音交互(需要打穿聲學(xué)和識(shí)別邊界)、自動(dòng)駕駛(打穿計(jì)算機(jī)視覺、雷達(dá)、機(jī)械控制的邊界)等。這部分難度通常是被忽略了,似乎是有幾個(gè)深度學(xué)習(xí)專家問題就可以搞定一切問題。后者不是不行,但要限定在特定類別的事情上,比如圖普科技做的鑒黃等。正是同時(shí)做好軟硬這兩部分在拉長投資-回報(bào)的周期,投資和創(chuàng)業(yè)如果對此沒有自己的判斷,那準(zhǔn)備的耐心可能就不夠。
小結(jié)
近來和AI各方面的人(創(chuàng)業(yè)者、投資人、科學(xué)家、媒體)接觸下來,發(fā)現(xiàn)大家基本都在思考這樣兩個(gè)問題:
第一,本次AI浪潮會(huì)不會(huì)和前兩次一樣很快冷下來?
第二,落地點(diǎn)到底在那里,究竟還要多久?
對于第一個(gè)問題到現(xiàn)在為止還沒碰到任何一個(gè)人認(rèn)為這次AI浪潮會(huì)冷到前兩次那樣。對于第二個(gè)問題,大的落地點(diǎn)上大家基本也已經(jīng)達(dá)成了共識(shí)(語音交互、AR、自動(dòng)駕駛等),爭議最大的就是啟動(dòng)期究竟還要持續(xù)多久這一點(diǎn)。從兩個(gè)維度來判斷,這個(gè)時(shí)間更可能是在3年左右:
一是產(chǎn)品經(jīng)過兩個(gè)周期的優(yōu)化會(huì)更加成熟;
一個(gè)是計(jì)算能力、基礎(chǔ)設(shè)施到那個(gè)時(shí)候也會(huì)變的足夠強(qiáng)大和便利(過去3年Training速度提高了60倍,比摩爾定律還快,而Intel則正在推出集成度更高的服務(wù)器)。
評論