探秘機(jī)器人是如何進(jìn)行深度學(xué)習(xí)的
一個(gè)人獨(dú)處時(shí),感覺有點(diǎn)孤單,怎么辦?微軟亞洲研究院推出的“微軟小冰”,或許可以像閨蜜一樣地跟你聊天解悶。3.0版本的“小冰”除了具有“評(píng)顏值”“選搭配”等功能外,還基于深度學(xué)習(xí)技術(shù)具備強(qiáng)大的視覺識(shí)別能力。它在看到一張圖片后,可以基于情感給出人性化回復(fù),且秒回速度縮短到250毫秒。
本文引用地址:http://www.ex-cimer.com/article/201710/367822.htm
不僅僅是“微軟小冰”和圍棋高手“阿爾法狗”,從互聯(lián)網(wǎng)搜索到語言翻譯,乃至識(shí)別患有自閉癥風(fēng)險(xiǎn)的基因……凡是需要從大量數(shù)據(jù)中預(yù)測(cè)未知信息的領(lǐng)域,都是深度學(xué)習(xí)可以一展拳腳的地方。那么,什么是深度學(xué)習(xí)技術(shù)?它將怎樣改變?nèi)祟惖纳睿?/p>
萬張圖片中發(fā)現(xiàn)重復(fù)的貓
2011年,谷歌一家實(shí)驗(yàn)室的研究人員從視頻網(wǎng)站中,抽取了1000萬張靜態(tài)圖片,把它“喂”給谷歌大腦,目標(biāo)是從中尋找重復(fù)出現(xiàn)的圖案。3天后,谷歌大腦在沒有人類幫助的情況下,從這些圖片中發(fā)現(xiàn)了“貓”。
這個(gè)谷歌大腦就是一個(gè)采用深度學(xué)習(xí)技術(shù)的大型神經(jīng)網(wǎng)絡(luò)模型,由1000臺(tái)電腦組成。這件事當(dāng)時(shí)在科技界引起了轟動(dòng),被認(rèn)為深度學(xué)習(xí)復(fù)興的里程碑。
所謂深度學(xué)習(xí),就是用多層神經(jīng)元構(gòu)成的神經(jīng)網(wǎng)絡(luò),以達(dá)到機(jī)器學(xué)習(xí)的功能。這些多層的電腦網(wǎng)絡(luò)像人類大腦一樣,可以收集信息,并基于收集到的信息產(chǎn)生相應(yīng)的行為。
傳統(tǒng)的機(jī)器學(xué)習(xí)方法一般只能挖掘簡(jiǎn)單的線性關(guān)系,如1+1等于2。然而,大千世界并不是這種簡(jiǎn)單關(guān)系所能描述的,如收入與年齡、性別、職業(yè)、學(xué)歷的關(guān)系。深度學(xué)習(xí)的出現(xiàn)改變了這種現(xiàn)狀,它的靈感來源于模仿人類大腦神經(jīng)網(wǎng)絡(luò)。
科學(xué)家發(fā)現(xiàn),人類大腦皮質(zhì)不是直接對(duì)視網(wǎng)膜傳遞過來的數(shù)據(jù)進(jìn)行特征提取處理,而是讓接收到的刺激信號(hào)通過一個(gè)復(fù)雜的網(wǎng)絡(luò)模型進(jìn)行篩選。這種層級(jí)結(jié)構(gòu)大大降低了視覺系統(tǒng)處理的數(shù)據(jù)量,并最終保留了有用的信息。
上世紀(jì)60年代,生物學(xué)家在研究貓的腦皮層時(shí),發(fā)現(xiàn)其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)能有效降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,繼而提出“卷積神經(jīng)網(wǎng)絡(luò)”。利用這種網(wǎng)絡(luò)結(jié)構(gòu)編寫的深度學(xué)習(xí)程序,適應(yīng)性很強(qiáng),成為人工智能的突破口。
語音識(shí)別改變?nèi)藱C(jī)交互
簡(jiǎn)單地講,深度學(xué)習(xí)技術(shù)是對(duì)人腦的一種模擬,因而可以完成很多人腦所具有的功能。
最為人所熟知的是視覺功能。我們的相機(jī)可以像眼睛一樣看到這個(gè)世界,卻不能像大腦一樣看懂這個(gè)世界,深度學(xué)習(xí)恰恰補(bǔ)上了這個(gè)短板。有了深度學(xué)習(xí),百度識(shí)圖可以準(zhǔn)確識(shí)別照片中的物體類別,并對(duì)照片進(jìn)行自動(dòng)歸類或搜索。有了深度學(xué)習(xí),我們可以很方便地刷臉付款。有了深度學(xué)習(xí),特制機(jī)器可以檢測(cè)一定空間內(nèi)所有人員、車輛的行蹤,并對(duì)可疑和危險(xiǎn)事件及時(shí)報(bào)警。
同時(shí),深度學(xué)習(xí)技術(shù)在語音識(shí)別方面,也有廣泛的應(yīng)用。在深度學(xué)習(xí)的幫助下,計(jì)算機(jī)擁有越來越強(qiáng)大的語音識(shí)別能力,這可能改變目前仍以鍵盤為主的人機(jī)交互模式。
深度學(xué)習(xí)還和增強(qiáng)學(xué)習(xí)相結(jié)合,正深刻改變著機(jī)器人領(lǐng)域。所謂增強(qiáng)學(xué)習(xí),指的是機(jī)器人通過與環(huán)境交互中得到的獎(jiǎng)賞和懲罰,自主學(xué)習(xí)更優(yōu)的策略。前段時(shí)間引人關(guān)注的“阿爾法狗”就是增強(qiáng)學(xué)習(xí)的產(chǎn)物,它通過跟棋手下棋或跟自己對(duì)弈的輸贏情況,摸索出更好的下棋策略。
什么讓深度學(xué)習(xí)實(shí)現(xiàn)超越
不過,創(chuàng)造一個(gè)強(qiáng)大的神經(jīng)網(wǎng)絡(luò)需更多處理層。而由于硬件限制,早期僅能制造2至3個(gè)神經(jīng)層。那么,是什么讓深度學(xué)習(xí)實(shí)現(xiàn)超越呢?
顯然,高性能計(jì)算能力的提升是一大助力。這些年GPU(圖形處理器)、超級(jí)計(jì)算機(jī)和云計(jì)算的迅猛發(fā)展,讓深度學(xué)習(xí)脫穎而出。2011年谷歌大腦用了1000臺(tái)機(jī)器、16000個(gè)CPU處理的深度學(xué)習(xí)模型大概有10億個(gè)神經(jīng)元。而現(xiàn)在,我們已經(jīng)可以在幾個(gè)GPU上完成同樣的計(jì)算了。
“深度學(xué)習(xí)還得到大數(shù)據(jù)的助力,就像火箭有了燃料。”格靈深瞳計(jì)算機(jī)視覺工程師、清華大學(xué)自動(dòng)化系博士潘爭(zhēng)介紹,深度學(xué)習(xí)技術(shù)建立在大量實(shí)例基礎(chǔ)上,就像小孩收集現(xiàn)實(shí)世界的信息一樣。而且,“喂”的數(shù)據(jù)越多,它就越聰明,并且不會(huì)“消化不良”。因?yàn)榇髷?shù)據(jù)的不可或缺,所以目前深度學(xué)習(xí)做得最好的基本是擁有大量數(shù)據(jù)的IT巨頭,如谷歌、微軟、百度等。
現(xiàn)在,深度學(xué)習(xí)技術(shù)在語音識(shí)別、計(jì)算機(jī)視覺、語言翻譯等領(lǐng)域,均戰(zhàn)勝傳統(tǒng)的機(jī)器學(xué)習(xí)方法,甚至在人臉驗(yàn)證、圖像分類上還超過人類的識(shí)別能力。專家預(yù)計(jì),再過些年,我們口袋里的手機(jī)也可以運(yùn)行像人腦一樣復(fù)雜的神經(jīng)網(wǎng)絡(luò)。
不過,就目前的趨勢(shì)來看,深度學(xué)習(xí)技術(shù)仍然無法代替“坐在后臺(tái)監(jiān)控室的人”。舉個(gè)例子,如果你和朋友在一家飯店里用餐后搶著結(jié)賬,這種推搡過程,智能攝像頭尚難以判斷是在打架還是怎么了??梢姡壿嬇袛嗪颓楦羞x擇,是深度學(xué)習(xí)尚難以逾越的障礙。
案例 一眼就能識(shí)別壞人的系統(tǒng)
專注于計(jì)算機(jī)視覺及人工智能的科技公司格靈深瞳,將基于深度學(xué)習(xí)技術(shù)研發(fā)的智能識(shí)別系統(tǒng),運(yùn)用到銀行安防監(jiān)控領(lǐng)域。
考慮到傳統(tǒng)光學(xué)鏡頭在識(shí)別圖像時(shí)會(huì)丟失“深度”維度,格靈深瞳專門為銀行安監(jiān)開發(fā)了一套三維傳感器。在它的背后,一套獎(jiǎng)懲機(jī)制訓(xùn)練成的算法模型能夠主動(dòng)識(shí)別異常。“看見有人走近了一個(gè)有人的自動(dòng)柜員機(jī),而不是旁邊那個(gè)空著的,此時(shí)要識(shí)別他的軌跡、判斷其行為是否正常,就牽涉到深度學(xué)習(xí)。”格靈深瞳CEO何搏飛介紹,如果系統(tǒng)識(shí)別出異常,它就會(huì)推送給后臺(tái)監(jiān)督者。而為了教會(huì)機(jī)器判斷準(zhǔn)確,背后需要提供幾十萬量級(jí)的圖片數(shù)據(jù)。
何搏飛指出,給這個(gè)智能識(shí)別系統(tǒng)一張側(cè)臉或者是沒有臉的全身照,它也能以超過99%的精度迅速鎖定目標(biāo)。前提是建一個(gè)6000到1.5萬的樣本庫(kù),“一旦樣本達(dá)到百萬級(jí),可能精度要下降20%或更多。”
評(píng)論