谷歌和OpenAI研發(fā)新工具,深入了解AI如何識(shí)別圖片
人工智能的世界到底是什么樣子的?
本文引用地址:http://www.ex-cimer.com/article/201903/398352.htm幾十年來,研究人員一直對(duì)此感到困惑,但近年來,這個(gè)問題變得愈加緊迫。機(jī)器視覺系統(tǒng)正被越來越多地應(yīng)用于生活的各個(gè)領(lǐng)域,從醫(yī)療保健到自動(dòng)駕駛。
但通過機(jī)器的眼睛“看”世界,仍然是一個(gè)不小的挑戰(zhàn),比如我們?cè)撛趺蠢斫鉃槭裁此延行┤藲w為行人,而把有些人歸為路標(biāo)。如果我們無法做到這一點(diǎn),就有可能會(huì)造成嚴(yán)重的,甚至是致命的后果。比如前段時(shí)間已經(jīng)發(fā)生的,自動(dòng)駕駛汽車撞上行人致死的事件。
雖然,神經(jīng)網(wǎng)絡(luò)在識(shí)別圖像中的物體等任務(wù)上取得了巨大的成功,但它們是如何做到的在很大程度上仍是一個(gè)謎。它們的內(nèi)部工作方式被屏蔽,隱藏在層層計(jì)算中,不讓人看到,使得人類很難診斷錯(cuò)誤或偏差。
來自谷歌和非盈利實(shí)驗(yàn)室open Ai的新研究希望通過繪制系統(tǒng)來了解世界的視覺數(shù)據(jù),進(jìn)一步撬開人工智能視覺的黑匣子。
這種被稱為“激活圖集”的方法,可以讓研究人員分析出各個(gè)算法的工作原理,不僅能揭示它們識(shí)別的抽象形狀、顏色和模式,還揭示了它們?nèi)绾谓Y(jié)合這些元素來識(shí)別特定的對(duì)象、動(dòng)物和場(chǎng)景。
這項(xiàng)工作的主要研究者,谷歌的Shan Carter說,如果以前的研究就像在算法的視覺字母表中顯示單個(gè)字母,那么激活圖集提供了一個(gè)更接近整個(gè)詞典的東西,它顯示出字母是如何組合成實(shí)際單詞的??ㄌ卣f:“例如,在像‘鯊魚’這樣的圖像中,會(huì)由很多激活碼構(gòu)成,比如‘牙齒’和‘水’?!?/p>
雖然這不一定是一個(gè)巨大的突破,但它是在被稱為“功能可視化”的更廣泛的研究領(lǐng)域向前邁出的一步。佐治亞理工大學(xué)的博士生Ramprasaath Selvaraju表示,這項(xiàng)研究“非常吸引人”,并結(jié)合了許多現(xiàn)有的想法,創(chuàng)造了一個(gè)新的極其有用的工具。
Selvaraju說,這樣的工作將有很多用途,幫助我們建立更高效和先進(jìn)的算法,并通過讓研究人員深入研究來提高安全性和消除偏差?!坝捎谏窠?jīng)網(wǎng)絡(luò)固有的復(fù)雜性,它們有時(shí)缺乏可解釋性,”但他說,在未來,當(dāng)網(wǎng)絡(luò)被廣泛用于自動(dòng)駕駛汽車和引導(dǎo)機(jī)器人時(shí),這將是必不可少的一步。Open Ai的Chris Olah也參與了這個(gè)項(xiàng)目,他說:“這有點(diǎn)像制作顯微鏡。至少,這是我們所設(shè)想的?!?/p>
要了解激活圖集和其他功能可視化工具的工作原理,首先需要了解一點(diǎn)人工智能系統(tǒng)如何識(shí)別對(duì)象。實(shí)現(xiàn)這一點(diǎn)的基本方法是使用神經(jīng)網(wǎng)絡(luò):一種與人腦大致相似的計(jì)算結(jié)構(gòu)(盡管它在復(fù)雜程度上落后了一個(gè)光年)。
每一個(gè)神經(jīng)網(wǎng)絡(luò)內(nèi)部都是人工神經(jīng)元層,它們像網(wǎng)一樣連接在一起。就像你大腦中的細(xì)胞一樣,這些細(xì)胞會(huì)響應(yīng)刺激,這一過程稱成為激活。重要的是,它們不僅可以啟動(dòng)或關(guān)閉,它們可以在一個(gè)頻譜上注冊(cè),給每個(gè)激活一個(gè)特定的值或“權(quán)重”。
要把神經(jīng)網(wǎng)絡(luò)變成有用的東西,你必須給它大量的訓(xùn)練數(shù)據(jù)。這意味著數(shù)十萬甚至數(shù)百萬張圖像,每一張都標(biāo)有特定的類別。在谷歌和Openai的研究人員為這項(xiàng)工作測(cè)試的過程中,這些圖像涉及面廣泛:從羊毛到溫莎領(lǐng)帶,從安全帶到空間加熱器。
當(dāng)它輸入這些數(shù)據(jù)時(shí),神經(jīng)網(wǎng)絡(luò)中的不同神經(jīng)元會(huì)響應(yīng)每個(gè)圖像而亮起。此模式連接到圖像的標(biāo)簽。一旦經(jīng)過訓(xùn)練后,您就可以向網(wǎng)絡(luò)展示一張以前它從未見過的圖片,并且神經(jīng)元將激活,將輸入內(nèi)容與特定類別相匹配。恭喜你!剛剛成功訓(xùn)練了機(jī)器學(xué)習(xí)視覺算法。
這讓研究人員可以觀察到網(wǎng)絡(luò)的一些情況,通過在不同信息層之間切換,他們可以看到網(wǎng)絡(luò)是如何從構(gòu)建到最終決策的,從形狀和紋理等基本視覺概念開始到具體的對(duì)象。
例如,Olah注意到,狗的品種在很大程度上是以耳朵的下垂程度來區(qū)分的。圖集還展示了網(wǎng)絡(luò)是如何聯(lián)系不同的物體和想法的,比如說,把狗耳朵放在離貓耳朵不太遠(yuǎn)的地方,看隨著層級(jí)的發(fā)展,這些區(qū)別是如何變得清晰的。
該研究還發(fā)現(xiàn)了一些驚喜,例如,Olah拍攝了一張魚鰭的照片,一條魚鰭劃過了洶涌的海水,那么它到底是屬于灰鯨還是大白鯊?作為一個(gè)沒有釣魚經(jīng)驗(yàn)的人,我不會(huì)冒險(xiǎn)猜測(cè),但是作為曾經(jīng)看到過大量鯊魚和鯨魚鰭的神經(jīng)網(wǎng)絡(luò)不應(yīng)該有問題。
然后Olah展示了在神經(jīng)網(wǎng)絡(luò)的特定層面上與兩只動(dòng)物相關(guān)的圖集圖像,但其中一個(gè)鯊魚圖像特別奇怪。如果你仔細(xì)一看,你可能會(huì)看到一排排潔白的牙齒和牙齦,樣子卻同棒球的接縫十分相似。
事實(shí)證明,他們研究的神經(jīng)網(wǎng)絡(luò)也有這樣的視覺隱喻的天賦,這可以作為愚弄系統(tǒng)的廉價(jià)技巧。通過改變魚鰭照片,比如說,在一個(gè)角落放置一個(gè)棒球郵票圖像,Carter和Olah發(fā)現(xiàn)可以很容易地說服神經(jīng)網(wǎng)絡(luò)鯨魚實(shí)際上是一條鯊魚。
Olah說,這種方法不太可能被網(wǎng)絡(luò)破壞者所使用,因?yàn)槠鋵?shí)有更簡(jiǎn)單更微妙的方式來制造混亂。比如他們可以自動(dòng)生成所謂的對(duì)抗性補(bǔ)丁,使網(wǎng)絡(luò)混淆,把貓當(dāng)作是一碗鱷梨醬,甚至導(dǎo)致自動(dòng)駕駛汽車誤讀停止標(biāo)志。
但令人興奮的是,有了這個(gè)工具,人類可以充分了解網(wǎng)絡(luò)的內(nèi)部深度,使得它最終幫助我們識(shí)別混淆或偏差,并及時(shí)糾正。
但是錯(cuò)誤也是時(shí)有發(fā)生的,比如說,把不同種族的人類識(shí)別成大猩猩而非人。有了這樣的可視化工具,研究人員可以查看是什么外來信息或視覺相似性導(dǎo)致了錯(cuò)誤的發(fā)生。
也就是說,試圖預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)的內(nèi)核是存在風(fēng)險(xiǎn)的?!叭藗兂3?dān)心你可能在欺騙你自己,”奧拉說,風(fēng)險(xiǎn)在于我們可能試圖強(qiáng)加我們熟悉的視覺概念或?qū)ふ矣幸饬x的簡(jiǎn)單解釋。
這就是包括人工智能先驅(qū)Hinton在內(nèi)的一些人物一直反對(duì)人類解釋AI運(yùn)作規(guī)律的原因之一,正如人類無法解釋他們的大腦如何做出決定一樣,計(jì)算機(jī)也是同樣。他最近在接受WIRED采訪時(shí)說道:“如果你非要要求他們解釋所做的決定,你就會(huì)強(qiáng)迫他們編造一個(gè)故事?!?/p>
雖然爭(zhēng)議不斷,但“激活圖集”的研究者們始終認(rèn)為:每一代新工具的研發(fā)都在讓我們更接近這些在網(wǎng)絡(luò)中發(fā)生事情的真相。
評(píng)論