理解神經(jīng)網(wǎng)絡(luò)是否有更好的姿勢？

作者：楊曉凡時(shí)間：2019-07-23 來源：雷鋒網(wǎng)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

編者按：在某一些層面上我們已經(jīng)有很好的了解，而且可能比其它的層面更為重要

雷鋒網(wǎng)按：DeepMind 研究科學(xué)家 Timothy P. Lillicrap，賓夕法尼亞大學(xué)教授 Konrad P. Kording 近期發(fā)表了一篇文章《What does it mean to understand a neural network?》（arxiv.org/abs/1907.06374）。正如文章標(biāo)題提出的，「理解神經(jīng)網(wǎng)絡(luò)」到底意味著什么？我們當(dāng)前的研究是否走入了誤區(qū)以至于忽略了某些很有價(jià)值的東西？這是一篇視角獨(dú)特的討論，文章主要內(nèi)容介紹如下。

本文引用地址：http://www.ex-cimer.com/article/201907/402977.htm

神經(jīng)網(wǎng)絡(luò)可解釋性之路面臨困境

自從現(xiàn)代神經(jīng)網(wǎng)絡(luò)被證明能解決復(fù)雜問題并開始蓬勃發(fā)展以來，如何理解這些網(wǎng)絡(luò)就一直是一個(gè)未解之謎。網(wǎng)絡(luò)中少則數(shù)千、多則數(shù)萬的連接和權(quán)重都分別如何影響網(wǎng)絡(luò)的表現(xiàn)、如何理解對抗性樣本之類的意外行為，有許多問題目前都還沒有完整的理論可以說清。

但毫無疑問，我們對神經(jīng)網(wǎng)絡(luò)是有高度的掌控能力的。即便 AlphaGo、OpenAI Five 等已經(jīng)在游戲中展現(xiàn)出了超人類水平的神經(jīng)網(wǎng)絡(luò)，它們也只是來源于人類編寫的上百行代碼而已。我們理解這些代碼，我們知道它們將會如何轉(zhuǎn)化為計(jì)算流程，在網(wǎng)絡(luò)訓(xùn)練完畢以后也能夠知道網(wǎng)絡(luò)的所有權(quán)重。

從這個(gè)意義上說，我們對網(wǎng)絡(luò)的結(jié)構(gòu)和其中的運(yùn)算都有完全的了解。但我們真正希望獲得的是一種介于人類思維語言以及計(jì)算機(jī)運(yùn)算細(xì)節(jié)之間的中轉(zhuǎn)語言，我們可以借助這種語言直接構(gòu)建可以分類 ImageNet 圖像或者能夠下圍棋的神經(jīng)網(wǎng)絡(luò)，而不需要經(jīng)過繁瑣、消耗資源的迭代學(xué)習(xí)過程；可以借助這種語言直接獲得網(wǎng)絡(luò)表現(xiàn)的清晰完整的描述，而不需要通過反復(fù)的測試進(jìn)行經(jīng)驗(yàn)總結(jié)。目前我們還沒有找到這樣的中轉(zhuǎn)語言，甚至都不確定是否存在這樣的語言。

神經(jīng)網(wǎng)絡(luò)能被緊湊地表達(dá)嗎？

一個(gè)值得深入思考的角度是，在機(jī)器學(xué)習(xí)的理論框架下設(shè)計(jì)的人工智能系統(tǒng)，都是一些「學(xué)習(xí)系統(tǒng)」，它們在人類編寫的學(xué)習(xí)規(guī)則下學(xué)習(xí)（從數(shù)據(jù)中提取信息）。這些學(xué)習(xí)規(guī)則的表達(dá)非常緊湊，幾十、幾百行高級編程語言代碼（比如 Pytorch 代碼）就足以描述。

對于我們廣大的機(jī)器學(xué)習(xí)科研和應(yīng)用人員來說，這種緊湊的表達(dá)顯然能幫助我們獲得一些有價(jià)值的理解。這樣的緊湊表達(dá)也給我們提供了許多便利：我們可以為同一個(gè)想法創(chuàng)造許許多多的不同變體，然后用它們解決一大批問題。

既然學(xué)習(xí)規(guī)則可以被緊湊地表達(dá)，那么神經(jīng)網(wǎng)絡(luò)本身可以被緊湊地表達(dá)嗎？不見得。近幾年隨著知識蒸餾和計(jì)算復(fù)雜度的研究增多，我們對數(shù)據(jù)和網(wǎng)絡(luò)的可壓縮性的理解也在增加。我們已經(jīng)知道，在 ImageNet 上訓(xùn)練完畢的網(wǎng)絡(luò)是無法被壓縮到 10 萬個(gè)獨(dú)立參數(shù)之內(nèi)的；即便是用來識別 MNIST 數(shù)字的網(wǎng)絡(luò)也無法被壓縮為人類可以理解的格式。但同時(shí)，能存儲超過三萬個(gè)類別的知識并進(jìn)行分辨的人類大腦，作為一類十分高級的神經(jīng)網(wǎng)絡(luò)，想要在其中找到，或者想要壓縮為某種緊湊的表征，也是幾乎不可能的事情。

跳出壓縮技巧之外，我們其實(shí)可以問這樣一個(gè)問題：在任務(wù)中表現(xiàn)出了人類水準(zhǔn)的網(wǎng)絡(luò)，應(yīng)當(dāng)是容易壓縮的嗎？不難得到答案：越是處理復(fù)雜任務(wù)、能存儲并處理越多信息的網(wǎng)絡(luò)，就越難以壓縮。

更重要、也更長遠(yuǎn)的一件事是，完全掌握某一個(gè)可以正常工作的 AI 系統(tǒng)的網(wǎng)絡(luò)架構(gòu)和權(quán)重、但不了解學(xué)習(xí)規(guī)則和執(zhí)行技巧，對于解決其它的任務(wù)就起不到任何幫助。也就是說，了解訓(xùn)練系統(tǒng)用到的學(xué)習(xí)規(guī)則、網(wǎng)絡(luò)架構(gòu)、損失函數(shù)，對于后續(xù)的更改和拓展要遠(yuǎn)比了解直接存在于網(wǎng)絡(luò)之中的連接權(quán)重重要。

與神經(jīng)科學(xué)的類比

雖然人腦的神經(jīng)網(wǎng)絡(luò)和如今的人工神經(jīng)網(wǎng)絡(luò)有諸多不同，但是相同點(diǎn)也不少，尤其是極高的可塑性以及難以準(zhǔn)確了解網(wǎng)絡(luò)內(nèi)的表征。說到底，人腦在具有極強(qiáng)的持續(xù)學(xué)習(xí)能力、有高超的任務(wù)解決能力的同時(shí)，可解釋性并不比人工神經(jīng)網(wǎng)絡(luò)好到哪里去，但同時(shí)人類在學(xué)習(xí)和發(fā)展方面有諸多理論研究成果和實(shí)用技巧，不僅容易理解，也能切實(shí)起到幫助改善個(gè)人狀況、提升個(gè)人能力的作用。我們似乎可以說，為神經(jīng)網(wǎng)絡(luò)（不論人腦還是人工神經(jīng)網(wǎng)絡(luò)）找到人類可以理解的緊湊表達(dá)不僅不是唯一的目標(biāo)，甚至它的作用也不如網(wǎng)絡(luò)架構(gòu)、學(xué)習(xí)規(guī)則、發(fā)展規(guī)律的研究的作用更大。

正如 Hinton 等人在 AlexNet 論文中，以及 DeepMind 在 AlphaGo 論文中展示的，一個(gè)人工神經(jīng)網(wǎng)絡(luò)可以被清晰地分成先天（原理）與后天（參數(shù)）兩部分：為網(wǎng)絡(luò)提供任務(wù)和有關(guān)的數(shù)據(jù)源（供網(wǎng)絡(luò)從其中提取出絕大部分無法壓縮也難以描述的參數(shù)值），同時(shí)記錄下使用的網(wǎng)絡(luò)架構(gòu)（卷積網(wǎng)絡(luò) / 殘差網(wǎng)絡(luò)）、損失函數(shù)（L2 / 交叉熵）、學(xué)習(xí)規(guī)則（SGD / Adam）、優(yōu)化手段（蒙特卡洛樹搜索）。后面的這四點(diǎn)可以簡單且嚴(yán)謹(jǐn)?shù)乇磉_(dá)為人類能夠理解的方程，而且可以指導(dǎo)我們開發(fā)未來更多的人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)。

在統(tǒng)計(jì)物理中，一團(tuán)氣體可以由溫度、壓強(qiáng)等不多的幾個(gè)變量描述，然后在這幾個(gè)變量基礎(chǔ)之上繼續(xù)進(jìn)行的預(yù)測和控制也都可以準(zhǔn)確地進(jìn)行。神經(jīng)科學(xué)研究中也傾向于相信人類大腦中也存在這樣的描述方式。但氣體分子互相都是一樣的、可交換的、只有短期記憶，而人類大腦中的細(xì)胞是各自具有獨(dú)特性、具有長期記憶能力的（這也從另一個(gè)角度印證了上文提到的「難以被壓縮」）。所以，神經(jīng)科學(xué)研究中期待的這種描述方法很可能起到了誤導(dǎo)的作用。

總結(jié)

看起來可行的事情到了最后才證明此路不通，這樣的故事在歷史上反復(fù)重演。也許以后我們會發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)便于實(shí)驗(yàn)所以更容易理解，也有可能我們首先證明了人類大腦的強(qiáng)模態(tài)性、近似線性和高噪聲特性；也有可能我們最終都無法完全理解任一種網(wǎng)絡(luò)。

目前熱門的研究大腦的方法已經(jīng)可以單獨(dú)研究其中的先天成分；從行為學(xué)的角度講，我們也可以提問學(xué)習(xí)是如何改變了行動(dòng)的。當(dāng)我們研究表征的時(shí)候，我們可以研究是哪個(gè)損失函數(shù)、哪個(gè)網(wǎng)絡(luò)架構(gòu)、哪個(gè)學(xué)習(xí)特性可能導(dǎo)致了檢測到的表征的變化。當(dāng)我們嘗試研究大腦如何運(yùn)行而遇到困難的時(shí)候，我們完全可以研究大腦是如何學(xué)習(xí)運(yùn)行的。

閱讀原論文見：https://arxiv.org/abs/1907.06374

PS：谷歌大腦研究員 Adam Gaier 和 David Ha 近期也對神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和可解釋性做出了新的探索，他們嘗試避開難以解釋的連接權(quán)重，直接創(chuàng)建具有可理解的結(jié)構(gòu)的網(wǎng)絡(luò)。這也是非常有趣的研究思路，詳細(xì)介紹請見《神經(jīng)網(wǎng)絡(luò)的氣宗與劍宗之爭：先驗(yàn)強(qiáng)大的網(wǎng)絡(luò)甚至不需要訓(xùn)練》。

本文轉(zhuǎn)自雷鋒網(wǎng)，如需轉(zhuǎn)載請至雷鋒網(wǎng)官網(wǎng)申請授權(quán)。

原文章地址為理解神經(jīng)網(wǎng)絡(luò)是否有更好的姿勢？