<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 消費電子 > 設(shè)計應(yīng)用 > 理解神經(jīng)網(wǎng)絡(luò)中的Dropout

          理解神經(jīng)網(wǎng)絡(luò)中的Dropout

          作者: 時間:2018-07-24 來源:網(wǎng)絡(luò) 收藏

          dropout是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程中,對于神經(jīng)網(wǎng)絡(luò)單元,按照一定的概率將其暫時從網(wǎng)絡(luò)中丟棄。注意是暫時,對于隨機梯度下降來說,由于是隨機丟棄,故而每一個mini-batch都在訓(xùn)練不同的網(wǎng)絡(luò)。

          本文引用地址:http://www.ex-cimer.com/article/201807/383602.htm

          過擬合是深度神經(jīng)網(wǎng)(DNN)中的一個常見問題:模型只學(xué)會在訓(xùn)練集上分類,這些年提出的許多過擬合問題的解決方案,其中dropout具有簡單性而且效果也非常良好。

          算法概述

          我們知道如果要訓(xùn)練一個大型的網(wǎng)絡(luò),而訓(xùn)練數(shù)據(jù)很少的話,那么很容易引起過擬合,一般情況我們會想到用正則化、或者減小網(wǎng)絡(luò)規(guī)模。然而Hinton在2012年文獻:《Improving neural networks by preventing co-adaptation of feature detectors》提出了,在每次訓(xùn)練的時候,隨機讓一半的特征檢測器停過工作,這樣可以提高網(wǎng)絡(luò)的泛化能力,Hinton又把它稱之為dropout。

          第一種理解方式是,在每次訓(xùn)練的時候使用dropout,每個神經(jīng)元有百分之50的概率被移除,這樣可以使得一個神經(jīng)元的訓(xùn)練不依賴于另外一個神經(jīng)元,同樣也就使得特征之間的協(xié)同作用被減弱。Hinton認為,過擬合可以通過阻止某些特征的協(xié)同作用來緩解。

          第二種理解方式是,我們可以把dropout當(dāng)做一種多模型效果平均的方式。對于減少測試集中的錯誤,我們可以將多個不同神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果取平均,而因為dropout的隨機性,我們每次dropout后,網(wǎng)絡(luò)模型都可以看成是一個不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),而此時要訓(xùn)練的參數(shù)數(shù)目卻是不變的,這就解脫了訓(xùn)練多個獨立的不同神經(jīng)網(wǎng)絡(luò)的時耗問題。在測試輸出的時候,將輸出權(quán)重除以二,從而達到類似平均的效果。

          需要注意的是如果采用dropout,訓(xùn)練時間大大延長,但是對測試階段沒影響。

          帶dropout的訓(xùn)練過程

          而為了達到ensemble的特性,有了dropout后,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和預(yù)測就會發(fā)生一些變化。在這里使用的是dropout以p的概率舍棄神經(jīng)元

          訓(xùn)練層面

          對應(yīng)的公式變化如下如下:

          沒有dropout的神經(jīng)網(wǎng)絡(luò)

          有dropout的神經(jīng)網(wǎng)絡(luò)

          無可避免的,訓(xùn)練網(wǎng)絡(luò)的每個單元要添加一道概率流程。

          測試層面

          預(yù)測的時候,每一個單元的參數(shù)要預(yù)乘以p。

          除此之外還有一種方式是,在預(yù)測階段不變,而訓(xùn)練階段改變。

          關(guān)于這個比例我查了不少資料,前面的是論文的結(jié)論;后面是keras源碼中dropout的實現(xiàn)。有博客寫的公式不一致,我寫了一個我覺得是對的版本。

          Dropout與其它正則化

          Dropout通常使用L2歸一化以及其他參數(shù)約束技術(shù)。正則化有助于保持較小的模型參數(shù)值。

          使用Inverted Dropout后,上述等式變?yōu)椋?/p>

          可以看出使用Inverted Dropout,學(xué)習(xí)率是由因子q=1−p進行縮放 。由于q在[0,1]之間,η和q之間的比例變化:

          參考文獻將q稱為推動因素,因為其能增強學(xué)習(xí)速率,將r(q)稱為有效的學(xué)習(xí)速率。

          有效學(xué)習(xí)速率相對于所選的學(xué)習(xí)速率而言更高:基于此約束參數(shù)值的規(guī)一化可以幫助簡化學(xué)習(xí)速率選擇過程。



          關(guān)鍵詞:

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();