<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 保持精度又縮小AI模型,英特爾開(kāi)發(fā)新的訓(xùn)練技術(shù)

          保持精度又縮小AI模型,英特爾開(kāi)發(fā)新的訓(xùn)練技術(shù)

          作者: 時(shí)間:2019-06-14 來(lái)源:集微網(wǎng) 收藏

          一般來(lái)說(shuō),人工智能模型的大小與它們的訓(xùn)練時(shí)間有關(guān),因此較大的模型需要更多的時(shí)間來(lái)訓(xùn)練,隨后需要更多的計(jì)算。優(yōu)化數(shù)學(xué)函數(shù)(或神經(jīng)元)之間的連接是有可能的,通過(guò)一個(gè)稱為修剪的過(guò)程,它在不影響準(zhǔn)確性的情況下減少了它們的整體大小。但是修剪要等到訓(xùn)練后才能進(jìn)行。

          本文引用地址:http://www.ex-cimer.com/article/201906/401535.htm

          這就是為什么的研究人員設(shè)計(jì)了一種從相反的方向進(jìn)行訓(xùn)練的技術(shù),從一個(gè)緊湊的模型開(kāi)始,在培訓(xùn)期間根據(jù)數(shù)據(jù)修改結(jié)構(gòu)。他們聲稱,與從一個(gè)大模型開(kāi)始,然后進(jìn)行壓縮相比,它具有更強(qiáng)的可伸縮性和計(jì)算效率,因?yàn)橛?xùn)練直接在緊湊模型上進(jìn)行。

          作為背景,大多數(shù)人工智能系統(tǒng)的核心由神經(jīng)元組成,神經(jīng)元呈層狀排列,并將信號(hào)傳遞給其他神經(jīng)元。這些信號(hào)從一層傳遞到另一層,通過(guò)調(diào)整每個(gè)連接的突觸強(qiáng)度(權(quán)重)來(lái)慢慢地“調(diào)整”網(wǎng)絡(luò)。隨著時(shí)間的推移,該網(wǎng)絡(luò)從數(shù)據(jù)集中提取特征,并識(shí)別跨樣本趨勢(shì),最終學(xué)會(huì)做出預(yù)測(cè)。

          不會(huì)攝取原始圖像、視頻、音頻或文本。相反,來(lái)自訓(xùn)練語(yǔ)料的樣本被代數(shù)地轉(zhuǎn)換成多維數(shù)組,如標(biāo)量(單個(gè)數(shù)字)、向量(標(biāo)量的有序數(shù)組)和矩陣(標(biāo)量排列成一個(gè)或多個(gè)列和一個(gè)或多個(gè)行)。封裝標(biāo)量、向量和矩陣的第四種實(shí)體類型——張量增加了對(duì)有效線性變換(或關(guān)系)的描述。

          該團(tuán)隊(duì)的計(jì)劃在一篇新發(fā)表的論文中進(jìn)行了描述,該論文已被接受為2019年機(jī)器學(xué)習(xí)國(guó)際會(huì)議的口頭陳述,訓(xùn)練一種稱為深度卷積(CNN)的神經(jīng)網(wǎng)絡(luò),其中大部分層具有稀疏權(quán)張量,或者張量大部分為零。所有這些張量都是在相同的稀疏性(零點(diǎn)的百分比)級(jí)別初始化的,而非稀疏參數(shù)(具有一系列值之一的函數(shù)參數(shù))用于大多數(shù)其他層。

          在整個(gè)訓(xùn)練過(guò)程中,當(dāng)參數(shù)在張量?jī)?nèi)部或跨張量移動(dòng)時(shí),網(wǎng)絡(luò)中的非零參數(shù)總數(shù)保持不變,每幾百次訓(xùn)練迭代進(jìn)行一次,分兩個(gè)階段進(jìn)行:修剪階段之后緊接著是增長(zhǎng)階段。一種稱為基于大小的修剪的類型用于刪除具有最小權(quán)值的鏈接,并且在訓(xùn)練期間跨層重新分配參數(shù)。

          為了解決性能問(wèn)題,研究人員將神經(jīng)網(wǎng)絡(luò)訓(xùn)練兩倍epochs,并在加拿大高級(jí)研究所(Canadian Institute for Advanced Research)的CIFAR10圖像數(shù)據(jù)集和斯坦福大學(xué)(Stanford)的ImageNet上測(cè)試了其中的兩個(gè)epochs——WRN-28-2和ResNet-50。

          他們報(bào)告說(shuō),在模型大小相同的情況下,該方法比靜態(tài)方法獲得了更好的精度,同時(shí)所需的訓(xùn)練也大大減少,而且它比以前的動(dòng)態(tài)方法產(chǎn)生了更好的精度。

          該論文的主要作者之一Hesham Mostafa寫道:“實(shí)驗(yàn)表明,在訓(xùn)練過(guò)程中探索網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于達(dá)到最佳準(zhǔn)確度至關(guān)重要。如果構(gòu)造一個(gè)靜態(tài)稀疏網(wǎng)絡(luò),復(fù)制動(dòng)態(tài)參數(shù)化方案發(fā)現(xiàn)的稀疏網(wǎng)絡(luò)的最終結(jié)構(gòu),那么這個(gè)靜態(tài)網(wǎng)絡(luò)將無(wú)法訓(xùn)練到相同的精度?!?/p>



          評(píng)論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();