保持精度又縮小AI模型,英特爾開發(fā)新的訓(xùn)練技術(shù)
一般來說,人工智能模型的大小與它們的訓(xùn)練時間有關(guān),因此較大的模型需要更多的時間來訓(xùn)練,隨后需要更多的計算。優(yōu)化數(shù)學(xué)函數(shù)(或神經(jīng)元)之間的連接是有可能的,通過一個稱為修剪的過程,它在不影響準(zhǔn)確性的情況下減少了它們的整體大小。但是修剪要等到訓(xùn)練后才能進行。
本文引用地址:http://www.ex-cimer.com/article/201906/401535.htm這就是為什么英特爾的研究人員設(shè)計了一種從相反的方向進行訓(xùn)練的技術(shù),從一個緊湊的模型開始,在培訓(xùn)期間根據(jù)數(shù)據(jù)修改結(jié)構(gòu)。他們聲稱,與從一個大模型開始,然后進行壓縮相比,它具有更強的可伸縮性和計算效率,因為訓(xùn)練直接在緊湊模型上進行。
作為背景,大多數(shù)人工智能系統(tǒng)的核心神經(jīng)網(wǎng)絡(luò)由神經(jīng)元組成,神經(jīng)元呈層狀排列,并將信號傳遞給其他神經(jīng)元。這些信號從一層傳遞到另一層,通過調(diào)整每個連接的突觸強度(權(quán)重)來慢慢地“調(diào)整”網(wǎng)絡(luò)。隨著時間的推移,該網(wǎng)絡(luò)從數(shù)據(jù)集中提取特征,并識別跨樣本趨勢,最終學(xué)會做出預(yù)測。
神經(jīng)網(wǎng)絡(luò)不會攝取原始圖像、視頻、音頻或文本。相反,來自訓(xùn)練語料的樣本被代數(shù)地轉(zhuǎn)換成多維數(shù)組,如標(biāo)量(單個數(shù)字)、向量(標(biāo)量的有序數(shù)組)和矩陣(標(biāo)量排列成一個或多個列和一個或多個行)。封裝標(biāo)量、向量和矩陣的第四種實體類型——張量增加了對有效線性變換(或關(guān)系)的描述。
該團隊的計劃在一篇新發(fā)表的論文中進行了描述,該論文已被接受為2019年機器學(xué)習(xí)國際會議的口頭陳述,訓(xùn)練一種稱為深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的神經(jīng)網(wǎng)絡(luò),其中大部分層具有稀疏權(quán)張量,或者張量大部分為零。所有這些張量都是在相同的稀疏性(零點的百分比)級別初始化的,而非稀疏參數(shù)(具有一系列值之一的函數(shù)參數(shù))用于大多數(shù)其他層。
在整個訓(xùn)練過程中,當(dāng)參數(shù)在張量內(nèi)部或跨張量移動時,網(wǎng)絡(luò)中的非零參數(shù)總數(shù)保持不變,每幾百次訓(xùn)練迭代進行一次,分兩個階段進行:修剪階段之后緊接著是增長階段。一種稱為基于大小的修剪的類型用于刪除具有最小權(quán)值的鏈接,并且在訓(xùn)練期間跨層重新分配參數(shù)。
為了解決性能問題,研究人員將神經(jīng)網(wǎng)絡(luò)訓(xùn)練兩倍epochs,并在加拿大高級研究所(Canadian Institute for Advanced Research)的CIFAR10圖像數(shù)據(jù)集和斯坦福大學(xué)(Stanford)的ImageNet上測試了其中的兩個epochs——WRN-28-2和ResNet-50。
他們報告說,在模型大小相同的情況下,該方法比靜態(tài)方法獲得了更好的精度,同時所需的訓(xùn)練也大大減少,而且它比以前的動態(tài)方法產(chǎn)生了更好的精度。
該論文的主要作者之一Hesham Mostafa寫道:“實驗表明,在訓(xùn)練過程中探索網(wǎng)絡(luò)結(jié)構(gòu)對于達到最佳準(zhǔn)確度至關(guān)重要。如果構(gòu)造一個靜態(tài)稀疏網(wǎng)絡(luò),復(fù)制動態(tài)參數(shù)化方案發(fā)現(xiàn)的稀疏網(wǎng)絡(luò)的最終結(jié)構(gòu),那么這個靜態(tài)網(wǎng)絡(luò)將無法訓(xùn)練到相同的精度?!?/p>
評論