<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 牛人業(yè)話 > 圖像識別中的深度學(xué)習(xí)【香港中文大學(xué)王曉剛】

圖像識別中的深度學(xué)習(xí)【香港中文大學(xué)王曉剛】

作者：時間：2017-03-13 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

　　深度學(xué)習(xí)是近十年來人工智能領(lǐng)域取得的重要突破。它在語音識別、自然語言處理、計算機(jī)視覺、圖像與視頻分析、多媒體等諸多領(lǐng)域的應(yīng)用取得了巨大成功?，F(xiàn)有的深度學(xué)習(xí)模型屬于神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的起源可追溯到20世紀(jì)40年代，曾經(jīng)在八九十年代流行。神經(jīng)網(wǎng)絡(luò)試圖通過模擬大腦認(rèn)知的機(jī)理解決各種機(jī)器學(xué)習(xí)問題。1986年，魯梅爾哈特(Rumelhart)、欣頓(Hinton)和威廉姆斯(Williams)在《自然》雜志發(fā)表了著名的反向傳播算法用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)[1]，該算法直到今天仍被廣泛應(yīng)用。

本文引用地址：http://www.ex-cimer.com/article/201703/345137.htm

　　神經(jīng)網(wǎng)絡(luò)有大量參數(shù)，經(jīng)常發(fā)生過擬合問題，雖然其識別結(jié)果在訓(xùn)練集上準(zhǔn)確率很高，但在測試集上效果卻很差。這是因為當(dāng)時的訓(xùn)練數(shù)據(jù)集規(guī)模都較小，加之計算資源有限，即便是訓(xùn)練一個較小的網(wǎng)絡(luò)也需要很長的時間。與其他模型相比，神經(jīng)網(wǎng)絡(luò)并未在識別準(zhǔn)確率上體現(xiàn)出明顯的優(yōu)勢。

　　因此更多的學(xué)者開始采用支持向量機(jī)、Boosting、最近鄰等分類器。這些分類器可以用具有一個或兩個隱含層的神經(jīng)網(wǎng)絡(luò)模擬，因此被稱為淺層機(jī)器學(xué)習(xí)模型。在這種模型中，往往是針對不同的任務(wù)設(shè)計不同的系統(tǒng)，并采用不同的手工設(shè)計的特征。例物體識別采用尺度不變特征轉(zhuǎn)換(Scale Invariant Feature Transform, SIFT)，人臉識別采用局部二值模式(Local Binary Patterns, LBP)，行人檢測采用方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征。

　　2006年，欣頓提出了深度學(xué)習(xí)。之后深度學(xué)習(xí)在諸多領(lǐng)域取得了巨大成功，受到廣泛關(guān)注。神經(jīng)網(wǎng)絡(luò)能夠重新煥發(fā)青春的原因有幾個方面：首先，大規(guī)模訓(xùn)練數(shù)據(jù)的出現(xiàn)在很大程度上緩解了訓(xùn)練過擬合的問題。例如，ImageNet[2]訓(xùn)練集擁有上百萬個有標(biāo)注的圖像。其次，計算機(jī)硬件的飛速發(fā)展為其提供了強(qiáng)大的計算能力，一個GPU芯片可以集成上千個核。這使得訓(xùn)練大規(guī)模神經(jīng)網(wǎng)絡(luò)成為可能。第三，神經(jīng)網(wǎng)絡(luò)的模型設(shè)計和訓(xùn)練方法都取得了長足的進(jìn)步。例如，為了改進(jìn)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，學(xué)者提出了非監(jiān)督和逐層的預(yù)訓(xùn)練，使得在利用反向傳播算法對網(wǎng)絡(luò)進(jìn)行全局優(yōu)化之前，網(wǎng)絡(luò)參數(shù)能達(dá)到一個好的起始點，從而在訓(xùn)練完成時能達(dá)到一個較好的局部極小點。

　　深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域最具影響力的突破發(fā)生在2012年，欣頓的研究小組采用深度學(xué)習(xí)贏得了ImageNet圖像分類比賽的冠軍[3]。排名第2到第4位的小組采用的都是傳統(tǒng)的計算機(jī)視覺方法、手工設(shè)計的特征，他們之間準(zhǔn)確率的差別不超過1%。欣頓研究小組的準(zhǔn)確率超出第二名10%以上，(見表1)。這個結(jié)果在計算機(jī)視覺領(lǐng)域產(chǎn)生了極大的震動，引發(fā)了深度學(xué)習(xí)的熱潮。

　　計算機(jī)視覺領(lǐng)域另一個重要的挑戰(zhàn)是人臉識別。有研究表明[5]，如果只把不包括頭發(fā)在內(nèi)的人臉的中心區(qū)域給人看，人眼在戶外臉部檢測數(shù)據(jù)庫(Labeled Faces in the Wild, LFW)上的識別率是97.53%。如果把整張圖像，包括背景和頭發(fā)給人看，人眼的識別率是99.15%。經(jīng)典的人臉識別算法Eigenface[6] 在LFW測試集上只有60%的識別率。在非深度學(xué)習(xí)算法中，最高的識別率是96.33%[7]。目前深度學(xué)習(xí)可以達(dá)到99.47%的識別率[8]。

　　在欣頓的科研小組贏得ImageNet比賽冠軍之后的6個月，谷歌和百度都發(fā)布了新的基于圖像內(nèi)容的搜索引擎。他們采用深度學(xué)習(xí)模型，應(yīng)用在各自的數(shù)據(jù)上，發(fā)現(xiàn)圖像搜索準(zhǔn)確率得到了大幅度提高。百度在2012年成立了深度學(xué)習(xí)研究院，2014年5月又在美國硅谷成立了新的深度學(xué)習(xí)實驗室，聘請斯坦福大學(xué)著名教授吳恩達(dá)擔(dān)任首席科學(xué)家。臉譜于2013年12月在紐約成立了新的人工智能實驗室，聘請深度學(xué)習(xí)領(lǐng)域的著名學(xué)者、卷積網(wǎng)絡(luò)的發(fā)明人雅恩·樂昆(Yann LeCun)作為首席科學(xué)家。2014年1月，谷歌拋出四億美金收購了深度學(xué)習(xí)的創(chuàng)業(yè)公司DeepMind。鑒于深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界的巨大影響力，2013年，《麻省理工科技評論》(MIT Technology Review)將其列為世界十大技術(shù)突破之首。

　　深度學(xué)習(xí)有何與眾不同?

　　深度學(xué)習(xí)和其他機(jī)器學(xué)習(xí)方法相比有哪些關(guān)鍵的不同點，它為何能在許多領(lǐng)域取得成功?

　　特征

　　深度學(xué)習(xí)與傳統(tǒng)模式識別方法的最大不同在于它所采用的特征是從大數(shù)據(jù)中自動學(xué)習(xí)得到，而非采用手工設(shè)計。好的特征可以提高模式識別系統(tǒng)的性能。過去幾十年，在模式識別的各種應(yīng)用中，手工設(shè)計的特征一直處于統(tǒng)治地位。手工設(shè)計主要依靠設(shè)計者的先驗知識，很難利用大數(shù)據(jù)的優(yōu)勢。由于依賴手工調(diào)參數(shù)，因此特征的設(shè)計中所允許出現(xiàn)的參數(shù)數(shù)量十分有限。深度學(xué)習(xí)可以從大數(shù)據(jù)中自動學(xué)習(xí)特征的表示，可以包含成千上萬的參數(shù)。

　　采用手工設(shè)計出有效的特征往往需要五到十年時間，而深度學(xué)習(xí)可以針對新的應(yīng)用從訓(xùn)練數(shù)據(jù)中很快學(xué)習(xí)到新的有效的特征表示。

　　一個模式識別系統(tǒng)包括特征和分類器兩部分。在傳統(tǒng)方法中，特征和分類器的優(yōu)化是分開的。而在神經(jīng)網(wǎng)絡(luò)的框架下，特征表示和分類器是聯(lián)合優(yōu)化的，可以最大程度地發(fā)揮二者聯(lián)合協(xié)作的性能。

　　2012年欣頓參加ImageNet比賽所采用的卷積網(wǎng)絡(luò)模型[9]的特征表示包含了從上百萬樣本中學(xué)習(xí)得到的6000萬個參數(shù)。從ImageNet上學(xué)習(xí)得到的特征表示具有非常強(qiáng)的泛化能力，可以成功應(yīng)用到其他數(shù)據(jù)集和任務(wù)中，例如物體的檢測、跟蹤和檢索等。在計算機(jī)視覺領(lǐng)域另外一個著名的競賽是PSACAL VOC。但是它的訓(xùn)練集規(guī)模較小，不適合訓(xùn)練深度學(xué)習(xí)模型。有學(xué)者將ImageNet上學(xué)習(xí)得到的特征表示用于PSACAL VOC上的物體檢測，檢測率提高了20%[10]。

　　既然特征學(xué)習(xí)如此重要，那么，什么是好的特征呢?一幅圖像中，各種復(fù)雜的因素往往以非線性的方式結(jié)合在一起。例如人臉圖像中就包含了身份、姿態(tài)、年齡、表情、光線等各種信息。深度學(xué)習(xí)的關(guān)鍵就是通過多層非線性映射將這些因素成功分開，例如在深度模型的最后一個隱含層，不同神經(jīng)元代表了不同因素。如果將這個隱含層當(dāng)作特征表示，人臉識別、姿態(tài)估計、表情識別、年齡估計就會變得非常簡單，因為各個因素之間變成了簡單的線性關(guān)系，不再彼此干擾。

　　深層結(jié)構(gòu)的優(yōu)勢

　　深度學(xué)習(xí)模型的“深”字意味著神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)深，由很多層組成。而支持向量機(jī)和Boosting等其他常用的機(jī)器學(xué)習(xí)模型都是淺層結(jié)構(gòu)。三層神經(jīng)網(wǎng)絡(luò)模型(包括輸入層、輸出層和一個隱含層)可以近似任何分類函數(shù)。既然如此，為什么需要深層模型呢?

　　研究表明，針對特定的任務(wù)，如果模型的深度不夠，其所需要的計算單元會呈指數(shù)增加。這意味著雖然淺層模型可以表達(dá)相同的分類函數(shù)，但其需要的參數(shù)和訓(xùn)練樣本要多得多。淺層模型提供的是局部表達(dá)。它將高維圖像空間分成若干個局部區(qū)域，每個局部區(qū)域至少存儲一個從訓(xùn)練數(shù)據(jù)中獲得的模板，如圖1(a)所示。淺層模型將一個測試樣本和這些模板逐一匹配，根據(jù)匹配的結(jié)果預(yù)測其類別。例如，在支持向量機(jī)模型中，模板是支持向量;在最近鄰分類器中，模板是所有的訓(xùn)練樣本。隨著分類問題復(fù)雜度的增加，需要將圖像空間劃分成越來越多的局部區(qū)域，因而需要越來越多的參數(shù)和訓(xùn)練樣本。盡管目前許多深度模型的參數(shù)量已經(jīng)相當(dāng)巨大，但如果換成淺層神經(jīng)網(wǎng)絡(luò)，其所需要的參數(shù)量要大出多個數(shù)量級才能達(dá)到相同的數(shù)據(jù)擬合效果，以至于很難實現(xiàn)。

　　深度模型之所以能減少參數(shù)的關(guān)鍵在于重復(fù)利用中間層的計算單元。以人臉識別為例，深度學(xué)習(xí)可以針對人臉圖像的分層特征表達(dá)進(jìn)行：最底層從原始像素開始學(xué)習(xí)濾波器，刻畫局部的邊緣和紋理特征;中層濾波器通過將各種邊緣濾波器進(jìn)行組合，描述不同類型的人臉器官;最高層描述的是整個人臉的全局特征。

　　深度學(xué)習(xí)提供的是分布式的特征表示。在最高的隱含層，每個神經(jīng)元代表一個屬性分類器(如圖1(b)所示)，例如性別、人種和頭發(fā)顏色等。每個神經(jīng)元將圖像空間一分為二，N個神經(jīng)元的組合就可以表達(dá)2N個局部區(qū)域，而用淺層模型表達(dá)這些區(qū)域的劃分至少需要2N個模板。由此可以看出，深度模型的表達(dá)能力更強(qiáng)，效率更高。

　　提取全局特征和上下文信息的能力

　　深度模型具有強(qiáng)大的學(xué)習(xí)能力和高效的特征表達(dá)能力，更重要的優(yōu)點是從像素級原始數(shù)據(jù)到抽象的語義概念逐層提取信息，這使得它在提取圖像的全局特征和上下文信息方面具有突出的優(yōu)勢，為解決傳統(tǒng)的計算機(jī)視覺問題(如圖像分割和關(guān)鍵點檢測)帶來了新的思路。

　　以人臉的圖像分割為例(如圖2所示)，為了預(yù)測每個像素屬于哪個臉部器官(眼睛、鼻子、嘴)，通常的做法是在該像素周圍取一個小區(qū)域，提取紋理特征(例如局部二值模式)，再基于該特征利用支持向量機(jī)等淺層模型分類。因為局部區(qū)域包含的信息量有限，往往產(chǎn)生分類錯誤，因此要對分割后的圖像加入平滑和形狀先驗等約束。

　　人眼即使在存在局部遮擋的情況下也可以根據(jù)臉部其他區(qū)域的信息估計被遮擋部分的標(biāo)注。由此可知全局和上下文信息對于局部的判斷是非常重要的，而這些信息在基于局部特征的方法中在最開始階段就丟失了。理想情況下，模型應(yīng)該將整幅圖像作為輸入，直接預(yù)測整幅分割圖。圖像分割可以被看做一個高維數(shù)據(jù)轉(zhuǎn)換的問題來解決。這樣不但利用到了上下文信息，模型在高維數(shù)據(jù)轉(zhuǎn)換過程中也隱式地加入了形狀先驗。但是由于整幅圖像內(nèi)容過于復(fù)雜，淺層模型很難有效地捕捉全局特征。而深度學(xué)習(xí)的出現(xiàn)使這一思路成為可能，在人臉分割[11]、人體分割[12]、人臉圖像配準(zhǔn)[13]和人體姿態(tài)估計等各個方面都取得了成功[14]。

　　聯(lián)合深度學(xué)習(xí)

　　一些研究計算機(jī)視覺的學(xué)者將深度學(xué)習(xí)模型視為黑盒子，這種看法是不全面的。傳統(tǒng)計算機(jī)視覺系統(tǒng)和深度學(xué)習(xí)模型存在著密切的聯(lián)系，利用這種聯(lián)系可以提出新的深度模型和訓(xùn)練方法。用于行人檢測的聯(lián)合深度學(xué)習(xí)[15]就是一個成功的例子。一個計算機(jī)視覺系統(tǒng)包含若干個關(guān)鍵的組成模塊。例如，一個行人檢測器包括特征提取、部件檢測器、部件幾何形變建模、部件遮擋推理、分類器等模塊。在聯(lián)合深度學(xué)習(xí)中[15]，深度模型的各個層和視覺系統(tǒng)的各個模塊可以建立對應(yīng)關(guān)系。如果視覺系統(tǒng)中的關(guān)鍵模塊在現(xiàn)有深度學(xué)習(xí)的模型中沒有與之對應(yīng)的層，則它們可以啟發(fā)我們提出新的深度模型。例如，大量物體檢測的研究工作表明，對物體部件的幾何形變建模可以有效提高檢測率，但是在常用的深度模型中沒有與之相對應(yīng)的層，因此聯(lián)合深度學(xué)習(xí)[15]及其后續(xù)的工作[16]都提出了新的形變層和形變池化層來實現(xiàn)這一功能。

　　從訓(xùn)練方式上看，計算機(jī)視覺系統(tǒng)的各個模塊是逐一訓(xùn)練或手工設(shè)計的。在深度模型的預(yù)訓(xùn)練階段，各個層也是逐一訓(xùn)練的。如果我們能夠建立計算機(jī)視覺系統(tǒng)和深度模型之間的對應(yīng)關(guān)系，那么在視覺研究中積累的經(jīng)驗就可以對深度模型的預(yù)訓(xùn)練提供指導(dǎo)。這樣預(yù)訓(xùn)練后得到的模型就可以達(dá)到與傳統(tǒng)計算機(jī)視覺系統(tǒng)可比的結(jié)果。在此基礎(chǔ)上，深度學(xué)習(xí)還會利用反向傳播對所有層進(jìn)行聯(lián)合優(yōu)化，使它們之間的相互協(xié)作達(dá)到最優(yōu)，從而使整個網(wǎng)絡(luò)的性能得到重大提升。

　　深度學(xué)習(xí)在物體識別中的應(yīng)用

　　ImageNet圖像分類

　　深度學(xué)習(xí)在物體識別中最重要的進(jìn)展體現(xiàn)在ImageNet ILSVRC挑戰(zhàn)中的圖像分類任務(wù)。傳統(tǒng)計算機(jī)視覺方法在此測試集上最低的錯誤率是26.172%。2012年，欣頓的研究小組利用卷積網(wǎng)絡(luò)把錯誤率降到了15.315%。此網(wǎng)絡(luò)結(jié)構(gòu)被稱為Alex Net[3]，與傳統(tǒng)的卷積網(wǎng)絡(luò)相比，它有三點與眾不同之處：首先，Alex Net采用了dropout的訓(xùn)練策略，在訓(xùn)練過程中將輸入層和中間層的一些神經(jīng)元隨機(jī)置零。這模擬了噪音對輸入數(shù)據(jù)的各種干擾使一些神經(jīng)元對一些視覺模式產(chǎn)生漏檢的情況。Dropout使訓(xùn)練過程收斂得更慢，但得到的網(wǎng)絡(luò)模型更加魯棒。其次，Alex Net采用整流線型單元作為非線性的激發(fā)函數(shù)。這不僅大大降低了計算的復(fù)雜度，而且使神經(jīng)元的輸出具有稀疏的特征，對各種干擾更加魯棒。第三，Alex Net通過對訓(xùn)練樣本鏡像映射和加入隨機(jī)平移擾動，產(chǎn)生了更多的訓(xùn)練樣本，減少了過擬合。

　　在ImageNet ILSVRC 2013比賽中，排名前20的小組使用的都是深度學(xué)習(xí)技術(shù)。獲勝者是紐約大學(xué)羅伯·費(fèi)格斯(Rob Fergus)的研究小組，所采用的深度模型是卷積網(wǎng)絡(luò)，并對網(wǎng)絡(luò)結(jié)構(gòu)作了進(jìn)一步優(yōu)化，錯誤率為11.197%，其模型稱作Clarifai[17]。

　　在ILSVRC 2014比賽中，獲勝者GooLeNet[18]將錯誤率降到了6.656%。GooLeNet突出的特點是大大增加了卷積網(wǎng)絡(luò)的深度，超過了20層，這在此之前是不可想象的。很深的網(wǎng)絡(luò)結(jié)構(gòu)給預(yù)測誤差的反向傳播帶了困難，這是因為預(yù)測誤差是從最頂層傳到底層的，傳到底層的誤差很小，難以驅(qū)動底層參數(shù)的更新。GooLeNet采取的策略是將監(jiān)督信號直接加到多個中間層，這意味著中間層和底層的特征表示也要能夠?qū)τ?xùn)練數(shù)據(jù)進(jìn)行準(zhǔn)確分類。如何有效地訓(xùn)練很深的網(wǎng)絡(luò)模型仍是未來研究的一個重要課題。

　　雖然深度學(xué)習(xí)在ImageNet上取得了巨大成功，但是很多應(yīng)用的訓(xùn)練集是較小的，在這種情況下，如何應(yīng)用深度學(xué)習(xí)呢?有三種方法可供參考：(1)可以將ImageNet上訓(xùn)練得到的模型作為起點，利用目標(biāo)訓(xùn)練集和反向傳播對其進(jìn)行繼續(xù)訓(xùn)練，將模型適應(yīng)到特定的應(yīng)用[10]。此時ImageNet起到預(yù)訓(xùn)練的作用。(2)如果目標(biāo)訓(xùn)練集不夠大，可以將底層的網(wǎng)絡(luò)參數(shù)固定，沿用ImageNet上的訓(xùn)練集結(jié)果，只對上層進(jìn)行更新。這是因為底層的網(wǎng)絡(luò)參數(shù)是最難更新的，而從ImageNet學(xué)習(xí)得到的底層濾波器往往描述了各種不同的局部邊緣和紋理信息，而這些濾波器對一般的圖像有較好的普適性。(3)直接采用ImageNet上訓(xùn)練得到的模型，把最高的隱含層的輸出作為特征表達(dá)，代替常用的手工設(shè)計的特征[19, 20]。

　　人臉識別

　　深度學(xué)習(xí)在物體識別上的另一個重要突破是人臉識別。人臉識別的最大挑戰(zhàn)是如何區(qū)分由于光線、姿態(tài)和表情等因素引起的類內(nèi)變化和由于身份不同產(chǎn)生的類間變化。這兩種變化的分布是非線性的，且極為復(fù)雜，傳統(tǒng)的線性模型無法將它們有效區(qū)分開。深度學(xué)習(xí)的目的是通過多層的非線性變換得到新的特征表示。這些新特征須盡可能多地去掉類內(nèi)變化，而保留類間變化。

　　人臉識別包括人臉確認(rèn)和人臉辨識兩種任務(wù)。人臉確認(rèn)是判斷兩張人臉照片是否屬于同一個人，屬于二分類問題，隨機(jī)猜的正確率是50%。人臉辨識是將一張人臉圖像分為N個類別之一，類別是由人臉的身份定義的。這是個多分類問題，更具挑戰(zhàn)性，其難度隨著類別數(shù)的增多而增大，隨機(jī)猜的正確率是1/N。兩種任務(wù)都可以通過深度模型學(xué)習(xí)人臉的特征表達(dá)。

　　2013年，文獻(xiàn)[21]采用人臉確認(rèn)任務(wù)作為監(jiān)督信號，利用卷積網(wǎng)絡(luò)學(xué)習(xí)人臉特征，在LFW上取得了92.52%的識別率。這一結(jié)果雖然與后續(xù)的深度學(xué)習(xí)方法相比較低，但也超過了大多數(shù)非深度學(xué)習(xí)算法。由于人臉確認(rèn)是一個二分類問題，用它學(xué)習(xí)人臉特征的效率比較低，容易在訓(xùn)練集上發(fā)生過擬合。而人臉辨識是一個更具挑戰(zhàn)性的多分類問題，不容易發(fā)生過擬合，更適合通過深度模型學(xué)習(xí)人臉特征。另一方面，在人臉確認(rèn)中，每一對訓(xùn)練樣本被人工標(biāo)注成兩類中的一類，所含信息量較少。而在人臉辨識中，每個訓(xùn)練樣本都被人工標(biāo)注成N類之一，信息量大。

　　在2014年的IEEE國際計算機(jī)視覺與模式識別會議(IEEE Conference on Computer Vision and Pattern Recognition, CVPR)上，DeepID[22]和DeepFace[23] 都采用人臉辨識作為監(jiān)督信號，在LFW上分別取得了97.45%和97.35%的識別率(見表2)。他們利用卷積網(wǎng)絡(luò)預(yù)測N維標(biāo)注向量，將最高的隱含層作為人臉特征。這一層在訓(xùn)練過程中要區(qū)分大量的人臉類別(例如在DeepID中區(qū)分1000個類別的人臉)，因此包含了豐富的類間變化的信息，有很強(qiáng)的泛化能力。雖然訓(xùn)練中采用的是人臉辨識任務(wù)，但得到的特征可以應(yīng)用到人臉確認(rèn)任務(wù)中，以及識別訓(xùn)練集中是否有新人。例如，LFW上用于測試的任務(wù)是人臉確認(rèn)任務(wù)，不同于訓(xùn)練中的人臉辨識任務(wù);DeepID[21]和DeepFace[22]的訓(xùn)練集與LFW測試集的人物身份是不重合的。

　　通過人臉辨識任務(wù)學(xué)習(xí)得到的人臉特征包含較多的類內(nèi)變化。DeepID2[24]聯(lián)合使用人臉確認(rèn)和人臉辨識作為監(jiān)督信號，得到的人臉特征在保持類間變化的同時使類內(nèi)變化最小化，從而將LFW上的人臉識別率提高到99.15%。DeepID2利用Titan GPU提取一幅人臉圖像的特征只需要35毫秒，而且可以離線進(jìn)行。經(jīng)過主元分析(Principal Component Analysis, PCA)壓縮最終得到80維的特征向量，可以用于快速人臉在線比對。在后續(xù)工作中，DeepID2[8]通過擴(kuò)展網(wǎng)絡(luò)結(jié)構(gòu)，增加訓(xùn)練數(shù)據(jù)，以及在每一層都加入監(jiān)督信息，在LFW達(dá)到了99.47%的識別率。

　　一些人認(rèn)為深度學(xué)習(xí)的成功是由于用具有大量參數(shù)的復(fù)雜模型去擬合數(shù)據(jù)集，其實遠(yuǎn)非如此簡單。例如DeepID2+的成功還在于其所具有的很多重要有趣的特征[8]：它最上層的神經(jīng)元響應(yīng)是中度稀疏的，對人臉身份和各種人臉屬性具有很強(qiáng)的選擇性，對局部遮擋有很強(qiáng)的魯棒性。在以往的研究中，為了得到這些屬性，我們往往需要對模型加入各種顯示的約束。而DeepID2+通過大規(guī)模學(xué)習(xí)自動擁有了這些屬性，其背后的理論分析值得未來進(jìn)一步研究。

　　深度學(xué)習(xí)在物體檢測中的應(yīng)用

　　物體檢測是比物體識別更難的任務(wù)。一幅圖像中可能包含屬于不同類別的多個物體，物體檢測需要確定每個物體的位置和類別。2013年，ImageNet ILSVRC比賽的組織者增加了物體檢測的任務(wù)，要求在4萬張互聯(lián)網(wǎng)圖片中檢測200類物體。比賽獲勝者使用的是手動設(shè)計的特征，平均物體檢測率(mean Averaged Precision, mAP)只有22.581%。在ILSVRC 2014中，深度學(xué)習(xí)將平均物體檢測率提高到了43.933%。較有影響力的工作包括 RCNN[10]、Overfeat[25]、GoogLeNet[18]、DeepID-Net[16]、network in network[26]、VGG[27]和spatial pyramid pooling in deep CNN[28]。RCNN[10]首次提出了被廣泛采用的基于深度學(xué)習(xí)的物體檢測流程，并首先采用非深度學(xué)習(xí)方法(例如selective search[29])提出候選區(qū)域，利用深度卷積網(wǎng)絡(luò)從候選區(qū)域提取特征，然后利用支持向量機(jī)等線性分類器基于特征將區(qū)域分為物體和背景。DeepID-Net[16]進(jìn)一步完善了這一流程，使得檢測率有了大幅提升，并且對每一個環(huán)節(jié)的貢獻(xiàn)做了詳細(xì)的實驗分析。深度卷積網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計也至關(guān)重要，如果一個網(wǎng)絡(luò)結(jié)構(gòu)能夠提高圖像分類任務(wù)的準(zhǔn)確性，通常也能顯著提升物體檢測器的性能。

　　深度學(xué)習(xí)的成功還體現(xiàn)在行人檢測上。在最大的行人檢測測試集(Caltech[30])上，廣泛采用的方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征和可變形部件模型[31]的平均誤檢率是68%。目前基于深度學(xué)習(xí)檢測的最好結(jié)果是20.86%[32]。在最新的研究進(jìn)展中，很多被證明行之有效的物體檢測都用到了深度學(xué)習(xí)。例如，聯(lián)合深度學(xué)習(xí)[15]提出了形變層，對物體部件間的幾何形變進(jìn)行建模;多階段深度學(xué)習(xí)[33]可以模擬物體檢測中常用的級聯(lián)分類器;可切換深度網(wǎng)絡(luò)[34]可以表達(dá)物體各個部件的混合模型;文獻(xiàn)[35]通過遷移學(xué)習(xí)將一個深度模型行人檢測器自適應(yīng)到一個目標(biāo)場景。

　　深度學(xué)習(xí)用于視頻分析

　　深度學(xué)習(xí)在視頻分類上的應(yīng)用還處于起步階段，未來還有很多工作要做。描述視頻的靜態(tài)圖像特征可以采用從ImageNet上學(xué)習(xí)得到的深度模型，難點是如何描述動態(tài)特征。以往的視覺研究方法對動態(tài)特征的描述往往依賴于光流估計、對關(guān)鍵點的跟蹤和動態(tài)紋理。如何將這些信息體現(xiàn)在深度模型中是個難點。最直接的做法是將視頻視為三維圖像，直接應(yīng)用卷積網(wǎng)絡(luò)[36]在每一層學(xué)習(xí)三維濾波器。但是這一思路顯然沒有考慮到時間維和空間維的差異性。另外一種簡單但更加有效的思路是，通過預(yù)處理計算光流場或其他動態(tài)特征的空間場分布，作為卷積網(wǎng)絡(luò)的一個輸入通道[37~39]。也有研究工作利用深度編碼器(deep autoencoder)以非線性的方式提取動態(tài)紋理[38]。在最新的研究工作中[41]，長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)受到廣泛關(guān)注，它可以捕捉長期依賴性，對視頻中復(fù)雜的動態(tài)建模。

　　未來發(fā)展的展望

　　深度學(xué)習(xí)在圖像識別中的應(yīng)用方興未艾，未來有著巨大的發(fā)展空間。

　　在物體識別和物體檢測研究的一個趨勢是使用更大更深的網(wǎng)絡(luò)結(jié)構(gòu)。在ILSVRC 2012中，Alex Net只包含了5個卷積層和兩個全連接層。而在ILSVRC2014中， GooLeNet和 VGG 使用的網(wǎng)絡(luò)結(jié)構(gòu)都超過了20層。更深的網(wǎng)絡(luò)結(jié)構(gòu)使得反向傳播更加困難。與此同時，訓(xùn)練數(shù)據(jù)的規(guī)模也在迅速變大。這迫切需要研究新的算法和開發(fā)新的并行計算系統(tǒng)來更加有效地利用大數(shù)據(jù)訓(xùn)練更大更深的模型。

　　與圖像識別相比，深度學(xué)習(xí)在視頻分類中的應(yīng)用還遠(yuǎn)未成熟。從ImageNet 訓(xùn)練得到的圖像特征可以直接有效地應(yīng)用到各種與圖像相關(guān)的識別任務(wù)(例如圖像分類、圖像檢索、物體檢測和圖像分割等)和其他不同的圖像測試集中，具有良好的泛化性能。但是深度學(xué)習(xí)至今還沒有得到類似的可用于視頻分析的特征。要達(dá)到這個目的，不但要建立大規(guī)模的訓(xùn)練數(shù)據(jù)集(文獻(xiàn)[42]最新建立了包含100萬個YouTube視頻的數(shù)據(jù)庫)，還需要研究適用于視頻分析的新的深度模型。訓(xùn)練用于視頻分析的深度模型的計算量也會大大增加。

　　在與圖像和視頻相關(guān)的應(yīng)用中，深度模型的輸出預(yù)測(例如分割圖或物體檢測框)往往具有空間和時間上的相關(guān)性。因此研究具有結(jié)構(gòu)性輸出的深度模型也是一個重點。

　　雖然神經(jīng)網(wǎng)絡(luò)的目的在于解決一般意義上的機(jī)器學(xué)習(xí)問題，但領(lǐng)域知識對深度模型的設(shè)計也起著重要的作用。在與圖像和視頻相關(guān)的應(yīng)用中，最成功的是深度卷積網(wǎng)絡(luò)，其設(shè)計正是利用了圖像的特殊結(jié)構(gòu)。其中最重要的兩個操作——卷積和池化都來自與圖像相關(guān)的領(lǐng)域知識。如何通過研究領(lǐng)域知識，在深度模型中引入新的有效的操作和層，對于提高圖像和視頻識別的性能有著重要意義。例如，池化層帶來了局部的平移不變性，文獻(xiàn)[16]中提出的形變池化層在此基礎(chǔ)上更好地描述了物體各個部分的幾何形變。在未來研究中，可以將其進(jìn)一步擴(kuò)展，從而取得旋轉(zhuǎn)不變性、尺度不變性和對遮擋的魯棒性。

　　通過研究深度模型和傳統(tǒng)計算機(jī)視覺系統(tǒng)之間的關(guān)系，不但可以幫助我們理解深度學(xué)習(xí)成功的原因，還可以啟發(fā)新的模型和訓(xùn)練方法。聯(lián)合深度學(xué)習(xí)[15]和多階段深度學(xué)習(xí)[33]未來還有更多的工作要做。

　　雖然深度學(xué)習(xí)在實踐中取得了巨大成功，而且通過大數(shù)據(jù)訓(xùn)練得到的深度模型體現(xiàn)出的特性(例如稀疏性、選擇性和對遮擋的魯棒性[8])引人注目，但其背后的理論分析還有許多工作需要完成。例如，何時收斂?如何取得較好的局部極小點?每一層變換取得了哪些對識別有益的不變性，又損失了哪些信息?最近馬拉特(Mallat)利用小波對深層網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了量化分析[43]，這是在此方向上的重要探索。

　　結(jié)語

　　深度模型并非黑盒子，它與傳統(tǒng)的計算機(jī)視覺系統(tǒng)有著密切的聯(lián)系，神經(jīng)網(wǎng)絡(luò)的各個層通過聯(lián)合學(xué)習(xí)、整體優(yōu)化，使得性能得到大幅提升。與圖像識別相關(guān)的各種應(yīng)用也在推動深度學(xué)習(xí)在網(wǎng)絡(luò)結(jié)構(gòu)、層的設(shè)計和訓(xùn)練方法各個方面的快速發(fā)展?？梢灶A(yù)見在未來數(shù)年內(nèi)，深度學(xué)習(xí)將會在理論、算法和應(yīng)用各方面進(jìn)入高速發(fā)展時期。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 圖像識別中 深度學(xué)習(xí)

評論

相關(guān)推薦

TFLite模型的開盲盒體驗

嵌入式系統(tǒng) TFLite 模型推理庫深度學(xué)習(xí) | 2024-05-10

一種改進(jìn)的可遷移深度學(xué)習(xí)模型*

智能計算 202210 可遷移深度學(xué)習(xí) 無標(biāo)簽 | 2022-10-25

基于深度學(xué)習(xí)的跌倒檢測技術(shù)對比與分析*

智能計算深度學(xué)習(xí) 跌倒檢測卷積神經(jīng)網(wǎng)絡(luò) 長短期記憶網(wǎng)絡(luò) 202212 | 2022-12-22

射頻系統(tǒng)的深度學(xué)習(xí)

資源下載 ADI RF DSP 深度學(xué)習(xí) | 2020-04-20

深度強(qiáng)化學(xué)習(xí)核心技術(shù)開發(fā)與應(yīng)用

szhlss123 | 2022-08-10

深度學(xué)習(xí)模型的云邊協(xié)同訓(xùn)練和部署*

智能計算云邊協(xié)同深度學(xué)習(xí) 服務(wù)器部署 202212 | 2022-12-22

基于深度學(xué)習(xí)的智能電網(wǎng)短期日負(fù)荷曲線預(yù)測系統(tǒng)設(shè)計與實現(xiàn)

智能計算 202302 深度學(xué)習(xí) 短期負(fù)荷預(yù)測卷積神經(jīng)網(wǎng)絡(luò) 長短期記憶網(wǎng)格 Flask | 2023-02-27

直覺有害！Facbook最新研究：易于解釋的神經(jīng)元會誤導(dǎo)DNN的學(xué)習(xí)

智能計算 DNN 深度神經(jīng)網(wǎng)絡(luò) 深度學(xué)習(xí) | 2022-07-05

Deep Learning中文版

資源下載深度學(xué)習(xí) 中文 | 2019-06-11

AI深度學(xué)習(xí)

loof_lripa | 2024-04-20

什么是人機(jī)交互技術(shù)？

龍騰AI技術(shù) | 2022-11-02

為什么深度學(xué)習(xí)如此容易被愚弄？AI研究員正努力修復(fù)神經(jīng)網(wǎng)絡(luò)缺陷

智能計算 DNN 深度神經(jīng)網(wǎng)絡(luò) 深度學(xué)習(xí) | 2022-07-05

深度學(xué)習(xí)（人工神經(jīng)網(wǎng)絡(luò)的研究的概念）

大綠葉 | 2020-07-28

視覺慣性導(dǎo)航融合算法研究進(jìn)展

物聯(lián)網(wǎng)與傳感器 202302 視覺慣性導(dǎo)航優(yōu)化耦合算法深度學(xué)習(xí) | 2023-02-21

基于圖結(jié)構(gòu)的圖像注意力網(wǎng)絡(luò)

智能計算 202207 深度學(xué)習(xí) 注意力機(jī)制圖像分類人臉識別 | 2022-07-26

Firefly DL小巧輕便，嵌入式深度學(xué)習(xí)加速部署

智能計算 Firefly DL 深度學(xué)習(xí) 人工智能 | 2023-12-22

深度學(xué)習(xí)（DeepLearning）

szhlss123 | 2022-08-17

焦點

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();