基于圖結(jié)構(gòu)的圖像注意力網(wǎng)絡(luò)
摘要:雖然現(xiàn)已有許多關(guān)于圖像注意力機(jī)制的研究,但是現(xiàn)有的方法往往忽視了特征圖的全局空間結(jié)構(gòu)和空間注意力與通道注意力的聯(lián)系。所以本文提出了一種基于整個(gè)空間拓?fù)浣Y(jié)構(gòu)的注意機(jī)制,將特征圖映射成結(jié)點(diǎn)與特征的形式,再借助圖卷積網(wǎng)絡(luò)的特性,得以從整個(gè)空間學(xué)習(xí)特征權(quán)重圖。其次空間注意力與通道注意力一體化結(jié)構(gòu)能夠更有效地學(xué)習(xí)特征權(quán)重。通過(guò)多個(gè)實(shí)驗(yàn)測(cè)試表明,在圖像分類和人臉識(shí)別任務(wù)中,展現(xiàn)了優(yōu)異的性能和普遍適用性。
本文引用地址:http://www.ex-cimer.com/article/202207/436663.htm關(guān)鍵詞:深度學(xué)習(xí);注意力機(jī)制;圖像分類;人臉識(shí)別
隨著計(jì)算機(jī)性能的提升,卷積神經(jīng)網(wǎng)絡(luò) (convolu tional neural network, CNN) 廣泛地運(yùn)用于圖像領(lǐng)域。經(jīng)過(guò)多年的研究,基于卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)取得了重大的成功。HE 等提出了殘差網(wǎng)絡(luò),可以跳層連接的殘差單元有效地解決梯度消失與梯度爆炸問(wèn)題,使得網(wǎng)絡(luò)的深度成倍增長(zhǎng),進(jìn)而圖像注意力機(jī)制逐漸受到關(guān) 注。WANG 等使用編碼器 - 解碼器的結(jié)構(gòu)對(duì)殘差網(wǎng)絡(luò)進(jìn)行了注意力機(jī)制的改造得到殘差注意力網(wǎng)絡(luò) (residual attention network, RAN)。HU 等使用通道注意和通道特征融合來(lái)抑制不重要通道的方式構(gòu)建了縮聚激發(fā)網(wǎng)絡(luò) (squeeze-and-excitation networks, SENet)。PARK 等構(gòu)建了瓶頸注意模塊 (bottleneck attention module, BAM),該模塊依次使用通道注意力網(wǎng)絡(luò)和空間注意力網(wǎng)絡(luò)推理注意力圖。FUKUI 等構(gòu)建了復(fù)雜的注意力分支結(jié)構(gòu)網(wǎng)絡(luò) (attention branch network, ABN), 引入具有注意力機(jī)制的分支結(jié)構(gòu)來(lái)擴(kuò)展基于響應(yīng)的視覺(jué)解釋模型。MISRA 等考慮了通道 - 空間相互作用,基于三個(gè)維度兩兩相關(guān)性構(gòu)建注意力網(wǎng)絡(luò) TAM (triplet attention module)。
雖然現(xiàn)已提出的許多注意都從通道注意力和空間注意力兩方面來(lái)設(shè)計(jì)模型,但是其空間結(jié)構(gòu)的尺度取決于卷積核的大小,而且沒(méi)有從圖像整體出發(fā)分析空間特性并忽視了通道與空間的關(guān)聯(lián)性。在研究中發(fā)現(xiàn),圖卷積網(wǎng)絡(luò) (graph convolution network, GCN) 能夠充分地使用這些特性學(xué)習(xí)特征圖。因此本文基于圖卷積網(wǎng)絡(luò)提出了圖結(jié)構(gòu)注意力網(wǎng)絡(luò) (graph structure attention network, GSAN),該模型既考慮了通道與空間的關(guān)聯(lián)性也考慮了圖像整個(gè)拓?fù)浣Y(jié)構(gòu)。
1 圖結(jié)構(gòu)注意力網(wǎng)絡(luò)
在已有的研究表明,圖卷積網(wǎng)絡(luò)本身充分考慮了通道的影響并且在解決非歐幾里得數(shù)據(jù)展現(xiàn)了強(qiáng)大的性能。我們利用這些特性設(shè)計(jì)了一個(gè)通道注意力與空間注意力一體化的注意力網(wǎng)絡(luò)模型,而不用像其他注意力網(wǎng)絡(luò)模型一樣分別設(shè)計(jì)通道注意力分支和空間注意力分支。在模型中我們?cè)O(shè)計(jì)了一套由圖像到圖的數(shù)據(jù)映射關(guān)系,使得輸入特征與圖卷積網(wǎng)絡(luò)的輸入相匹配,并以圖 卷積網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建了圖結(jié)構(gòu)注意力網(wǎng)絡(luò)。在研究中表明,本文所設(shè)計(jì)注意力模型分類性能與卷積層數(shù)有關(guān),所以本文設(shè)計(jì)的卷積層數(shù)可調(diào)的注意力網(wǎng)絡(luò),以下內(nèi)容均以兩層卷積層的網(wǎng)絡(luò)為例說(shuō)明。
2 圖與圖卷積網(wǎng)絡(luò)
卷積網(wǎng)絡(luò)的卷積,本質(zhì)上利用濾波器對(duì)矩陣空間的某個(gè)區(qū)域內(nèi)的像素點(diǎn)進(jìn)行加權(quán)求和,進(jìn)而求得新的特征表示的過(guò)程。許多沒(méi)有明確規(guī)律的非歐幾里得數(shù)據(jù)并不適用于卷積網(wǎng)絡(luò),而圖卷積的誕生者很好的解決這一問(wèn)題。在已往的研究中,圖卷積網(wǎng)絡(luò)在具有拓?fù)浣Y(jié)構(gòu)的數(shù)據(jù)上表現(xiàn)出了強(qiáng)大的分類性能,其依賴不變的鄰接矩陣對(duì)輸入的結(jié)點(diǎn)特征學(xué)習(xí),如圖 3 所示。
圖3 圖卷積網(wǎng)絡(luò)
本文所搭建的圖結(jié)構(gòu)注意力網(wǎng)絡(luò)使用的圖卷積網(wǎng)絡(luò)模型如式 (1) 和式 (2) 所示。
3 圖結(jié)構(gòu)注意力網(wǎng)絡(luò)算法
圖4 圖結(jié)構(gòu)注意力網(wǎng)絡(luò)模型
圖結(jié)構(gòu)注意力網(wǎng)絡(luò)如圖 4 所示,該注意力網(wǎng)絡(luò)流程主要分成以下幾個(gè)。
步驟 1:對(duì)上一層網(wǎng)絡(luò)得到的輸出特征圖進(jìn)行正則化 (Norm) 處理,并利用平均池化 (AvgPool) 操作將三個(gè)維度(C×H×W)的特征圖壓縮成兩個(gè)維度(C×H)。
步驟 2:對(duì)步驟 1 得到的向量組重新排列,得到特征矩陣。此外,對(duì)平均池化后得到的向量建立一維的歐式空間,計(jì)算兩點(diǎn)之間的歐氏距離,將其倒數(shù)作為結(jié)點(diǎn)之間連接的緊密程度,我們將其稱為弱連接,如等式 3 和等式 4 所示。經(jīng)過(guò)弱連接的映射后,將歐氏空間數(shù)據(jù)結(jié)構(gòu)映射成了滿足圖卷積輸入的拓?fù)浣Y(jié)構(gòu)數(shù)據(jù)。最后經(jīng)過(guò)正則化后,得到概率描述的邊,進(jìn)而得到鄰接矩陣。
步驟 3:將特征矩陣與正則化后的鄰接矩陣輸入多層的圖卷積網(wǎng)絡(luò) (GCN),并設(shè)定一個(gè)減少系數(shù) r,該系數(shù)為在中間層中減少通道數(shù)的系數(shù)。最后經(jīng)過(guò)激活函數(shù)并恢復(fù)維度對(duì)原特征圖進(jìn)行加權(quán)求解得到重新分配權(quán)重后的特征圖。
4 實(shí)驗(yàn)結(jié)果與分析
4.1 實(shí)驗(yàn)平臺(tái)
實(shí)驗(yàn)環(huán)境為 Ubuntu18.04 操作系統(tǒng),AMD3600x 處 理器,RTX2070SUPER 顯卡,Pytorch 框架。本文所有實(shí)驗(yàn)均使用上述平臺(tái)。
4.1.1 圖像分類實(shí)驗(yàn)
在該實(shí)驗(yàn)中我們?cè)?CIFARr100 數(shù)據(jù)集對(duì)模型進(jìn)行 Rank-1 準(zhǔn)確度評(píng)估。我們?cè)诓煌W(wǎng)絡(luò)模型上測(cè)試了 SENet、BAM、TAM 性能。分別設(shè)置了一項(xiàng)基準(zhǔn)測(cè)試實(shí)驗(yàn)和一項(xiàng)消融實(shí)驗(yàn)。
CIFAR100 數(shù)據(jù)集:該數(shù)據(jù)集有 100 個(gè)類。每個(gè)類 有 600 張大小為 32×32 的彩色圖像,在模型訓(xùn)練過(guò)程中將其中 500 張作為訓(xùn)練集,100 張作為測(cè)試集。對(duì)于每一張圖像,它有兩個(gè)標(biāo)簽分別代表圖像的細(xì)粒度和粗粒度標(biāo)簽。
參數(shù)設(shè)置:使用 SGD 優(yōu)化器(lr = 0.1,momentum = 0.9,weight_decay = 5e-4)和 Cross Entropy Loss 損失函數(shù)。學(xué)習(xí)率調(diào)整策略為迭代 200 次并在 60、120, 160 次迭代調(diào)整學(xué)習(xí)率為原來(lái)的 0.1 倍。為了確定圖卷積的層數(shù)對(duì) GSAN 的影響,我們?cè)O(shè)計(jì)了一組不同層數(shù)的對(duì)比實(shí)驗(yàn)。如表 1 所示,較低復(fù)雜度的 GSAN 更有利于避免過(guò)擬合。
為了測(cè)試本文的注意力網(wǎng)絡(luò)性能與普遍適用性,我們?cè)?MobileNetV2、ResNet18 和 ResNet50 上均做了不同注意力模型的對(duì)比試驗(yàn)。如表 2 所示,在 MobileNetV2 和 ResNet18 上相較于其它方法達(dá)到了最好的效果,在 ResNet50 上稍差于 BAM。
4.1.2 人臉?lè)诸悓?shí)驗(yàn)
在該實(shí)驗(yàn)中我們使用余弦相似度計(jì)算準(zhǔn)確率的策略。在 CASIA-WebFace 數(shù)據(jù)集上訓(xùn)練模型,并在 LFW 數(shù)據(jù)集和 CFP-FP 數(shù)據(jù)集上進(jìn)行人臉識(shí)別測(cè)試。
CASIA-WebFace 數(shù)據(jù)集:CASIA-WebFace 數(shù)據(jù)集是經(jīng)過(guò)數(shù)據(jù)清洗的數(shù)據(jù)集,所以含有噪聲的圖像較少,常作為訓(xùn)練集使用。數(shù)據(jù)集有 10 575 個(gè)人的 494 414 張人臉圖像。
LFW 數(shù)據(jù)集:圖像源于生活中的自然場(chǎng)景,所以圖像受到表情、光照、多姿態(tài)、遮擋、年齡等因素影響而差異極大。數(shù)據(jù)集有 5 749 個(gè)人的 13 233 張人臉圖像。
CFP-FP 數(shù)據(jù)集:數(shù)據(jù)集對(duì)于每個(gè)人有 10 張正面圖像和 4 張側(cè)面圖像。CFP-FP 數(shù)據(jù)集有 500 個(gè)人的 7 000 張人臉圖像。
參數(shù)設(shè)置:使用 SGD 優(yōu)化器(lr = 0.1,momentum = 0.9,weight_decay = 5e-4)和 ArcFace[16] 損失函數(shù)。
學(xué)習(xí)率調(diào)整策略為迭代 18 次并在 6、11、16 次迭代調(diào) 整學(xué)習(xí)率為原來(lái)的 0.1 倍。
由于 ArcFace 損失函數(shù)的不同縮放系數(shù) s 會(huì)極大的影響實(shí)驗(yàn)結(jié)果的準(zhǔn)確率,因此我們先通過(guò) ResNet50-IR 模型來(lái)確定準(zhǔn)確率最高 s,如表 3 所示。
經(jīng)過(guò)縮放系數(shù)的對(duì)比實(shí)驗(yàn)可以看出 ResNet50-IR 模型在 s 為 33 的時(shí)候準(zhǔn)確率達(dá)到最大值,因此在其他實(shí)驗(yàn)中將縮放系數(shù) s 固定為 33 進(jìn)行訓(xùn)練和測(cè)試。實(shí)驗(yàn)結(jié)果如表 4 和表 5 所示,在 ResNet50-IR 上,當(dāng)圖卷積層 為 2 時(shí)達(dá)到最好的效果,并且性能優(yōu)于其他注意力模塊。
5 結(jié)語(yǔ)
本文提出一種圖結(jié)構(gòu)注意力網(wǎng)絡(luò),該方法壓縮寬度維度并有效地結(jié)合空間拓?fù)浣Y(jié)構(gòu)和通道注意力。通過(guò)映射成拓?fù)浣Y(jié)構(gòu)的方式學(xué)習(xí)空間注意力,有效地解決現(xiàn)有注意力感受野受限于卷積核大小的問(wèn)題和卷積核過(guò)大導(dǎo)致性能下降的問(wèn)題,并且更好地學(xué)習(xí)全局信息。實(shí)驗(yàn)結(jié)果表明,本文注意力網(wǎng)絡(luò)在圖像分類和人臉識(shí)別任務(wù)中均展現(xiàn)了優(yōu)異的性能與普遍適用性。
參考文獻(xiàn):
[1] HE K, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[2] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]. In Proceedings of the IEEE Conference on Computer vision and Pattern Recognition. 2015: 3431–3440.
[3] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[C]. In Advances in Neural Information Processing Systems. 2012:1097–1105.
[4] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. arXiv preprint arXiv.2014:1409,1556.
[5] WANG F, JIANG M Q, QIAN C, et al. Residual attention network for image classification[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017:3156–3164.
[6] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2018:7132–7141.
[7] PARK J, WOO S, LEE J Y, et al. Bam: Bottleneck attention module[C]. arXiv preprint 2018.
[8] FUKUI H, HIRAKAWA T, YAMASHITA T, et al. Attention branch network: Learning of attention mechanism for visual explanation [C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:10705–10714.
[9] MISRA D, NALAMADA T, ARASANIPALAI A U, et al. Rotate to attend: Convolutional triplet attention module[C]. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision.2021: 3139–3148.
[10] SANDLER M, HOWARD A, ZHU M L, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018:4510–4520.
[11] HAN, DONGYOON, KIM J, et al. Deep pyramidal residual networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017: 6307-6315.
[12] KRIZHEVSKY A. Learning multiple layers of features from tiny images[C]. 2009.
[13] YI, DONG, LEI Z, et al. Learning face representation from scratch[C]. arXiv preprint 2014.
[14] HUANG G, MATTAR M, BERG T, et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[C]. 2008.
[15] SENGUPTA S, CHEN J C, CASTILLO C, et al. Frontal to profile face verification in the wild[C]. In Proceedings of the IEEE Conference on Winter Conference on Applications of Computer Vision.2016:1-9.
[16] DENG, KANG J, GUO J et al. ArcFace: Additive angular margin loss for deep face recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2019:4685-4694.
[17] N T, KIPF, MAX, et al. Semi-supervised classification with graph convolutional networks[C]. In Proceedings of the 5th International Conference on Learning Representations.2017.
[18] NIU Z Y, ZHONG G Q, and YU H. A review on the attention mechanism of deep learning[J]. Neuro computing.2017(452): 48-62.
(注:本文轉(zhuǎn)載自《電子產(chǎn)品世界》2022年7月期)
評(píng)論