<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 設(shè)計(jì)應(yīng)用 > 噪聲背景下環(huán)境聲音識(shí)別研究

噪聲背景下環(huán)境聲音識(shí)別研究

作者：曾金芳,白冰,徐林濤時(shí)間：2019-08-28 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

收藏

　　曾金芳，白冰，徐林濤(湘潭大學(xué)物理與光電工程學(xué)院，湖南?湘潭?411105)

本文引用地址：http://www.ex-cimer.com/article/201908/404222.htm

　　摘?要：針對(duì)低信噪比下的環(huán)境聲音識(shí)別效果不佳的情況，提出一種不同信噪比背景下的環(huán)境聲音識(shí)別方法。

　　以伽瑪通(Gammatone)變換的譜圖為對(duì)象提取特征，生成灰度頻譜圖后映射成3種單色圖，分別提取各單色圖的扇形投影特征，在對(duì)得到的各方向的投影特征進(jìn)行離散小波變換得到特征矩陣，并結(jié)合改進(jìn)的最小均方誤差(IMMSE)聲音增強(qiáng)算法作為前端處理以減小噪聲干擾，最后，利用支持向量機(jī)對(duì)帶噪聲音進(jìn)行分類識(shí)別。實(shí)驗(yàn)結(jié)果表明：在-5dB的低噪背景下仍能取得較高識(shí)別率。

　　關(guān)鍵詞：最小均方誤差；聲音識(shí)別；聲音增強(qiáng)；譜圖特征；扇形投影；支持向量機(jī)

　　*基金項(xiàng)目：湖南省自然科學(xué)基金（2018JJ3486）；湘潭大學(xué)校級(jí)科研項(xiàng)目(16XZX02)；湘潭大學(xué)博士啟動(dòng)基金項(xiàng)目(15QDZ28)

　　0 引言

　　聲音信號(hào)與人類的生活密切相關(guān)，聲音信號(hào)不受光線和視野影響并且需要的存儲(chǔ)空間及處理難度低于視頻信號(hào)，通過對(duì)環(huán)境聲音信號(hào)進(jìn)行識(shí)別可以獲取豐富的信息，公共場(chǎng)所的聲音事件識(shí)別可以有效地揭示該環(huán)境下的事件狀況，可以彌補(bǔ)光線不足、受遮擋情況下的監(jiān)控效果，聲音識(shí)別技術(shù)廣泛應(yīng)用于安全監(jiān)控、聲音事件跟蹤定位等領(lǐng)域，提取魯棒性較好的聲音特征 ^[1]，有利于聲音識(shí)別技術(shù)在現(xiàn)實(shí)環(huán)境中的適用性，所以背景噪聲下的聲音識(shí)別研究具有較高的實(shí)用價(jià)值。

　　在聲音識(shí)別過程中，提取合適的特征向量對(duì)識(shí)別效果起關(guān)鍵的作用，聲音識(shí)別的大多數(shù)的特征提取方法來源于語音識(shí)別^[2]，常用的提取方法有Mel頻率倒譜參數(shù)(MFCC)、短時(shí)能量、線性預(yù)測(cè)倒譜系數(shù)(LPCC) ^[3]等。近期的環(huán)境聲音識(shí)別的研究主要有利用匹配追蹤（MP）算法獲得有效的時(shí)頻特征，在MFCC特征的基礎(chǔ)上利用原子字典進(jìn)行特征選擇，產(chǎn)生靈活、直觀的特征向量然后用支持向量機(jī)(SVM)進(jìn)行分類識(shí)別 ^[4] 。以上方法雖然簡(jiǎn)單有效，但真實(shí)的環(huán)境中存在各種背景噪聲導(dǎo)致其識(shí)別效果明顯變差。Dennis等提出子帶功率分布(SPD)的特征提取來進(jìn)行聲音事件分類 ^[5]，在聲譜圖的基礎(chǔ)上提出子帶能量分布對(duì)聲音事件和噪聲進(jìn)行區(qū)分，利用圖像處理的方法進(jìn)行偽著色處理提取譜圖的中心矩特征 ^[5]，該方法在背景噪聲下的識(shí)別具有一定有效性但在信噪比較低的情況下的識(shí)別效果有待提高。

　　現(xiàn)實(shí)環(huán)境中普遍存在著各種背景噪聲，在前端處理中采用聲音增強(qiáng)算法能改善識(shí)別效果，本文提出聲譜圖的扇形投影特征(Spectrogram Fan projection，SFP)算法。首先將環(huán)境聲音信號(hào)轉(zhuǎn)化為聲譜圖，然后將得到的聲譜圖進(jìn)行扇形投影變換，得到各方向的投影系數(shù)組成特征向量，最后利用SVM分類器對(duì)特征向量進(jìn)行分類識(shí)別。對(duì)于帶噪聲信號(hào)，提出改進(jìn)的最小均方誤差估計(jì)(IMMSE)算法作為前端處理來達(dá)到聲信號(hào)的去噪效果。

　　1 聲音增強(qiáng)算法

　　1.1 改進(jìn)的logM M SE算法

　　考慮到環(huán)境聲音噪聲是非平穩(wěn)的，傳統(tǒng)的對(duì)數(shù)譜最小均方誤差(Log-spectral AmplitudeMMSE,LSA-MMSE)能有針對(duì)性的減小噪聲，其關(guān)鍵在于能否準(zhǔn)確地估計(jì)先驗(yàn)信噪比，本文采用改進(jìn)的最小遞歸平均算法來估計(jì)噪聲方差，結(jié)合logMMSE來達(dá)到聲音增強(qiáng)效果，實(shí)驗(yàn)證明該方法對(duì)聲音增強(qiáng)和消除“音樂噪聲”有較好的效果。

　　建立加性噪聲模型，設(shè)帶噪聲信號(hào)為：

微信截圖_20190909144209.png

　　式中，y(n)表示帶噪聲信號(hào)； x(n) 表示無噪聲信號(hào)；d(n) 表示噪聲信號(hào)；該算法從帶噪聲信號(hào) y(n) 中估計(jì)出無噪聲信號(hào) x(n) 。純凈信號(hào)經(jīng)短時(shí)傅里葉變換得到第k個(gè)頻譜分量：Ak和Y(k) 。

　　由文獻(xiàn)[6]中信號(hào)的估計(jì)可表示為帶噪信號(hào)與增益函數(shù)的乘積：

　　式中， λx(k) 、 λd(k) 分別表示無噪信號(hào)和噪聲信號(hào)的第k個(gè)頻譜分量的方差； ξ k 、 γ k 分別表示先驗(yàn)信噪比和后驗(yàn)信噪比，先驗(yàn)信噪比是第k個(gè)頻譜分量的實(shí)際信噪比，后驗(yàn)信噪比是加入噪聲后第k個(gè)頻譜分量所測(cè)得的信噪比。

　　1.2 IM M SE算法的實(shí)現(xiàn)

　　本文利用改進(jìn)的最小值約束的遞歸平均（IMCRA）算法估計(jì)噪聲方差。該算法利用平滑參數(shù)對(duì)噪聲方差進(jìn)行連續(xù)估計(jì)，平滑參數(shù)是時(shí)變參數(shù)，該算法是聲信號(hào)中聲音存在的概率的遞歸平均算法。聲音不存在： H ₀^k 和聲音存在：H ₁^k 的噪聲估計(jì)表示為：

　　式中，i、k分別表示幀數(shù)和頻點(diǎn)數(shù)，根據(jù)遞歸算法的通用形式^[7]，可將噪聲估計(jì)表示為：

微信截圖_20190909150201.png

　　式(6)中的噪聲估計(jì)表示為前一幀的噪聲估計(jì)與當(dāng)前帶噪頻譜的加權(quán)平均，式中， αd(i,k)=α+(1-α)p^(i,k)，表示時(shí)頻相關(guān)的平滑因子，利用存在聲音的條件概率 p∧( i,k ) 來計(jì)算平滑因子，存在聲音的條件概率p(i,k) 利用聲信號(hào)功率譜與其局部最小值之比S_r (i,k) 作為閾值判斷，根據(jù)遞歸算法的通用形式同理可得聲信號(hào)的遞歸功率譜S(i ,k) 如下：

微信截圖_20190909150226.png

　　聲音存在概率的估計(jì)利用時(shí)域平滑遞歸求得：

微信截圖_20190909150245.png

　　因?yàn)樗÷曇魳颖绢l率分布范圍較廣，故采用多閾值函數(shù) δ ( k ) 采用頻率相關(guān)函數(shù)來表示：

微信截圖_20190909150301.png

　　式中，fs為采樣頻率。結(jié)合公式所求得平滑因子α _d ( i,k ) ，利用式(6)，即可更新噪聲功率譜估計(jì)，得到更新的噪聲功率譜估計(jì)后，利用式(3)可求得增益函數(shù)，以此估計(jì)純凈聲信號(hào)。

　　將提出的 I M M S E 增強(qiáng) 算法與多頻帶譜減法(Multiband Spectral Subtraction,MSS)對(duì)比，各增強(qiáng)算法的時(shí)域波形圖如圖1所示。其中橫縱坐標(biāo)分別表示信號(hào)采樣點(diǎn)數(shù)和幅值。圖1可了解IMMSE算法去噪效果較好。

微信截圖_20190909150813.jpg

　　為進(jìn)一步檢驗(yàn)不同增強(qiáng)算法的去噪效果，對(duì)各增強(qiáng)算法檢測(cè)其輸出信噪比，根據(jù)檢測(cè)帶噪聲音信號(hào)的指標(biāo)定義：

微信截圖_20190909150326.png

　　式中，計(jì)算出SNR的值越大，表示聲音的質(zhì)量越高，去噪效果越好，各增強(qiáng)算法的輸出信噪比如表1所示。

微信截圖_20190909150822.jpg

　　2 特征提取

　　2.1 提取子帶能量譜圖

　　聲譜圖相比于傳統(tǒng)的時(shí)域特征能表征更加豐富的聲音信息，采用聲譜圖作為特征能同時(shí)分析聲音的時(shí)域和頻域特征，本文采用SPD譜圖并對(duì)其進(jìn)行增強(qiáng)改進(jìn)，使聲音的功率譜分布更明顯。采用 Gammatone濾波器組生成的聲譜圖作為時(shí)頻分析。參數(shù)設(shè)置為：100組中心頻率為50 Hz到fs/2 Hz。將SPD歸一化到對(duì)數(shù)域，表達(dá)式為：

微信截圖_20190909150348.png

　　對(duì)數(shù)域的功率譜壓縮了譜圖的動(dòng)態(tài)范圍，以增強(qiáng)SPD中的頻譜功率較高的像素點(diǎn)。譜圖G(t,f)中像素點(diǎn)值的范圍是固定的，SPD可表示為：

微信截圖_20190909150445.png

　　式中，b表示頻譜功率；f表示頻率；t表示樣本的時(shí)間；實(shí)驗(yàn)中取b的值為100，1 _b 表示指示函數(shù)，基于“鍵盤敲擊聲”的SPD如圖2所示。

微信截圖_20190909150834.jpg

　　2.2 扇形投影特征

　　扇形投影^[7] 特用于檢測(cè)物體圖像內(nèi)部構(gòu)造，計(jì)算圖像沿指定方向由一點(diǎn)發(fā)出點(diǎn)光束，發(fā)散成一個(gè)扇形區(qū)域的投影變換，投影變換是圖像沿x-y平面中指定方向的線積分。譜圖H(b,f)的扇形投影變換的原理如下：

微信截圖_20190909150556.png

　　式中，g (ρ,θ) 表示經(jīng)過扇形投影變換后重構(gòu)的圖像。

　　對(duì)每個(gè)聲音樣本的譜圖H(b,f)進(jìn)行扇形投影變換，角度 α 表示扇形投影的旋轉(zhuǎn)角度，取值范圍為[0,360]，規(guī)定旋轉(zhuǎn)角度從x軸按逆時(shí)針的方向旋轉(zhuǎn)每個(gè)角度的投影能將圖像轉(zhuǎn)換成一維的投影系數(shù)，圖像各方向的投影系數(shù)組成的特征矩陣保留了圖像的信息的同時(shí)降低了圖像的參數(shù)大小，能夠提高識(shí)別效率。

　　3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

　　3.1 聲音數(shù)據(jù)集

　　實(shí)驗(yàn)采用16類環(huán)境聲音(鍵盤打字聲、腳步聲、鋸子聲等)，為確保實(shí)驗(yàn)數(shù)據(jù)的獨(dú)立性，同類聲音取自不同聲音片段，一類包括20個(gè)樣本，總共320個(gè)樣本，具有較高信噪比，實(shí)驗(yàn)將其作為純凈聲音樣本，聲音樣本均來自于Freesound^[16] 聲音數(shù)據(jù)庫，樣本采樣率為44.1kHz，量化精度為16 bit，單個(gè)樣本長(zhǎng)度2~3 s。實(shí)驗(yàn)中，隨機(jī)選取每類樣本的一半作為訓(xùn)練樣本，另一半作為測(cè)試樣本，按照信噪比20 dB、10 dB、0 dB、-5 dB作為測(cè)試。

　　3.2 實(shí)驗(yàn)參數(shù)

　　聲音樣本的預(yù)處理環(huán)節(jié)，對(duì)各聲音樣本分幀加窗處理，取幀長(zhǎng)20 ms、幀移10 ms、窗函數(shù)采用漢明窗。

　　1)本文提出的SFP算法，扇形投影的旋轉(zhuǎn)角度，在[0，360]中以15°為步長(zhǎng)，取24個(gè)方向的投影變換。

　　2) MFCC算法，采用32組Mel濾波器組，每一幀提取13個(gè)倒譜系數(shù)構(gòu)成MFCC特征。

　　3)對(duì)于SPD^[5] 算法，采用64組Gammatone濾波器，提取2、3階中心矩。

　　4)正交匹配追蹤(OMP) ^[7] 算法，對(duì)聲音信號(hào)進(jìn)行稀疏重構(gòu)，信號(hào)重構(gòu)后提取MFCC特征，組成OMP的復(fù)合特征。

　　5)采用支持向量機(jī)(SVM)作為分類器，采用多分類的方式建立分類器。

　　3.3 實(shí)驗(yàn)結(jié)果與分析

　　將SFP與SPD、MFCC、OMP、幾種常用的聲音識(shí)別算法進(jìn)行實(shí)驗(yàn)對(duì)比。4種聲音識(shí)別算法在不同噪聲背景下的識(shí)別率如表2所示。純凈背景下，識(shí)別率如表3所示。本文的SFP算法在4種噪聲下有較高識(shí)別率，特別是信噪比為-5 dB和0 dB的低噪條件下，在-5 dB的噪聲情況下，最高比SPD算法高17.51%，平均識(shí)別率最高高出7.9%，比OMP和MFCC高出27.63%以上，平均識(shí)別率如圖3所示。雖然文章算法在信噪比較高條件下的提升較少，但在低信噪比下相比其他算法能取得較高識(shí)別率。

　　將提出的IMMSE增強(qiáng)算法與其他常用的聲音增強(qiáng)算法進(jìn)行比較，在4種不同的背景噪聲的低噪條件下，信噪比分別取-5 dB、0 dB、5 dB、10 dB。

微信截圖_20190909150909.jpg

　　如圖6所示為0dB的說話噪聲背景下不同聲音增強(qiáng)算法識(shí)別率。噪聲條件下，本文的IMMSE的識(shí)別率高于其他增強(qiáng)算法，在-5dB和0 dB的低信噪比條件下不增強(qiáng)方法的識(shí)別率比增強(qiáng)后的識(shí)別率低，所以低信噪比條件下采用增強(qiáng)算法是可行的，說明SFP算法本身具有較好的抗噪性，實(shí)驗(yàn)證明SFP算法結(jié)合IMMSE增強(qiáng)算法在各種背景噪聲下能取得較好的識(shí)別效果，適用于真實(shí)環(huán)境下的聲音識(shí)別。

微信截圖_20190909150917.jpg

　　4 結(jié)論

　　針對(duì)真實(shí)環(huán)境的低噪條件下的聲音識(shí)別，提出SFP算法，將譜圖的扇形投影作為特征提取方法結(jié)合IMMSE聲音增強(qiáng)算法，實(shí)驗(yàn)表明，在無背景噪聲條件下，識(shí)別率達(dá)到96.72%；低噪條件下，平均識(shí)別率能達(dá)到73.05%；本文的方法噪聲條件下具有較好魯棒性，對(duì)比現(xiàn)有的SPD、OMP等算法，分類識(shí)別效果更好。

　　參考文獻(xiàn)

　　[1] REN J, JIANG X, YUAN J, et al. Sound-EventClassification Using Robust Texture Features for RobotHearing[J].IEEE Transactions on Multimedia,2017, (99):1-1.

　　[2] BRADLOW A R, ALEXANDER J A. Semantic andphonetic enhancements for speech-in-noise recognition bynative and non-native listeners[J].Journal of the AcousticalSociety of America,2016,121(4):2339-49.

　　[3] JIAN-Chao Y U, ZHANG R L. Speaker recognitionmethod using MFCC and LPCC features[J].ComputerEngineering & Design,2009,30(5):1189-1191.

　　[4] CHU S, NARAYANAN S, KUO C CJ. Environmentalsound recognition with time-frequency audio features[M].

　　Institute of Electrical and Electronics Engineers Inc. The,2009.

　　[5] DENNIS J, TRAN H D, CHNG E S. ImageFeature Representation of the Subband PowerDistribution for Robust Sound Event Classification[J].IEEE Transactions on Audio Speech & LanguageProcessing,2012,21(2):367-377.

　　[6] SHIH J L, CHEN L H. Colour image retrieval based onprimitives of colour moments[J].IEE Proceedings-Vision,Image and Signal Processing,2002,149(6):370-376.

　　[7] NARASIMHADHAN A V, SHARMA A, MISTRY D. ImageReconstruction from Fan-Beam Projections without Back-Projection Weight in a 2-D Dynamic CT: Compensationof Time-Dependent Rotational, Uniform Scaling andTranslational Deformations[J].Open Journal of MedicalImaging, 2013, 3(4):136-143.

　　[8] SOUSSEN C, GRIBONVAL R, IDIER J, et al.JointK-Step Analysis of Orthogonal Matching Pursuit andOrthogonal Least Squares[J].IEEE Transactions onInformation Theory,2013,59(5):3158-3174.

　　本文來源于科技期刊《電子產(chǎn)品世界》2019年第9期第34頁，歡迎您寫論文時(shí)引用，并注明出處。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 201909 最小均方誤差 聲音識(shí)別 聲音增強(qiáng) 譜圖特征 扇形投影 支持向量機(jī)

評(píng)論

相關(guān)推薦

基于RNS和SVM的斷路器故障診斷研究

設(shè)計(jì)方案實(shí)數(shù)陰性選擇法支持向量機(jī) 斷路器故障診 | 2016-05-11

東南大學(xué)人工智能03

資源下載人工智能計(jì)算機(jī)科學(xué) 聲音識(shí)別 | 2007-04-20

傳感器與元件廠商看可穿戴電子的機(jī)會(huì)及解決方案

可穿戴手表保健醫(yī)療藍(lán)牙 201909 | 2019-08-29

東南大學(xué)人工智能06

資源下載人工智能計(jì)算機(jī)科學(xué) 聲音識(shí)別 | 2007-04-20

VC的支持向量機(jī)（SVM）靜態(tài)鏈接庫（LIB）

資源下載 VC 支持向量機(jī)(SVM) 靜態(tài)鏈接庫(LIB) | 2007-04-19

基于SVM的永磁無刷直流電機(jī)無位置傳感器控制

202001 直流電機(jī) 支持向量機(jī) 位置檢測(cè) BLDC | 2019-12-26

基于NB-IoT的智能農(nóng)業(yè)輔助控制系統(tǒng)

物聯(lián)網(wǎng)與傳感器 201909 NB-IoT 智慧農(nóng)業(yè) 視覺分析 FCN 精準(zhǔn)扶貧 | 2019-08-28

萊姆電子發(fā)布全新品牌，推出三類電流傳感器

201909 萊姆電子電流傳感器 | 2019-08-28

東南大學(xué)人工智能04

資源下載人工智能聲音識(shí)別智能模擬 | 2007-04-20

人工智能(吉大共32課)第01講

資源下載人工智能計(jì)算機(jī)科學(xué) 聲音識(shí)別 | 2007-04-20

基于支持向量機(jī)的車牌定位方法

設(shè)計(jì)方案智能交通車牌定位支持向量機(jī) | 2015-06-24

小型智慧太陽能路燈控制系統(tǒng)設(shè)計(jì)與策略研究

201909 燈光控制智慧太陽能自適應(yīng)跟蹤模糊控制 | 2019-08-28

基于BSM1的硝態(tài)氮濃度辨識(shí)建模

202002 污水處理極限學(xué)習(xí)機(jī) 支持向量機(jī) MATLAB仿真 | 2020-01-16

一種電動(dòng)汽車電池?zé)峁芾韮?yōu)化方案

201909 新能源汽車純電動(dòng)汽車電池管理系統(tǒng) 熱管理策略 | 2019-08-28

AI的本質(zhì)及其商業(yè)的康莊大道

201909 AI 歸納性推理 | 2019-08-28

基于前項(xiàng)差分和動(dòng)態(tài)閾值的PPG心率測(cè)量算法

201909 手環(huán) 心率 PPG 差分閾值 | 2019-09-06

SiC: 為何被稱為是新一代功率半導(dǎo)體？

201909 新一代功率半導(dǎo)體 SiC | 2019-08-28

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();