DSP在音頻解碼中基于心理-聲學(xué)的性能分析
通常在談到關(guān)于DSP解碼與系統(tǒng)整體性能表現(xiàn)時(shí),我們主要利用了傳統(tǒng)的SNR、瞬時(shí)誤差和相位誤差等方法進(jìn)行判斷。本文以心理-聲學(xué)壓縮設(shè)計(jì)的方法來(lái)考察DSP解碼的性能與表現(xiàn),介紹了基于心理-聲學(xué)的音頻壓縮解碼概念,并給出了基于心理-聲學(xué)的DSP性能分析。
本文引用地址:http://www.ex-cimer.com/article/201612/332377.htm從上個(gè)世紀(jì)90年代以來(lái),數(shù)字信號(hào)處理技術(shù)便逐步在消費(fèi)音頻市場(chǎng)占據(jù)重要地位。數(shù)字信號(hào)處理器最初主要用于處理數(shù)字化的模擬音頻信號(hào),即PCM數(shù)據(jù)的處理。在當(dāng)前的系統(tǒng)設(shè)計(jì)時(shí)代,基于具有靈活軟件設(shè)計(jì)特性的DSP系統(tǒng)設(shè)計(jì)方案是傳統(tǒng)設(shè)計(jì)的理想替代方法。
在音頻系統(tǒng)的設(shè)計(jì)中,通常在信號(hào)源進(jìn)行壓縮編碼時(shí)采用心理-聲學(xué)模型去除信號(hào)中的冗余數(shù)據(jù),通過(guò)選擇合適位數(shù)的DSP可以保證系統(tǒng)的性能。實(shí)際應(yīng)用中DSP的選擇需要涉及到很多因素,包括精度(24位/32位)、主頻、成本和內(nèi)存容量等。本文就音頻解碼應(yīng)用中,基于心理-聲學(xué)模型對(duì)DSP的性能進(jìn)行了分析。
DSP分貝與聲壓分貝的關(guān)系
本文在后面所述的數(shù)據(jù)都是在dBFS下的測(cè)量值,即滿刻度分貝值。從可聞度來(lái)分析,需要將這些數(shù)值與dB SPL關(guān)聯(lián)起來(lái),即轉(zhuǎn)換為聲壓強(qiáng)度的分貝數(shù)。在DSP之后的模擬信號(hào)鏈上包括DAC、前置放大器、功率放大器和揚(yáng)聲器,盡管對(duì)于不同的系統(tǒng),每個(gè)元件的增益和性能可能會(huì)有顯著的差異,但單純從系統(tǒng)配置的角度而言,仍可能把dBFS與dB SPL以足夠的準(zhǔn)確性關(guān)聯(lián)起來(lái)。
通常,數(shù)字音軌以-20dBFS電平進(jìn)行錄音,完全滿足信號(hào)峰值所要達(dá)到的幅值,同時(shí)也擁有足夠的動(dòng)態(tài)范圍以展現(xiàn)音頻文件的靜音部分,在CD、Dolby Digital和DTS等不同格式下也不會(huì)失真。眾所周知, THX推薦的聽(tīng)覺(jué)配置是在85dB聲壓強(qiáng)度下再現(xiàn)-20dBFS聲音信號(hào),這時(shí)音量通常會(huì)很大,而正常的收聽(tīng)時(shí)會(huì)比該強(qiáng)度低很多。
從上面是的事實(shí)得出dBFS與dB SPL之間是線性映射的,具有以下關(guān)系:0dBFS的信號(hào)可在105dB SPL再現(xiàn),需要注意的是這種情況下產(chǎn)生的聲音非常高,不適合長(zhǎng)時(shí)間收聽(tīng); 0dB SPL對(duì)應(yīng)與-105dBFS。
聽(tīng)覺(jué)與聽(tīng)覺(jué)閾值
人類(lèi)的聽(tīng)覺(jué)是有極限的,通常在聲壓強(qiáng)度的設(shè)計(jì)上會(huì)把0dB設(shè)定為最低可聽(tīng)范圍水平。聲音頻譜中的大部分(300Hz以下和10KHz以上)只有在10dB的聲壓強(qiáng)度之上才可以聽(tīng)到,正弦波的最高敏感度在3~4KHz,而且這樣的聲音在-3~-4的dB SPL就可以被聽(tīng)力極好的人感知。
從生理學(xué)上看,要達(dá)到聲音聽(tīng)覺(jué)閾值,其能量需要大到能在人的耳鼓產(chǎn)生一個(gè)駐波,從而使那兒的細(xì)小毛發(fā)產(chǎn)生波動(dòng)。沒(méi)有這種波動(dòng),連接聽(tīng)覺(jué)皮層的神經(jīng)元就不能被觸發(fā),因而聲音不能被感知。從上面的討論我們得到的關(guān)于音頻系統(tǒng)設(shè)計(jì)的啟發(fā),即當(dāng)噪音的水平低于人們的聽(tīng)覺(jué)閾值時(shí),一味追求高精度的DSP實(shí)現(xiàn)方案并沒(méi)有實(shí)際意義。
利用先前得到的聽(tīng)力配置關(guān)系,最低的可聽(tīng)聲壓為-4dB SPL,即-109dBFS。假設(shè)在信號(hào)鏈所有其它部分(DAC、前置放大器等)均為零失真,這就意味著任何能夠產(chǎn)生好于109dB信噪比的DSP都不會(huì)成為系統(tǒng)性能的瓶頸,這是采用DSP實(shí)現(xiàn)系統(tǒng)設(shè)計(jì)的一個(gè)很重要的問(wèn)題。實(shí)際應(yīng)用中,模擬信號(hào)鏈?zhǔn)窍到y(tǒng)中噪音的最主要來(lái)源,而DSP對(duì)噪音的貢獻(xiàn)遠(yuǎn)遠(yuǎn)低于這些模擬器件。
滿足系統(tǒng)性能的DSP位數(shù)
上面的分析是建立在-20dBFS平均水平和THX聽(tīng)力配置情況下。盡管這是一個(gè)極限情況,考慮到dBFS/dB SPL轉(zhuǎn)換關(guān)系的變化,在設(shè)計(jì)時(shí)還要留出一些性能余量。因此,一個(gè)考慮周全的設(shè)計(jì)應(yīng)該使DSP的位數(shù)比理論位數(shù)大約多出兩位,即121dB使用6dB/位的配置,對(duì)應(yīng)著PCM輸出的20位動(dòng)態(tài)范圍。
以上的分析與杜比公司的Dolby Digital設(shè)計(jì)方案的假設(shè)一致,該方案同樣是采用20位的精度。同時(shí),實(shí)際的ADC/DAC也限制在20位精度的性能(<120dB),即使是DAT錄音也是采用20位的精度。所有的這些都驗(yàn)證了上面的分析的正確性。
上述數(shù)據(jù)是基于最壞的情況,因?yàn)樵趯?shí)際情況下功率放大器、前置放大器和DAC產(chǎn)生的噪音量比DSP的性能對(duì)系統(tǒng)整體的性能影響更大。最好的功率放大器也僅僅能獲得109dB的信噪比,因?yàn)樵胍裟芰吭诰€性區(qū)域中可累加,這意味著一個(gè)輸出是121dB的20位DSP,僅僅會(huì)產(chǎn)生放大器6.66%的噪音。而如果揚(yáng)聲器的性能也作為考慮因素,那么DSP產(chǎn)生的噪音就是1/6??揚(yáng)聲器失真,這是可以完全忽略的。
上面的分析甚至沒(méi)有考慮編碼的失真、ADC或麥克風(fēng)產(chǎn)生的噪音,所有這些都是非常關(guān)鍵的。如果所有信號(hào)鏈都考慮到,很顯然20位的DSP已經(jīng)足夠用。僅僅用非常態(tài)正弦波測(cè)試,人為的合成精度超過(guò)20位的信號(hào)才能得到可測(cè)量的差別,并且這種差別實(shí)際上是人類(lèi)聽(tīng)覺(jué)不能感知的。
帶有“透明”音頻質(zhì)量的有損壓縮
心理-聲學(xué)壓縮設(shè)計(jì)是針對(duì)給定信號(hào)的有損壓縮,進(jìn)而了解在什么程度下不同的頻域/時(shí)域信號(hào)是可聽(tīng)見(jiàn)或聽(tīng)不見(jiàn),以便相應(yīng)調(diào)整編碼過(guò)程,使引入的噪音降到聽(tīng)覺(jué)閾值之下?;镜默F(xiàn)象為信號(hào)中強(qiáng)音部分會(huì)掩蔽臨近弱音部分,理想的情況下,這樣的數(shù)據(jù)減少不會(huì)導(dǎo)致感覺(jué)到音質(zhì)的損失,這樣就引出“透明”音頻編碼或壓縮的概念。
這與簡(jiǎn)單的SNR測(cè)量有根本的不同,同時(shí)更為復(fù)雜,因?yàn)樗枰_再現(xiàn)特殊信號(hào)中相關(guān)的可聽(tīng)部分。換句話說(shuō),雖然SNR是不錯(cuò)的確定編/解碼質(zhì)量的準(zhǔn)則,但它卻不合適用這個(gè)標(biāo)準(zhǔn)去判定能夠產(chǎn)生-140dB THD+N的DSP就一定比-130dB THD+N的好。因?yàn)樾睦?聲學(xué)壓縮設(shè)計(jì)是建立在人類(lèi)聽(tīng)覺(jué)閾值曲線基礎(chǔ)之上,上面的結(jié)論也就變得非常明顯,在這個(gè)閾值之下的信號(hào)不能被聽(tīng)見(jiàn)。
關(guān)于獲得“透明”音頻壓縮的問(wèn)題
實(shí)際的編/解碼輸出質(zhì)量的決定因素有如下幾點(diǎn):
1. 使用的算法
2. 壓縮的比特率
3. 分析輸入信號(hào)中用到的心理-聲學(xué)模型
4. 瞬時(shí)分析架構(gòu)與轉(zhuǎn)換濾波器組
5. 位分配策略
在實(shí)現(xiàn)編碼/解碼過(guò)程中,上述的因素均與算法精度無(wú)關(guān),即使是使用無(wú)窮精度實(shí)現(xiàn),上面的因素同樣對(duì)音頻質(zhì)量起決定性影響。
基于上面討論的有損壓縮系統(tǒng),可以得出下面的結(jié)論:傳統(tǒng)的SNR、THD+N、瞬態(tài)誤差和相位誤差等測(cè)量方法,在比較不同實(shí)現(xiàn)方案的性能時(shí)都不再是最終的度量標(biāo)準(zhǔn),只能在鑒定和校驗(yàn)系統(tǒng)性能時(shí)作為參考,不能用來(lái)對(duì)與心理-聲學(xué)驗(yàn)證的約120dB性能的閾值有細(xì)微的差別的系統(tǒng)進(jìn)行評(píng)級(jí)。
DSP增值建議
通常20位DSP已經(jīng)能滿足系統(tǒng),而從心理-聲學(xué)角度16位就已足夠,對(duì)于一個(gè)給定的壓縮方案而言,一旦解碼器達(dá)到了一定的性能,單純?cè)黾覦SP的精度就不會(huì)進(jìn)一步的提高系統(tǒng)性能。實(shí)際的DSP增值解決方案就變成了對(duì)解碼音頻程序的后期處理和它所提供的系統(tǒng)級(jí)特性。事實(shí)上,最終消費(fèi)者還需要產(chǎn)品具有更多的附加特性,例如自動(dòng)監(jiān)測(cè)、錯(cuò)誤屏蔽和擁有提供虛擬音效的后期處理器等。
單從市場(chǎng)反映來(lái)看,采用32位DSP在概念上還是很成功,因?yàn)閺臄?shù)字上可以直觀感覺(jué)到性能的進(jìn)步。實(shí)際上,從整體性能和更多功能上來(lái)考慮是一種明顯的誤解,這種誤解就相當(dāng)于對(duì)PC機(jī)只比較CPU的主頻,而不考慮系統(tǒng)的整體性能一樣。
32位的DSP并不能真正有助于提高系統(tǒng)最終性能,它需要更大的內(nèi)存(比24位DSP多出大約33%)。同時(shí),因?yàn)?2×32MAC比24×24MAC慢,一個(gè)32位DSP核將始終比相應(yīng)的24位核的解碼器慢。就信噪比而言,實(shí)際應(yīng)用效果證明,通過(guò)優(yōu)化處理,24位DSP可以得到和32位DSP相同(甚至更高)的性能。
需要注意的是,上面討論僅僅基于基本的解碼器,32位DSP在后期處理上仍然存在某些優(yōu)勢(shì)。因此,如果前端使用高度優(yōu)化的24位DSP解碼引擎,后端處理器為一個(gè)32位DSP,這樣一個(gè)優(yōu)化的設(shè)計(jì)結(jié)合了兩者的優(yōu)勢(shì)是一種不錯(cuò)的選擇,目前已經(jīng)有這樣的系統(tǒng)級(jí)芯片方案提供。
本文小結(jié)
在現(xiàn)實(shí)世界中利用心理-聲學(xué)來(lái)壓縮編碼時(shí),SNR測(cè)試方法在比較系統(tǒng)性能上并不是合適的標(biāo)準(zhǔn)。而ITU PEAQ測(cè)試平臺(tái)方法則更適合測(cè)量可感知音頻的質(zhì)量。此外,當(dāng)我們?cè)谠u(píng)估一個(gè)DSP解決方案時(shí),還需要考慮到系統(tǒng)的錯(cuò)誤屏蔽、自動(dòng)檢測(cè)和后期處理的特性,以及系統(tǒng)的啟動(dòng)響應(yīng)時(shí)間和批量延遲等。
影響AV接收系統(tǒng)解碼器質(zhì)量的因素并不全是DSP精度的問(wèn)題。通過(guò)較強(qiáng)的DSP算法技巧和優(yōu)化,能使一個(gè)24位精度的性能超越32位DSP。然而,隨著制造工藝的不斷提高,32位的DSP將最終解決上述問(wèn)題,使32位的解碼器更具成本和技術(shù)上的比較優(yōu)勢(shì)。
評(píng)論