數(shù)字音頻技術(shù)與杜比AC-3

作者：時間：2007-03-09 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

摘要：介紹了杜比公司開發(fā)的AC-3數(shù)字音頻壓縮碼技術(shù)的原理和編解碼過程。關(guān)鍵詞：數(shù)據(jù)壓縮感知型編碼 AC-3編碼 AC-3解碼隨著人們對多媒體圖像和聲音的要求越來越高，在高清晰數(shù)字電視（HDTV）和數(shù)字電影中不僅應(yīng)有高質(zhì)量的圖像，也應(yīng)當(dāng)具有CD質(zhì)量的立體聲。因為用數(shù)字方法記錄聲音比用模擬方法記錄聲音具有更強的優(yōu)勢，例如傳輸時抗噪聲能力強、增加音頻動態(tài)范圍、多次翻錄沒有信號衰減等。但是數(shù)字聲音最大的缺陷是記錄的數(shù)據(jù)量大，表現(xiàn)在兩個方面：其一是在傳輸過程中，傳輸數(shù)字聲音需要占用很寬的傳輸帶寬；其二是在存儲過程中，需要占用大量的存儲空間。所以在數(shù)字音頻中需要采用數(shù)字音頻壓縮技術(shù)，對音頻數(shù)據(jù)進行壓縮。杜比AC-3提供的數(shù)字音頻壓縮編碼技術(shù)具有較高的編碼效率；而由5個全頻域聲道和1個超低音聲道組成的AC-3環(huán)繞聲系統(tǒng)能完美再現(xiàn)高質(zhì)量的立體聲。 1 數(shù)字音頻編碼的原理目前，高品質(zhì)聲音的主流是CD音質(zhì)，其采樣頻率為48kHz或44.1kHz，以每個采樣點16bit的精度進行編碼，其比特率將達到每個通道768kbps(48kHz采樣率)和705.6kbps(44.1kHz采樣率)，雙聲道立體聲分別需要1.54Mbps和1.41Mbps的碼率。而如果采用新的音頻編碼技術(shù)，則可以在保持同等音質(zhì)的前提下，實現(xiàn)64kbps～128kbps速率編碼。以44.1K樣本/秒計算，相當(dāng)于每個采樣點1.5bit，以如此低的平均信息量能達到接近于CD的高音質(zhì)，這就是高品質(zhì)數(shù)字音頻編碼要達到的目的。圖1一般來說，數(shù)據(jù)壓縮有兩種方法。一種方法是利用信號的統(tǒng)計性質(zhì)，完全不丟失信息的高效率編碼法，稱為平均信息量編碼或熵編碼（entropy coding）。第二種方法是利用接收信號人的感覺特性，省略不必要的信息，壓縮信息量，稱為感覺編碼（perceptual coding）。音頻信號的感覺編碼是以心理聲學(xué)原理為基礎(chǔ)，利用聽覺心理特性，只記錄那些能被人的聽覺所感知的聲音信號，從而達到減少數(shù)據(jù)量而又降低音質(zhì)的目的。一般而言，人耳的聽覺像20Hz～20kHz帶通濾波器，它對不同頻率的信號有不同的感知辨別率。相對于高頻而言，低頻的聲音更易新人耳感知，其中尤以對2kHz～4kHz的信號最為敏感，因而形成了圖1中的絕對可聞閾曲線。絕對可聞閾是指寂靜地聽覺可聽到的各頻段的最低音量。遮蔽效應(yīng)對于聽覺特性有著很大的影響。遮蔽分為同時性的遮蔽和非同時性的遮蔽。前者是頻域下的一種現(xiàn)象，指在相近的頻率下，強度較大的信號會遮蔽較小的信號。后者也稱時間的遮蔽性，是指在短暫的時間間隔內(nèi)，強度大的信號遮蔽較小的信號，它又分為前遮蔽和后遮蔽。前遮蔽是指強度大的信號遮蔽發(fā)生較早的小信號，后遮蔽則是強度大的信號遮蔽發(fā)生較晚的小信號。通常前遮蔽的持續(xù)時間為20ms，對再前的聲音的影響幾乎可以忽略；而后遮蔽所產(chǎn)生的效應(yīng)相對大而且持久，一般可達100～200ms，所以應(yīng)用更為廣泛。典型的聽覺心理特性如圖1所示的頻率特性（左）和時間特性（右）。圖1中，噪聲A因在絕對可聞閾以上而可聞，但噪聲C因在絕對可聞閾以下，故聽不到。如左圖所示，當(dāng)有黑線所示的某頻率信號存在時，靠近它的本來可以聽見的噪聲B就變得聽不見了，這種現(xiàn)象就是同時性遮蔽效應(yīng)。而如右圖所示，當(dāng)某時刻有黑線所示的信號存在時，位于其后面的比它小一些的本來可聽見的噪聲E也變得聽不見了，這種現(xiàn)場稱為非同時性遮蔽效應(yīng)。兩種效應(yīng)合成的結(jié)果形成了實際的可聞閾。杜比AC-3就是一種感知型編碼方式，它把整個音頻頻帶分割成若干個較窄的頻段，因為人類的聽覺對不同頻率的聲音具有不同的靈敏度，各頻段的寬度并不完全一樣。由于有用的信號被劃分成狹窄的頻頻，編碼噪聲的濾降總是就比較容易。因為對于每個頻段來說，該頻率以外的所有信號可以全部被濾除掉而不會損傷有用信號。而頻段內(nèi)，剩余噪聲信號的頻率與有用信號的頻率非常接近，這正是遮蔽效應(yīng)發(fā)揮最大作用的區(qū)域。從這種意義上說，象AC-3這樣的感知型編碼系統(tǒng)是一種非常有效的減噪系數(shù)。這些被分割成狹窄頻段的多路數(shù)字音頻信號最終還需要被合成一路完整的全頻帶信號，但每一個頻段所占有的數(shù)據(jù)量并不是平均分配的，編碼器內(nèi)部有一個“聽覺遮蔽模塊”，可以模擬人的聽覺遮蔽效應(yīng)，它能根據(jù)信號的動態(tài)特性來決定在某一時刻的數(shù)據(jù)用量應(yīng)當(dāng)如何分配給各頻段才是最合適的。頻譜密集、音量大的聲音元素應(yīng)該獲得較多的數(shù)據(jù)占有量，那些由于遮蔽效應(yīng)而聽不到的聲音則少占用或不占用數(shù)據(jù)量。 2 AC-3的編解碼技術(shù)簡介 AC-3是在AC-1和AC-2基礎(chǔ)上發(fā)展起來的多通道編碼技術(shù)，保留了原AC-2中如窗函數(shù)處理、指數(shù)變換編碼、自適應(yīng)比特分配等許多特點，還新增了運用立體聲多聲道的編碼技術(shù)策略的coupling和rematrix算法。一般而言，立體聲的左聲道和右聲道的信號在聽覺上十分相似，存在著許多重復(fù)的冗余信息，將這兩個聲道的信號聯(lián)合起來加以編碼，便可除去冗余的信號且不會影響原來的音質(zhì)。這里AC-3陣低碼率的又一個有效的手法。

圖2為AC-3編碼器原理框圖。AC-3輸入PC聲音數(shù)據(jù)，輸出壓縮后的數(shù)碼流。編碼的第一步是，運用TDAC（Time Domain Aliasing Cancellation）濾波器把時域內(nèi)的PC取樣數(shù)據(jù)變換成頻域內(nèi)成塊的一系列變換系數(shù)，每個變換系數(shù)以二進制指數(shù)形式表示，即由一個指數(shù)和一個尾數(shù)構(gòu)成。指數(shù)部分經(jīng)編碼后構(gòu)成了整個信號大致的頻譜，又被稱為頻譜包絡(luò)。用頻譜包括和遮蔽由線的相關(guān)性決定每個尾數(shù)的比特分配。由于比特分配中采用了前/后向混合自適應(yīng)比特分配以及公共比特池等技術(shù)，因而可使有限的碼率在各聲道之間、不同的頻率分量之間獲得合理的分配；在對尾數(shù)的量化過程中，可對尾數(shù)進行抖晃處理，抖晃所使用的偽隨機數(shù)生器的可在不同的平臺上獲得相同的結(jié)果。最后由六個塊的頻譜包絡(luò)、粗量化的尾數(shù)及相應(yīng)的參數(shù)組成AC-3數(shù)據(jù)幀格式，連續(xù)的幀匯成數(shù)碼流輸出。由時域變換到頻域的塊長度的選擇是指數(shù)變換編碼的基礎(chǔ)。在AC-3中定義了兩種長度切換，一種是512個樣值點的長塊，一種是256個樣值點的短塊。在信號頻譜分析時，對要處理的聲道信號塊區(qū)截取得越長越好，這樣可以得到較好的頻率分辨力，同時也能得到較高的編碼效率。但是較長的數(shù)據(jù)塊可能包含了一些不同一些可能被識別的噪音，如pre-echo。也就是說人耳因時間和頻率上存在的遮蔽效應(yīng)在進行指數(shù)變換編碼時是有矛質(zhì)的，不能同時兼顧，必須統(tǒng)籌處理。對于穩(wěn)態(tài)信號，其頻率隨時間變換緩慢，為提高編碼效率，要求濾波器組有好的頻率分辨力，即要求一個長區(qū)塊；而對于快速變化的信號，則要求好的時間分辨力，即要求一個短區(qū)塊。在編碼器中，輸入信號在經(jīng)過3Hz高通濾波器去除直流成分后，再經(jīng)過一個8kHz的高通濾波器取出高頻成分，用其能量與預(yù)先設(shè)定的閾值相比較，以檢測信號的瞬變情況。 AC-3采用基于改良離散余弦變換（MDCT）的自適應(yīng)變換編碼（ATC）算法。雖然在AC-3標(biāo)準(zhǔn)中定義了MDCT變換，但是實際采用一個N/4點的IFFT（快速傅立葉變換），再加上兩個簡單的Pre-IFFT和Post-IFFT作為調(diào)整，以實現(xiàn)一個N點的IMDCT變換。ATC算法的一個重要考慮是基于聽覺遮蔽效應(yīng)的臨界頻帶理論，即在臨界頻帶內(nèi)一個聲音對另一個聲音信號的遮蔽效應(yīng)最明顯。因此，劃分頻帶的濾波器組要有足夠迅速的頻率響應(yīng)，以此保證臨界頻帶外的噪聲衰減足夠大，使時域和頻率內(nèi)的噪聲限定在遮蔽閾值以下。在AC-3編碼器的比特分配技術(shù)中，采用了應(yīng)用廣泛的前向和后向自適應(yīng)比特分配法則。前向自適應(yīng)方法是編碼器計算比特分配，并把比特分配信息明確地編入數(shù)據(jù)比特流中，其特點是在前端編碼過程中使用聽覺模型，因此修改模型對接收側(cè)解碼過程沒有影響；其缺點是降低編碼效率，因為要傳送比特分配信息而占用了一部分有效比特。后向自適應(yīng)方法沒有得到編碼器明確的比特分配信息，而是從數(shù)碼流中產(chǎn)生比特分配信息，優(yōu)點是不占用有效比特，因此有更高的傳輸效率。其缺點是要從接收的數(shù)據(jù)中計算比特分配，如果計算太復(fù)雜會使解碼器的成本升高。此外，解碼器的算法也會隨著編碼器聽覺模型的改變而改變。AC-3采用混合前向/后向自適應(yīng)比特分配，在提高碼率和降低成本間取得了平衡。

圖3為AC-3解碼器的原理框圖。AC-3解碼器的解碼原理基本上是編碼的逆向過程，首先解碼器必須與編碼數(shù)據(jù)流同步，然后從經(jīng)過數(shù)據(jù)糾錯校驗的數(shù)碼流中分離出控制數(shù)據(jù)、系統(tǒng)配置參數(shù)、編碼后的頻譜包絡(luò)及量化后的尾數(shù)等內(nèi)容，根據(jù)聲音的頻譜包絡(luò)產(chǎn)生比特分配信息，對尾數(shù)部分進行反量化，恢復(fù)變換系數(shù)的指數(shù)和尾數(shù)，再經(jīng)過合成濾波器組，把數(shù)據(jù)由頻域變換到時域，最后輸出重建的PCM樣值信號。通過對AC-3的了解，可以看到AC-3技術(shù)充分利用人耳的感官模型，針對不同性質(zhì)的信號，采取了相應(yīng)有效的算法，達到了在保證較高音質(zhì)的前提下實現(xiàn)較高碼率的預(yù)期目的，是一種非常高效而又經(jīng)濟的數(shù)字音頻壓縮系統(tǒng)。AC-3是美國數(shù)字電視系統(tǒng)的強制標(biāo)準(zhǔn)，是歐洲數(shù)字電視系統(tǒng)的推薦標(biāo)準(zhǔn)，同時，AC-3還是DVD系統(tǒng)的強制標(biāo)準(zhǔn)。目前我國正在發(fā)展和推廣數(shù)字電視系統(tǒng)，所有有理由相信AC-3技術(shù)會有一個不錯的應(yīng)用前景。

新聞中心

數(shù)字音頻技術(shù)與杜比AC-3

評論

相關(guān)推薦

技術(shù)專區(qū)