音頻編碼和解碼原理

作者：時(shí)間：2012-11-07 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

分配以較小的編碼比特。其次，通過合理分配不同子帶的比特?cái)?shù)，可控制總的重建誤差頻譜形狀，通過與聲學(xué)心理模型相結(jié)合，可將噪聲頻譜按人耳主觀噪聲感知特性來形成。于是，利用人耳聽覺掩蔽效應(yīng)可節(jié)省大量比特?cái)?shù)。
在采用子帶編碼時(shí)，利用了聽覺的掩蔽效應(yīng)進(jìn)行處理。它對(duì)一些子帶信號(hào)予以刪除或大量減少比特?cái)?shù)目，可明顯壓縮傳輸數(shù)據(jù)總量。比如，不存在信號(hào)頻率分量的子帶，被噪聲掩蔽的信號(hào)頻率的子帶，被鄰近強(qiáng)信號(hào)掩蔽的信號(hào)頻率分量子帶等，都可進(jìn)行刪除處理。另外，全系統(tǒng)的傳輸信息量與信號(hào)的頻帶范圍、動(dòng)態(tài)范圍等均有關(guān)系，而動(dòng)態(tài)范圍則決定于量化比特?cái)?shù)，若對(duì)信號(hào)引入合理的比特?cái)?shù)，可使不同子帶內(nèi)按需要給以不同的比特?cái)?shù)，也可壓縮其信息量。

二、MPEG-1音頻編碼方框圖

1、MPEG-1音頻編碼的依據(jù)
MPEG-1音頻壓縮編碼標(biāo)準(zhǔn)采用了心理學(xué)算法。利用感知模型刪去那些聽覺不靈敏的聲音數(shù)據(jù)，而使重建的聲音質(zhì)量無明顯下降。它采用子帶編碼技術(shù)，根據(jù)心理聲學(xué)模型取得不同子帶的聽覺掩蔽閾值；對(duì)各子帶的取樣值進(jìn)行動(dòng)態(tài)量化。它根據(jù)不同頻段上大音量信號(hào)所引起的小音量信號(hào)掩蔽閾值的變化規(guī)律，對(duì)不同頻段給以不同的量化步長(zhǎng)，以便保留主要信號(hào)，而舍棄對(duì)聽覺效果影響很小的成分，經(jīng)過數(shù)據(jù)壓縮，可取得合理的比特流，將原來大約1.5Mbit/s的聲音傳輸碼率減少到0.3Mbit/s，即壓縮率可達(dá)到1/5。

2、編碼流程
圖2.3.2是基于MUSICAM(掩蔽模式通用子帶編碼和多路復(fù)用)的MPEG-1音頻壓縮編碼方框圖。輸入信號(hào)是經(jīng)過取樣的二進(jìn)制PCM數(shù)字音頻信號(hào)，取樣頻率可以取44.1KHz、48KHz或32KHz，該音頻數(shù)碼信號(hào)的碼值與原來采樣信號(hào)的幅度、頻率成正比。
音頻編碼和解碼原理

數(shù)字音頻信號(hào)首先進(jìn)入數(shù)字濾波器組，它被分成等帶寬的32個(gè)子頻帶，可由數(shù)字濾波器輸出32個(gè)子帶數(shù)據(jù)信號(hào)。這種處理方法與圖像編碼信號(hào)進(jìn)行DCT變換的作用相似，但不是像圖像信號(hào)那樣分為64種余弦頻率信息，這里僅分成32個(gè)子帶，即將音頻數(shù)據(jù)流改為32種頻率的組合。聲音的分解力低于圖像，這種處理方法是可行的。然后，對(duì)32個(gè)子帶的伴音數(shù)據(jù)進(jìn)行再量化，以便再壓縮數(shù)據(jù)量。對(duì)于各個(gè)子頻帶的量化步長(zhǎng)不相同，量化步長(zhǎng)是根據(jù)人耳的聽覺閾值和掩蔽效應(yīng)而確定的。經(jīng)過量化處理的已壓縮數(shù)據(jù)，保留了伴音信息的主體部分，而舍棄了聽覺效果影響較小的伴音信息。
進(jìn)入編碼系統(tǒng)的輸入信號(hào)，分流部分信號(hào)送到并列的1024點(diǎn)快速傅利葉變換器(FFT)進(jìn)行變換，它檢測(cè)輸入信號(hào)每一個(gè)瞬間取樣點(diǎn)在主頻譜分量頻域的分布的強(qiáng)度，經(jīng)變換的信號(hào)送到心理聲學(xué)模型控制單元。根據(jù)聽覺心理聲學(xué)測(cè)量統(tǒng)計(jì)結(jié)果，可以歸納出一個(gè)心理聲學(xué)控制對(duì)照表格，并按照此表格制成控制單元，而單元電路可以集中地反映出人耳的閾值特性和掩蔽特性。
經(jīng)過量化的32個(gè)子頻帶數(shù)據(jù)已經(jīng)被壓縮，還要加上比例因子、位分配信息等輔助信息，共同加到1位流格式化單元，編碼成為兩個(gè)層次的伴音編碼信號(hào)。它既含有32個(gè)子頻帶的伴音數(shù)碼，又帶有這些數(shù)碼所對(duì)應(yīng)的位分配數(shù)據(jù)和不同頻帶數(shù)據(jù)的強(qiáng)弱比例因子。待將來數(shù)據(jù)解碼時(shí)，可根據(jù)各子頻帶的數(shù)據(jù)恢復(fù)聲音信號(hào)，以及壓縮時(shí)碼位分配和強(qiáng)弱比例情況，在進(jìn)行反量化時(shí)，參照壓縮時(shí)的程序進(jìn)行還原。
可見，伴音的壓縮編碼和圖像處理一樣，也要經(jīng)過變換、量化、碼位壓縮等處理過程，它運(yùn)用了許多數(shù)學(xué)模型和心理聽覺測(cè)量的統(tǒng)計(jì)數(shù)據(jù)，對(duì)32個(gè)子頻帶和各個(gè)層次信號(hào)的處理也各有不相同的取樣速率。實(shí)際的心理聽覺模型和適時(shí)處理控制過程十分復(fù)雜。這些算法細(xì)節(jié)都已按硬件方式被固化在解碼芯片中，這些內(nèi)容不能再改變。

3、伴音與圖像的同步
圖像和聲音信號(hào)的壓縮方法有許多不同，圖像數(shù)據(jù)量又遠(yuǎn)遠(yuǎn)大于聲音數(shù)據(jù)量，兩者傳送的數(shù)據(jù)碼率大不相同。每傳送14～15個(gè)視頻數(shù)據(jù)包才傳送1個(gè)音頻數(shù)據(jù)包，而播放聲音和圖像的內(nèi)容又必須作到良好同步，否則將無法保證視聽統(tǒng)一的效果。
為了作到聲圖同步，MPEG-1采用了獨(dú)立的系統(tǒng)時(shí)鐘(簡(jiǎn)稱為STC)作為編碼的參照基準(zhǔn)，并將圖像和聲音的數(shù)據(jù)分為許多播放單元。例如，將圖像分為若干幀，將聲音分為若干段落。在數(shù)據(jù)編碼時(shí)，在每個(gè)播放單元前面加置一個(gè)展示時(shí)標(biāo)(PTS)，或者加置一個(gè)解碼時(shí)標(biāo)(DTS)。當(dāng)這些時(shí)標(biāo)出現(xiàn)時(shí)，表示前一個(gè)播放單元已經(jīng)結(jié)束，一個(gè)新的圖像和聲音播放單元立即開始。在播放相互對(duì)應(yīng)的同一圖像單元和聲音單元時(shí)，可實(shí)現(xiàn)互相同步。
為了使整個(gè)系統(tǒng)在時(shí)鐘在編碼和重放時(shí)，聲圖有共同的時(shí)鐘基準(zhǔn)，又引入系統(tǒng)參考時(shí)鐘SCR的概念。系統(tǒng)參考時(shí)鐘是一個(gè)實(shí)時(shí)時(shí)鐘，其數(shù)值代表聲圖的實(shí)際播放時(shí)間，用它作為參照基準(zhǔn)，以保證聲圖信號(hào)的傳輸時(shí)間保持一致。實(shí)時(shí)時(shí)鐘SCR必須與生活中的真實(shí)時(shí)間一致，要求它的準(zhǔn)確度很高，否則可能發(fā)生聲音和圖像都播快或播慢的現(xiàn)象。為了使SCR時(shí)間基準(zhǔn)穩(wěn)定、準(zhǔn)確，MPEG-1采用了系統(tǒng)時(shí)鐘頻率SCF，以它作為定時(shí)信息的參照基礎(chǔ)。SCF系統(tǒng)時(shí)鐘的頻率是90KHz，頻率誤差為90KHz±4.5KHz。聲圖信號(hào)以SCF為統(tǒng)一的基準(zhǔn)，其它定時(shí)信號(hào)SCR、PTS、DTS也是以它為基礎(chǔ)。

三、其它MPEG標(biāo)準(zhǔn)的音頻編碼器

1、MPEG-2音頻編碼方框圖
MPEG-1是處理雙聲道立體聲信號(hào)，而MPEG-2是處理5聲道（或7聲道）環(huán)繞立體聲信號(hào)，它的重放效果更加逼真。
圖2.3.3是MPEG-2音頻編碼方框圖。它輸入互相獨(dú)立的5聲道音頻信號(hào)，有前置左、右主聲道(L、R)，前置中央聲道(C)，還有后置左、右環(huán)繞聲道(LS、RS)。各聲源經(jīng)過模－數(shù)轉(zhuǎn)化后，首先進(jìn)入子帶濾波器，每一聲道都要分割為32個(gè)子頻帶，各子帶的帶寬均為750Hz。為了兼容MPEG-1、普通雙聲道立體聲和環(huán)繞模擬立體聲等編碼方式，原來按MPEG-1編碼的立體聲道能夠擴(kuò)展為多聲道，應(yīng)當(dāng)包括所有5聲道的信息，為此設(shè)置了矩

新聞中心

音頻編碼和解碼原理

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)