ADSP-BF531在嵌入式語音識別系統(tǒng)中的應(yīng)用
2.3 EEPROM接口設(shè)計
EEPROM主要用于存放程序代碼,選用ATMEL公司的AT45DB161D-TU型的EEPROM,該型存儲器采用SPI接口,容量為2 MB,可以滿足程序存儲的要求,其與DSP的SPI端口連接。
通過設(shè)置EEPROM存儲器的SPI主模式啟動(即設(shè)置BMODE=11),現(xiàn)實(shí)配置BF531為連接一個SPI存儲器的主設(shè)備和存儲器的加載。為了正常工作,該加載模式需要在MISO加上拉電阻。否則,BF531將從MISO引腳讀取到0xFF(即SPI存儲器沒有寫任何數(shù)據(jù)到MISO引腳)。不僅MISO線上的上拉電阻是必要的,額外的上、下拉電阻還有如下2個用途:
1)上拉PF2信號,確保SPI存儲器存DSP復(fù)位狀態(tài)下未激活;
2)在SPICLK上用下拉電阻,使顯示畫圖更加清晰。
2.4 FLASH接口設(shè)計
片外FLASH主要用于存訓(xùn)練樣本庫,本系統(tǒng)采用的NANDFLASH為三星電子的K9F8G08U0M-PIB0,該FLASH為工業(yè)級SLC架構(gòu)(Single Laver Cell,單層單元)芯片,具有速度快、可靠性高等特點(diǎn),而且容量為1 GB,可以滿足存儲大量樣本數(shù)據(jù)的要求。其采用EBIU(External Bus Interface Unit,外部數(shù)據(jù)總線)和單個GPIO(General Purpose Input Output,通用輸入/輸出引腳實(shí)現(xiàn)與DSP數(shù)據(jù)通訊。
3 軟件設(shè)計
3.1 語音識別(孤立詞)的原理
本系統(tǒng)采用的孤立詞語音識別的原理框圖如圖4所示。本文引用地址:http://www.ex-cimer.com/article/148467.htm
1)預(yù)處理 對聲源信號進(jìn)行抗混疊濾波、A/D轉(zhuǎn)換、預(yù)加重及端點(diǎn)檢測等內(nèi)容,以獲得比較理想的處理信息對象。
2)特征提取 從語音波形中提取出隨時間變化的能夠反映原始語音特征的矢量序列。
3)語音訓(xùn)練 建立聲學(xué)模型,將獲取的語音特征通過必要學(xué)習(xí)算法產(chǎn)生。
4)模式匹配 在識別時將輸入的語音特征同聲學(xué)模型進(jìn)行比較,得到識別結(jié)果。
在訓(xùn)練階段,用戶將詞匯表中的詞依次讀一遍,并且將其特征矢量序列存入模板庫中。在識別階段,將輸入語音的特征矢量序列依次與模板庫中的每一個模板進(jìn)行形似度比較,相似度最高者作為識別結(jié)果輸出。
在HHM算法中,語音序列被看做馬爾可夫隨機(jī)過程的輸出。假定識別系統(tǒng)的詞匯表共包括V個詞條,那么在訓(xùn)練階段需要請很多個說話人分別將這次詞條說一遍并存入數(shù)據(jù)庫中。利用這些訓(xùn)練數(shù)據(jù)可以為每一個詞條建立一套HMM參數(shù)λv(1≤v≤V)。
在識別時,對于每個待識別語音,可以得到一個觀察矢量序列Y=[y1,y2,…yN],其中,N為輸入語音所包含的幀數(shù)。語音識別的過程就是計算每個HMM模型λv產(chǎn)生Y的概率P(Y|λv),并使得該概率達(dá)到最大的HMM模型,那么該模型所對應(yīng)的詞條即為孤立詞識別的結(jié)果,即:
3.2 語音識別算法設(shè)計
本系統(tǒng)采用VO/DHMM(矢量量化/離散隱馬爾可夫模型)算法,其主要包括預(yù)處理、特征提取、語音訓(xùn)練、模式匹配等幾個方面。
3.2.1 預(yù)處理和特征提取
首先采用預(yù)加重、漢明窗、雙門限法等完成對語音信號的預(yù)處理;然后使用Mel倒譜參數(shù)(MFCC)進(jìn)行特征識別,MFCC參數(shù)提取的過程如圖5所示,其中Mel濾波器組的作用是利用人耳聽覺特性對語音信號的幅度平方譜進(jìn)行平滑。對數(shù)操作的用途:壓縮語音譜的動態(tài)范圍;考慮乘性噪聲,將頻域中的乘性成分轉(zhuǎn)換成加性成分。離散余弦變化主要是用來對不同頻段的頻譜成份進(jìn)行解相關(guān)處理,使得各維向量之間相互獨(dú)立。
評論