智能機(jī)器人語(yǔ)音識(shí)別技術(shù)
1.2 隱馬爾可夫模型HMM
隱馬爾可夫模型,即HMM是一種基于概率方法的模式匹配方法。它的應(yīng)用是20世紀(jì)80年代以來(lái)語(yǔ)音識(shí)別領(lǐng)域取得的重要成果。
一個(gè)HMM模型可以表示為:
式中:π為初始狀態(tài)概率分布,πi=P(q1=θi),1≤i≤N,表示初始狀態(tài)處于θi的概率;A為狀態(tài)轉(zhuǎn)移概率矩陣,(aij)N×N,aij=P(qt+1 =θj|qt=θi),1≤i,j≤N;B為觀察值概率矩陣,B={bj(ot)},j=1,2,…,N,表示觀察值輸出概率分布,也就是觀察值ot處于狀態(tài)j的概率。
1.3 模型訓(xùn)練
HMM有多種結(jié)構(gòu)類(lèi)型,并且有不同的分類(lèi)方法。根據(jù)狀態(tài)轉(zhuǎn)移矩陣(A參數(shù))和觀察值輸出矩陣(B參數(shù))的不同有不同類(lèi)型的HMM。
對(duì)于CHMM模型,當(dāng)有多個(gè)觀察值序列時(shí),其重估公式由參考文檔給出,此處不再贅述。
1.4 概率計(jì)算
利用HMM的定義可以得出P(O|λ)的直接求取公式:
式(2)計(jì)算量巨大,是不能接受的。Rabiner提出了前向后向算法,計(jì)算量大大減小。定義前向概率:
式(2)表示的是初始前向概率,其中bi(o1)為觀察值序列處于t=1時(shí)刻在狀態(tài)i時(shí)的輸出概率,由于它服從連續(xù)高斯混合分布,故此值往往極小。根據(jù)大量實(shí)驗(yàn)觀察,通常小于10-10,此值在定點(diǎn)DSP中已不能用Q格式表示。分析式(3)可以發(fā)現(xiàn),隨著時(shí)間t的增加,還會(huì)有大量的小數(shù)之間的乘法加法運(yùn)算,使得新的前向概率值at+1更小,逐漸趨向于0,定點(diǎn)DSP采用普通的Q格式進(jìn)行計(jì)算時(shí)便會(huì)負(fù)溢出,即便不發(fā)生負(fù)溢出也會(huì)大大丟失精度。因此必須尋找一種解決方法,在不影響DSP實(shí)時(shí)性的前提下,既不發(fā)生負(fù)溢出,又能提高精度。
2 DSP實(shí)現(xiàn)語(yǔ)音識(shí)別
孤立詞語(yǔ)音識(shí)別一般采用DTW動(dòng)態(tài)時(shí)間規(guī)整算法。連續(xù)語(yǔ)音識(shí)別一般采用HMM模型或者HMM與人工神經(jīng)網(wǎng)絡(luò)ANN相結(jié)合。
為了能實(shí)時(shí)控制機(jī)器人,首先需要考慮的是能夠?qū)崿F(xiàn)實(shí)時(shí)地語(yǔ)音識(shí)別。而考慮到CHMM的巨大計(jì)算量以及成本因素,采用了數(shù)據(jù)處理能力強(qiáng)大,成本相對(duì)較低的定點(diǎn)數(shù)字信號(hào)處理器,即定點(diǎn)DSP。本實(shí)驗(yàn)采用的是TI公司多媒體芯片TMS320DM642。定點(diǎn)DSP要能準(zhǔn)確、實(shí)時(shí)的實(shí)現(xiàn)語(yǔ)音識(shí)別,必須考慮2點(diǎn)問(wèn)題:精度問(wèn)題和實(shí)時(shí)性問(wèn)題。
精度問(wèn)題的產(chǎn)生原因已經(jīng)由1.4節(jié)詳細(xì)闡述,這里不再贅述。因此必須找出一種可以提高精度,而又不會(huì)對(duì)實(shí)時(shí)性造成影響的解決方法?;谝陨峡紤],本文提出了一種動(dòng)態(tài)指數(shù)定標(biāo)方法。這種方法類(lèi)似于科學(xué)計(jì)數(shù)法,用2個(gè)32 b單元,一個(gè)單元表示指數(shù)部分EXP,另一個(gè)單元表示小數(shù)部分Frac。首先將待計(jì)算的數(shù)據(jù)按照指數(shù)定標(biāo)格式歸一化,再進(jìn)行運(yùn)算。這樣當(dāng)數(shù)據(jù)進(jìn)行運(yùn)算時(shí),仍然是定點(diǎn)進(jìn)行,從而避開(kāi)浮點(diǎn)算法,從而使精度可以達(dá)到要求。
對(duì)于實(shí)時(shí)性問(wèn)題,通常,語(yǔ)音的頻率范圍大約是300~3 400 Hz左右,因而本實(shí)驗(yàn)采樣率取8 kHz,16 b量化??紤]識(shí)別的實(shí)現(xiàn),必須將語(yǔ)音進(jìn)行分幀處理。研究表明,大約在10~30 ms內(nèi),人的發(fā)音模型是相對(duì)穩(wěn)定的,所以本實(shí)驗(yàn)中取32 ms為一幀,16 ms為幀移的時(shí)間間隔。
解決實(shí)時(shí)性問(wèn)題必須充分利用DSP芯片的片上資源。利用EDMA進(jìn)行音頻數(shù)據(jù)的搬移,提高CPU利用率。采用PING—PONG緩沖區(qū)進(jìn)行數(shù)據(jù)的緩存,以保證不丟失數(shù)據(jù)。CHMM訓(xùn)練的模板放于外部存儲(chǔ)器,由于外部存儲(chǔ)器較片內(nèi)存儲(chǔ)器的速度更慢,因此開(kāi)啟CACHE。建立DSP/BIOS任務(wù),充分利用BIOS進(jìn)行任務(wù)之間的調(diào)度,實(shí)時(shí)處理新到的語(yǔ)音數(shù)據(jù),檢測(cè)語(yǔ)音的起止點(diǎn),當(dāng)有語(yǔ)音數(shù)據(jù)時(shí)再進(jìn)入下一任務(wù)進(jìn)行特征提取及識(shí)別。將識(shí)別結(jié)果用揚(yáng)聲器播放,并送入到機(jī)器人的控制模塊。
實(shí)驗(yàn)中,采用如圖3的程序架構(gòu)。本文引用地址:http://www.ex-cimer.com/article/161779.htm
評(píng)論