如何運用RSC-3x開發(fā)出高性能的語音識別產品
摘要:本文給出了在運用RSC-3x設計高性能的語音識別產品時應考慮的與硬件有關的若干問題:噪音降除、電路設計、PCB設計、麥克風的選擇、麥克風的安放、電源設計。
關鍵詞: RSC-3x, 識別率,噪音降除,電路設計,PCB設計,麥克風,電源
RSC-3x是美國Sensory公司出品的交互式語音產品。它同RSC其他系列的產品一樣運用神經元算法實現(xiàn)了語音識別的功能,在理想環(huán)境下,其識別率可達97%以上。并具有語音合成、錄音回放、四聲道音樂合成等語音處理功能。由于內含一個8位處理器,RSC-3x還可實現(xiàn)通用處理器的系統(tǒng)控制功能。RSC-3x的高性能和適中的價格使得它主要應用在消費類電子產品和價格敏感的家電產品上。
但是,如何才能運用RSC-3x系列產品開發(fā)出性能良好的語音識別產品呢?本文給出了在設計語音識別產品時應在硬件方面考慮的若干問題。
一、噪音降除
語音識別的準確率(簡稱識別率)會受到諸多因素的干擾而下降。一個導致識別率下降最常見的因素就是噪音:來自系統(tǒng)內部的電子噪音和麥克風所拾取的聲頻噪音。RSC-3x的一個主要革新技術就是在其片內加入了一個聲頻預放電路。來自典型的駐極體麥克風的電壓信號只是毫伏級的,而能被RSC-3x使用的整個預放增益信號卻要放大到200倍以上。通過RSC-3x內置的預放電路,只需外加少許的幾個被動元器件就可以達到這個放大作用。良好的接地措施和消除模擬電路中的交叉干擾會進一步確保良好的識別率。鼓勵用戶大聲說話和接近麥克風可以輔助獲得良好的信噪比。
二、電路設計
圖一是RSC-3x聲頻預放部分的參考電路。阻值為1.5K的麥克風電阻(Rx)對系統(tǒng)增益具有很大的影響,因此應根據(jù)麥克風的敏感度來決定其值的大小。圖中的1.5K是典型值。
下表所列為Rx和Cx的推薦值:
Rx | Cx |
1K | 0.01uF |
1.5K | 0.0068uF |
2.2K | 0.0047uF |
2.7K | 0.0033uF |
3.9K | 0.0027uF |
4.7K | 0.0022uF |
三、PCB設計
推薦使用帶地平面的雙面印制的PCB板。地平面應覆蓋整個模擬電路區(qū)域而僅在RSC-3x附近接地。為減少交叉干擾,模擬地和數(shù)字地應盡可能地從物理上分隔開來。特別要注意的是:將高速時鐘線(如地址線和數(shù)據(jù)線)遠離麥克風元器件和電路。
每個數(shù)字IC都要在緊挨著VDD的地方接一個0.1uF的旁路電容,RSC芯片的每對VDD腳和VSS腳間都要接一個。該旁路電容應該是最大電壓為50V的陶瓷電容。如果使用了3端穩(wěn)壓器(如7805),應在其輸入/輸出腳和地之間接近穩(wěn)壓器的地方接上鉭旁路電容。
在使用電池的產品中,串接一個二極管以避免電池裝反時損壞電路。
如果產品中除了RSC還有其他需要用到數(shù)字時鐘的模塊(如開關電源、LCD驅動器等),特別要注意防止這些信號進入到RSC的聲頻電路中去。
四、麥克風的選擇
對絕大部分的產品來說,廉價的多向駐極體電容麥克風(最小敏感度為-60dB)就足夠了。在有些應用中,信號與音頻噪音來源于不同方向時,定向麥克風可能更適合些。由于定向麥克風的頻率反應取決于麥克風與聲源間的距離,這樣的麥克風應謹慎使用。為得到最佳性能,語音識別產品應運用于安靜的環(huán)境,說話人的嘴應與麥克風極為接近。 如果產品是為在嘈雜環(huán)境中使用而設計的,設計時要充分考慮周圍環(huán)境的噪音。提高信噪比將有助于產品的成功。
五、 麥克風的安放
設計恰當?shù)柠溈孙L嵌入方式和選擇性能一致的麥克風是重要的。因為對麥克風不當?shù)穆晫W布置會降低RSC-3x的識別率。麥克風元件有許多種可能的物理放置方式,但有的就會比別的性能更好效果更佳。為此,Sensory推薦了以下的麥克風放置方案:
首先: 產品中,麥克風元件應盡可能地接近外殼,應完全位于塑料外殼內。麥克風元件和外殼間不應有任何空隙。只要有空隙就會產生回音,從而降低識別率。
其次:麥克風元件的前部應確保干凈無污,以免干擾識別。麥克風前面的外殼上要保留直徑至少為5mm的孔。如果一定要在麥克風的前面加塑料表面的話,塑料表面要盡可能地薄,最好不要超過0.7mm。
三:如果可能的話,麥克風與外殼間應聲音隔離??梢詫Ⅺ溈孙L用橡皮或泡沫等海綿物質包裹起來。這樣做的目的在于防止由搬運或震動產品時產生的聽覺噪音被麥克風采集。這種外來的噪音會降低識別率。
如果麥克風從距離說話人的嘴15cm的地方移到距離為30cm的地方,信號功率就降低了1/4。高音和低音間的差別也大于1/4。RSC-3x提供了一個AGC(自動增益調節(jié))來補償太大或太小的聲音信號。AGC在麥克風的預放內工作。如果超過了AGC的調節(jié)范圍,軟件會給說話人提供一個聲音回饋,如提示“請說大聲點”或“請說小聲點”來提醒說話人。
六、電源設計
由于 RSC-3x工作時其語音識別電路要消耗約10mA 的電流,電源的設計在這里顯得尤為重要。如果系統(tǒng)連續(xù)聆聽尋找一個給定的詞匯,那么在幾小時內就能消耗完一個紐扣電池的電能,幾天內消耗掉一個大容量的堿性電池的電能。因此如果產品需要識別器一直處于工作狀態(tài)的話,系統(tǒng)應該采用市電供電。相反的,如果電源采用電池供電的話,那么產品大部分時間應工作于低功耗的“睡眠”狀態(tài),只在需要識別時被喚醒就行了。RSC-3x的喚醒可以通過按鍵或其他IO口事件或震蕩器二的時鐘倒計時來實現(xiàn),但無法被麥克風采集到的語音信號喚醒。
使用市電供電時,在 VDD和GND間測得的市電電源波紋不應超過5mV。因此,需要在電源部分增加直流電源穩(wěn)壓器(如7805)來穩(wěn)定電壓。
評論