基于ARM的非特定人語音識別系統(tǒng)的設計方案

作者：時間：2014-01-08 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　0 引言

　　語音交互是人類交流和交換信息中最便捷的手段和最重要的媒體，長久以來，人們都希望找尋一種新的途徑解決人類與機器的交互方式，希望機器設備能夠“聽”懂人類的語音信息進行交互，識別其含義并響應、從而做出相應動作，這樣的交互方式更能被使用者接受，取代原有的鍵盤、按鈕、開關等傳統(tǒng)交互方式，基于非特定人的語音識別技術已然成為人機交互新方式的一個重要發(fā)展方向和研究熱點。

　　語音信號的識別涉及眾多學科知識體系，與計算機、語言學、通信、數(shù)理統(tǒng)計、信號處理和人工智能等學科都有著密切的關系，由于語音信號具有信息量大、不確定性、動態(tài)性和連續(xù)性的特點，在語音信號的預處理、特征提取等階段處理數(shù)據(jù)量非常大，對軟件的處理算法和硬件的處理能力都有較高的要求，傳統(tǒng)使用PC機或者工控機等高處理性能的平臺實現(xiàn)語音信號識別，但硬軟件開發(fā)造價無疑是阻礙普及的重要因素，本系統(tǒng)采用ARM Cortex M3 內(nèi)核ST 公司的32 位高性能單片機STM32F103C8T6結(jié)合LD3320語音識別芯片，通過構(gòu)建SD卡文件系統(tǒng)實現(xiàn)非特定人語音識別關鍵詞動態(tài)編輯功能，適用于嵌入式語音識別場合。系統(tǒng)電路簡單，性價比高，識別距離和識別精度都可以滿足嵌入式應用。

　　1 非特定人語音識別技術原理

　　非特定人語音識別技術研究的最終目的是讓計算機等設備能夠“聽懂”人類語音，提取出語音中所包含的特定信息，成為人機通信和交互最便捷的手段。由于語音信號本身具有不確定性、動態(tài)性和連續(xù)性，這就為準確量化和處理該信號帶來非常大的困難，每個人的語音要建立不同的語音樣本也為識別的普及帶來瓶頸約束。目前的語音識別是先建立特征庫然后將待識別的信號經(jīng)處理與特征庫比對得到相似結(jié)果判定輸出。從本質(zhì)上屬于基于統(tǒng)計模式的基本理論，分語言模型訓練、識別分析兩個大階段構(gòu)成和實現(xiàn)，如圖1所示。

　　聲學訓練階段通常是離線完成的，由語言學家對預先收集好的海量語音樣本、語言數(shù)據(jù)庫、噪聲數(shù)據(jù)進行信號處理和知識挖掘，通過語音信號處理理論及相應數(shù)學算法模型建立語音識別系統(tǒng)所需要的“聲學模型”和“語言模型”.

　　識別分析階段通常是在線完成的，對用戶實時的語音進行自動識別。識別過程通常又可以分為“前端”和“后端”兩大模塊：“前端”模塊主要的作用是進行端點檢測、降噪、特征提取等；“后端”模塊的作用是利用訓練好的“聲學模型”和“語言模型”對用戶說話的特征向量進行統(tǒng)計模式識別，得到其包含的文字信息，此外，后端模塊還存在一個“自適應”的反饋模塊，可以對用戶的語音進行自學習，從而對“聲學模型”和“語音模型”進行必要的“校正”,進一步提高識別的準確率。

　　2 系統(tǒng)設計的整體結(jié)構(gòu)

　　本系統(tǒng)以STM32F103C8T6 微控制器為控制核心，搭配微控制器最小核心電路、LD3320語音識別電路、SD卡電路、電源電路、用戶按鍵輸入電路、串口數(shù)據(jù)輸出電路、狀態(tài)指示電路等綜合組成。該系統(tǒng)體積小巧，可以作為嵌入式組件單元融入用戶電路或者板卡中，上電后STM32F108C8T6內(nèi)部程序進行程序初始化、SD 卡文件系統(tǒng)初始化、LD3320初始化、隨后等待識別音頻接收，識別完成后輸出響應信息或者解碼音頻，系統(tǒng)整體結(jié)構(gòu)如圖2所示，最終實現(xiàn)積木式功能組件的全部功能。

　　3 系統(tǒng)硬件電路設計

　　3.1 微控制核心方案選型及電路

　　系統(tǒng)采用ARM Cortex M3內(nèi)核ST公司的32位高性能單片機STM32F103C8T6 為控制核心，該芯片可以達到72 MHz的工作頻率，內(nèi)置高速存儲器（64 KB的閃存和20 KB的SRAM），擁有豐富的I/O口資源和鏈接到兩條APB 總線的外設。包括了12 b 的ADC、通用16 b 的定時器、還包括I2C、SPI、USART、USB、CAN等總線或串行通信接口，片內(nèi)資源和擴展接口都十分豐富，該微控制核心是專門設計于滿足高穩(wěn)定性、低功耗、實時性、高性價比的嵌入式產(chǎn)品應用。該內(nèi)核芯片可以滿足非特定人語音識別的功能要求，利用相關電路構(gòu)成STM32F103C8T6 的最小系統(tǒng)，在硬件PCB 中還集成了功能引針輸出接口、SD卡接口、USB下載調(diào)試電路，用戶按鍵、電源電路等，核心系統(tǒng)電路圖如圖3所示，配合其他外圍擴展達到功能要求。

新聞中心

基于ARM的非特定人語音識別系統(tǒng)的設計方案

評論

相關推薦

技術專區(qū)