<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 3G手機(jī)語音識別應(yīng)用中DSP的選擇策略

3G手機(jī)語音識別應(yīng)用中DSP的選擇策略

作者：時間：2011-02-15 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

隨著DSP技術(shù)的進(jìn)步，計(jì)算能力更強(qiáng)、功耗更低和體積更小的DSP已經(jīng)出現(xiàn)，使3G手機(jī)上植入更精確更復(fù)雜的自動語音識別(ASR)功能成為可能。目前，基本ASR應(yīng)用可以分成三大類：1. 語音-文本轉(zhuǎn)換(語音輸入)；2. 講者識別；3. 語音命令控制(語音控制)。

這三類功能包含了3G所需的眾多ASR性能。語音-文本轉(zhuǎn)換的典型實(shí)例是語音撥號和電子郵件聽寫。講者識別功能可以通過語音識別安全地讀出存儲器中的個人數(shù)據(jù)，從而滿足*定購和銀行服務(wù)等保密性高的應(yīng)用需要。語音命令控制功能包括連接語音擴(kuò)展標(biāo)記語言(VXML)網(wǎng)站內(nèi)容的語音接口，它支持財(cái)經(jīng)服務(wù)與目錄助理等業(yè)務(wù)。目前VXML被用于規(guī)范網(wǎng)站內(nèi)容的語音標(biāo)簽。

語音識別的兩種方法

3G手機(jī)的ASR應(yīng)用設(shè)計(jì)可分為兩類，即以終端為中心和以客戶/服務(wù)器為中心的應(yīng)用。如圖1所示為以終端為中心的設(shè)計(jì)方法，3G手機(jī)(終端)執(zhí)行整個語音識別過程并送出識別結(jié)果。在圖2所示的客戶/服務(wù)器方法中，終端只是執(zhí)行預(yù)處理特征提取，然后通過一個誤碼受保護(hù)的數(shù)據(jù)信道將這些參數(shù)發(fā)送給中心服務(wù)器，中心服務(wù)器最終完成語音識別。如果采用以客戶/服務(wù)器為中心的設(shè)計(jì)方法，3G手機(jī)應(yīng)使用數(shù)據(jù)信道而非移動信道來將語音發(fā)送給服務(wù)器進(jìn)行識別，因?yàn)橐苿有诺浪玫牡退俾收Z音編碼會嚴(yán)重影響語音識別的性能。

各種ASR系統(tǒng)的差異主要體現(xiàn)在詞匯量上。一個簡單的網(wǎng)絡(luò)設(shè)備可能只需要16字的詞庫就能實(shí)現(xiàn)所要求的語音識別功能，而3G移動手機(jī)則需要更大的專業(yè)詞庫。這些詞匯可以跟講者相關(guān)(訓(xùn)練語音識別設(shè)備使之熟悉用戶的聲音特征)或跟講者無關(guān)(語音識別設(shè)備可以識別任何人的聲音)，DSP的計(jì)算負(fù)荷就隨著詞匯量和訓(xùn)練數(shù)據(jù)的增加而增大。

例如，根據(jù)隱性馬爾可夫模型(HMM)可以分析一個典型的跟講者無關(guān)的100條命令識別的應(yīng)用實(shí)例。假設(shè)HMM模型從左到右沒有跳躍地順序擺放，共有6個狀態(tài)、5個具有對角協(xié)方差的混合高斯分布，包含39個特征(13嘜-頻率對數(shù)系數(shù)或MFCC，及其一階和二階差分)，具有16位精度，那么，HMM聲學(xué)模型的大小就是100×5×5×(39+2)×2=240kB。

為了實(shí)現(xiàn)輸入語音樣本差分、窗口截獲、MFCC抽取、概率計(jì)算和維特比搜索等運(yùn)算的實(shí)時性，典型情況下需要消耗DSP的1千萬個乘法-累加周期(MMAC)。對于連續(xù)語音識別來說，上千個三音素模型和多種語法模型需要更多的存儲空間，也需要更快的DSP處理速度。

因此，移動電話中ASR系統(tǒng)的成敗很大程度上取決于DSP的功能和設(shè)計(jì)。第三代系統(tǒng)本身就需要比第二代系統(tǒng)更強(qiáng)性能的DSP，而增加ASR功能就對DSP提出了更高的要求。從結(jié)構(gòu)角度看，對DSP性能的要求是處理速度快、功耗低和代碼密度高。

采用高速DSP是關(guān)鍵

由于系統(tǒng)要實(shí)時對語音進(jìn)行處理和取樣，因此語音識別系統(tǒng)需要具有巨大的計(jì)算能力。下面的數(shù)字和計(jì)算假設(shè)采用的是圍繞終端的設(shè)計(jì)方法。如果將DSP計(jì)算資源的20%分配給一個10MMAC的語音識別系統(tǒng)使用，那么就需要一個具有50MMAC的DSP才能滿足這一功能需要，并可提供足夠的空間執(zhí)行3G手機(jī)所需的其它DSP任務(wù)，如處理軟貓。如果采用較慢的DSP，如25MMAC的DSP，那么詞匯表中的命令數(shù)量就要減半，或減少HMM參數(shù)，這樣會降低整個系統(tǒng)性能。

DSP的速度決定了語音識別系統(tǒng)的復(fù)雜性和性能。舉例來說，如果一個基本的跟講者無關(guān)的連續(xù)語音識別系統(tǒng)需要100MMAC，DSP計(jì)算資源的50%用于滿足3G手機(jī)的其它DSP任務(wù)的需求，那么DSP的處理速度就需要達(dá)到200MMAC。

成本、性能和效率的折衷

DSP的速度越快，就越便于利用現(xiàn)代的HMM技術(shù)，如信道匹配和聲域匹配技術(shù)，因此，理論上講，DSP速度越快，ASR系統(tǒng)的性能就越好。然而，并行處理方法在提高ASR系統(tǒng)吞吐量中也扮演著重要角色。例如，一個具有4 ALU(算術(shù)邏輯單元)的200MHz DSP比只有1 ALU但運(yùn)行于400MHz的DSP具有更高的吞吐量。根據(jù)具體應(yīng)用的不同，2到3個單ALU DSP提供的性能與一個具有4 ALU的DSP相仿。相對一個具有4 ALU的DSP處理器方案來說，多個單ALU的DSP會提高手機(jī)的成本，因此對于適銷對路產(chǎn)品要充分權(quán)衡成本與性能之間的折衷。

總之，當(dāng)比較一個600MHz的單ALU DSP和一個300MHz但有4 ALU的DSP時，設(shè)計(jì)工程師始終應(yīng)把握的最終目標(biāo)是高效的運(yùn)算吞吐量，具有多個ALU的DSP也許是最好的解決方案。

性能與功耗

頂級性能的DSP采用并行結(jié)構(gòu)來獲得最佳的性能空間。有個著名的平衡型并行結(jié)構(gòu)StarCore SC140就采用了指令級并行結(jié)構(gòu)，它具有4個并行ALU以及一個稱為變長執(zhí)行集(VLES)的改進(jìn)型甚長指令字模型。VLES的優(yōu)點(diǎn)在于它支持在內(nèi)存中完成高效的指令調(diào)度、執(zhí)行和打包。它能通過一個指令隊(duì)列對前端提供反饋，并通過調(diào)度器控制后端，因此除非需要執(zhí)行計(jì)算，VLES處理一般不消耗功率。

在并行VLES結(jié)構(gòu)中，一些特殊指令需要成組以避免空操作(Nop)，由于減少了時鐘周期，處理時間也相應(yīng)減少了。比較而言，在甚長指令字計(jì)算中，所有執(zhí)行步驟都必須按順序排列，因此在一個8字節(jié)的執(zhí)行集甚至是1字節(jié)數(shù)據(jù)時，系統(tǒng)就需要7個占位符(placeholder)或Nop。

由于VLES結(jié)構(gòu)不需要Nop，VLES設(shè)計(jì)中的復(fù)雜性從硬件或編程器轉(zhuǎn)移到了編譯器。由于每個周期都充滿了數(shù)據(jù)，因此每個周期就具有更高的效率，從而也提高了電源與內(nèi)存的使用效率。

電源管理

由于ASR系統(tǒng)需要連續(xù)處理語音數(shù)據(jù)，會使DSP成為消耗電能的主要部件，因此高效利用電源對設(shè)備成功走向市場至關(guān)重要。

在高性能DSP中，選擇16位指令集而非32位指令集能提高代碼密度，進(jìn)一步減少對內(nèi)存、功耗和體積的需求，一部分原因是由于更短的16位指令集可以減少寄存器和數(shù)據(jù)線數(shù)量。例如在ASR應(yīng)用中，存儲的詞匯量可能達(dá)到2.5MB(對于1024簇的三音素狀態(tài)，5個合成和39個參數(shù)來說，聲學(xué)HMM狀態(tài)模型是400KB；一本有1萬個三態(tài)三音素代碼本是60KB；三音素狀態(tài)轉(zhuǎn)移概率矩陣是500KB；一個具有40個雜亂態(tài)2萬字的雙字母組是1.6MB)。如果DSP具有高的代碼密度，能為ASR系統(tǒng)提供固定數(shù)量的存儲器，那么就可以獲得更好更大的聲學(xué)和語言模型。

片上和片外存儲器

對于ASR系統(tǒng)中使用的DSP來說，有效地利用片上和片外存儲器是另外一個重要的課題。由于ASR系統(tǒng)需要大量的存儲空間用于詞匯與模式識別數(shù)據(jù)的存儲，一個靈活的存儲結(jié)構(gòu)在這里將顯得特別重要。例如，一個具備統(tǒng)一尋址存儲器的DSP能使設(shè)計(jì)工程師很好地平衡程序和數(shù)據(jù)，還能平衡系統(tǒng)算法的復(fù)雜性與聲學(xué)和語言模型的大小以獲得最優(yōu)化的性能。

例如，如果具有100條命令的識別系統(tǒng)模型只有100kB的片上系統(tǒng)內(nèi)存，總共內(nèi)存空間需求是240kB，那么采用二次識別方法能更有效地利用片上快速存儲器。

第一次(原始識別階段)只使用39個參數(shù)中的13個MFCC，因此模型大小為80kB，可以載入片上內(nèi)存。原始識別階段的候選命令數(shù)量要比原來的100個少，比方說是33個命令，但可信度高達(dá)99.9%。

第二次(精確識別階段)把33個候選命令的39個參數(shù)作為模型使用，大小是80kB，因此又可以把該模型裝載入片上內(nèi)存。這種二次識別方法會引入一些延時，但延時非常小，大約只有10ms，說話人一般不會覺察到。

統(tǒng)一尋址存儲器能夠支持較大的詞匯庫或命令集，還能支持較大的HMM模型或神經(jīng)網(wǎng)絡(luò)系數(shù)，因此能簡單化實(shí)時任務(wù)。例如為ASR系統(tǒng)的程序和數(shù)據(jù)準(zhǔn)備100kB的存儲器，設(shè)計(jì)工程師就能平衡好算法復(fù)雜性與詞匯量或命令集大小之間的關(guān)系。如果程序要占50kB，那么數(shù)據(jù)只能是50kB。如果允許降低識別精度而將程序代碼壓縮到20kB，那么命令集就能用到80kB，也就是增加了詞匯庫容量。

在ASR系統(tǒng)中，高度并行化、高代碼密度和有效利用存儲器等優(yōu)點(diǎn)還能使DSP完成語音識別以外的任務(wù)。在大多數(shù)情況下，設(shè)計(jì)工程師可以將部分計(jì)算資源分配給語音識別之用，而將剩余資源用來執(zhí)行信道處理系統(tǒng)中所需的其它任務(wù)。

在選中最優(yōu)化的DSP后，要想獲得高性能的ASR用系統(tǒng)級芯片還需要增加一些功能，例如快速緩存或快速指令/數(shù)據(jù)存取以及實(shí)時操作系統(tǒng)(RTOS)才能使ASR系統(tǒng)真正完成實(shí)時性能。多任務(wù)RTOS能使系統(tǒng)同時運(yùn)行多個應(yīng)用如雙通道語音識別，因此能極大地提高系統(tǒng)性能。

復(fù)雜SoC應(yīng)用(如信道處理系統(tǒng))設(shè)計(jì)工程師能從使用高效的高級語言編譯器的DSP和SoC中獲益，因?yàn)檫@些編譯器允許設(shè)計(jì)工程師使用C或C++語言進(jìn)行編程。采用增強(qiáng)的片上仿真和調(diào)試功能還可以進(jìn)一步縮短設(shè)計(jì)時間。對于3G移動手機(jī)應(yīng)用中各層次的元器件與系統(tǒng)設(shè)計(jì)來說，除了實(shí)時性能和簡化設(shè)計(jì)流程外，功率管理控制同樣非常重要。在設(shè)計(jì)SoC時，選擇具有可調(diào)功率功能的內(nèi)核將獲益非淺。例如當(dāng)移動用戶在說話時，DSP需要全速運(yùn)行(如300MHz)。當(dāng)未使用ASR功能時，SoC電源管理電路可以逐步降低到較低的時鐘速度(如100MHz)，從而有效地降低漏電和功耗。

由于ASR系統(tǒng)對計(jì)算速度的需求會根據(jù)識別特征的差異產(chǎn)生很大變化，例如孤字識別或連續(xù)語音識別、詞匯量和跟講者無關(guān)的語音識別等，因此，能支持ASR功能的信道處理系統(tǒng)的復(fù)雜性變化也很大。

SoC非常適合于構(gòu)造芯片的基礎(chǔ)架構(gòu)，因此在以客戶/服務(wù)器系統(tǒng)為中心的設(shè)計(jì)中是非常理想的選擇，但SoC器件由于功能太強(qiáng)大，因此并不非常適合于用戶端以終端為中心的設(shè)計(jì)。然而，隨著ASR系統(tǒng)的逐漸成熟以及3G手機(jī)支持越來越復(fù)雜的應(yīng)用和復(fù)雜ASR，這類功能強(qiáng)大的SoC也能成功地運(yùn)用到用戶端。

在SoC上使用多個DSP能使系統(tǒng)在完成語音識別的同時更容易地執(zhí)行其它任務(wù)。例如三個內(nèi)核中的一個可以專門指定用來完成多信道的服務(wù)器端ASR，而其它二個內(nèi)核用于執(zhí)行像語音信道和互聯(lián)網(wǎng)數(shù)據(jù)處理這樣的任務(wù)。將來如果手機(jī)鍵盤不復(fù)存在的話，ASR將成為用戶與手機(jī)之間的唯一接口，到時這一功能將占用大部分的工作時間。

采用多個DSP內(nèi)核還能提供強(qiáng)大的計(jì)算能力，從而使執(zhí)行非常復(fù)雜的ASR任務(wù)成為可能，如電子郵件聽寫中的連續(xù)語音識別、安全交易和VXML中的“口令+講者驗(yàn)證”等。多個DSP再加上統(tǒng)一的大型片上存儲器可以極大地縮短跟講者無關(guān)的訓(xùn)練過程，因?yàn)樵诮y(tǒng)計(jì)型ASR中訓(xùn)練過程的計(jì)算負(fù)載比識別處理過程的負(fù)載重得多。

本文小結(jié)

盡管3G手機(jī)要想贏得市場，人們對其功能和設(shè)計(jì)仍將拭目以待，但這些系統(tǒng)需要高性能的信號處理平臺以滿足多媒體任務(wù)需求是不容置疑的，而隨著ASR系統(tǒng)的不斷普及，3G手機(jī)肯定需要具備運(yùn)行多任務(wù)能力的多DSP SoC作為解決方案。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： DSP公司 dsp開發(fā)板 dsp教程 工業(yè)控制 網(wǎng)絡(luò)通信 多媒體處理 數(shù)字信號處理 DSP

評論

相關(guān)推薦

C64+ 系列DSP上Cache 的應(yīng)用（第二部分）

視頻 TI DSP C64+ Cache | 2009-10-16

2002年度網(wǎng)絡(luò)通信十大技術(shù)趨勢

liujt_ic | 2003-01-07

LJMl812(工業(yè)控制、通信和報(bào)警設(shè)備)超聲波迢控發(fā)射或接收電路

設(shè)計(jì)方案 LJMl812 工業(yè)控制信和報(bào)警設(shè)備超聲波迢控發(fā) | 2009-07-06

DSP 入門教程

資源下載 TI DSP 選型技術(shù)介紹 | 2007-12-14

DSP芯片的原理與開發(fā)應(yīng)用

資源下載 TI DSP 開發(fā)原理 | 2007-12-15

愛威-愛威DSP-2090放大器環(huán)繞聲電路(二)

設(shè)計(jì)方案愛威 DSP-2090 放大器環(huán)繞 | 2009-08-06

DSP.....ARM仿真器之后你還需要什么工具？

電子陽光 | 2004-11-04

TI DSP開發(fā)工具CCS上AET調(diào)試功能

視頻 TI DSP DSP AET CCS | 2009-10-16

充電器算法復(fù)雜傳統(tǒng)MCU難以勝任？不如試試這些集成DSP內(nèi)核的MCU

嵌入式系統(tǒng) DSP MCU | 2024-05-15

TEK9200工業(yè)控制核心模塊

技創(chuàng)快刀 | 2004-05-29

通信接收機(jī)：DSP、軟件無線電和設(shè)計(jì)

資源下載 DSP 軟件無線電通信接收機(jī) | 2007-12-11

FDT/DTM技術(shù)：工業(yè)自動化世界的指揮棒

工控自動化 FDT DTM 工業(yè)控制 | 2024-05-31

華為最強(qiáng)科普：什么是DSP？

嵌入式系統(tǒng) DSP | 2024-05-20

從模擬前端看PLC技術(shù)應(yīng)用趨勢

工控自動化恩智浦模擬技術(shù) 工業(yè)控制 PLC IO接口 | 2024-05-15

NI PAC平臺引領(lǐng)工業(yè)控制發(fā)展新技術(shù)

視頻 NI 工業(yè)控制 PAC | 2009-04-23

步進(jìn)電機(jī)工作原理

工控自動化步進(jìn)電機(jī) 工業(yè)控制自動化 | 2024-04-15

《數(shù)字信號處理教程－第二版》

資源下載 TI 數(shù)字信號處理教程 | 2007-12-15

進(jìn)芯電子攜多款DSP芯片及消費(fèi)電子解決方案亮相2024中國制冷展

工控自動化進(jìn)芯電子 DSP 中國制冷展 | 2024-04-10

HT一7605 (報(bào)警器、燈具和工業(yè)控制)熱釋電紅外線接收控制電路

設(shè)計(jì)方案報(bào)警器燈具工業(yè)控制熱釋紅外線接收控制 | 2009-07-06

C64+ 系列DSP上Cache 的應(yīng)用（第一部分）

視頻 TI DSP C64+ Cache | 2009-10-16

NI PAC平臺引領(lǐng)工業(yè)控制發(fā)展新技術(shù)

視頻 NI PAC 工業(yè)控制 | 2009-07-17

恩智浦SAF9xxx發(fā)布，汽車AI音頻處理升級！

汽車電子汽車音頻 DSP SDV 汽車娛樂系統(tǒng) | 2024-06-21

基于uCLinux和S3C4510B的網(wǎng)絡(luò)通信設(shè)計(jì)

icecool | 2004-11-06

“進(jìn)芯電子”為DSP電機(jī)控制帶來國風(fēng)新勢力

工控自動化 202405 進(jìn)芯 DSP 電機(jī)控制 | 2024-04-17

“看透”工業(yè)生產(chǎn)，機(jī)器視覺讓制造更精準(zhǔn)

工控自動化工業(yè)控制機(jī)器視覺 AI 傳感器 | 2024-05-15

[求助]關(guān)于transtech-dsp？？？

fancy_wind | 2004-10-29

TMS320LF240x DSP應(yīng)用程序設(shè)計(jì)教程

資源下載 TI TMS320LF240x DSP 應(yīng)用程序設(shè)計(jì) | 2007-12-08

愛威-愛威DSP-2090放大器環(huán)繞聲電路(三)

設(shè)計(jì)方案愛威 DSP-2090 放大器環(huán)繞 | 2009-08-06

模擬芯片行業(yè)辟土開疆，為工業(yè)領(lǐng)域提供高效動能

工控自動化模擬芯片工業(yè)控制 MCU | 2024-05-11

愛威-愛威DSP-2090放大器環(huán)繞聲電路(一)

設(shè)計(jì)方案愛威 DSP-2090 放大器環(huán)繞 | 2009-08-06

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();