人工智能助力科大訊飛語音轉寫技術新突破
近年來,隨著“人工智能”逐漸成為新時代科技發(fā)展的方向,整個語音行業(yè)也迅速成長。其中,尤以聽寫技術發(fā)展最為迅速,目前已廣泛在語音輸入、語音搜索、語音助手等產品中得到應用并日臻成熟。
本文引用地址:http://www.ex-cimer.com/article/201602/286780.htm但語音技術并不因此止步,聽寫技術解決的是人機對話問題,更多適用于朗讀式風格說話這類很工整的語音,專為識別而生。而現(xiàn)實的場景卻復雜得多——會議、采訪、演講、交談等自然場景下的語音第一目的并非為了轉寫,因此不僅在質量上有先天缺陷,而且是不注重發(fā)音、語速、環(huán)境等影響因素的隨意性非工整語音,對機器的敏感度是極大的挑戰(zhàn)。這就需要在音頻的轉寫技術方面有所突破,就主流技術趨勢而言,解決會話風格和錄音質量兩個問題就成為技術突破的核心要求。
國內語音產業(yè)龍頭科大訊飛在語音領域深耕多年,而日前科大訊飛年度發(fā)布會上亮相的最新成果恰恰包括語音轉寫方面的技術突破,讓人喜出望外。
兩大技術雙劍合璧 突圍人人對話
解決人人對話轉寫問題的難點在于其場景的復雜性與影響因素的多樣性,不僅需要海量的人人交談數(shù)據(jù),更核心的是需要在海量數(shù)據(jù)基礎上進行建模。為突破這一技術難點,經過潛心研究,訊飛獨家推出兩大技術——篇章級處理技術和口語風格處理技術。
科大訊飛通過聲學模型建模技術和語言模型建模技術的創(chuàng)新提高了通用場景的識別率,在此基礎上利用篇章級處理技術(包括AM自適應、LM自適應、領域LM、語義LM等),使雜亂無章的數(shù)據(jù)變得有跡可循。值得一提的是,在提高通用識別率方面,訊飛掌握了近一兩年才成功應用于語音識別中的最新的雙向RNN技術和當下比較火的CTC建模技術,使得識別率比DNN技術和雙向RNN技術分別相對提升了25%和10%。目前,說話人自適應技術已申請專利。
針對人人對話場景中出現(xiàn)的口語詞、猶豫詞、重復等情況,通過口語風格處理技術,讓機器自動學習重復、會跳弧,解決口語場景下的識別問題。
混響技術新突破 成就高品質識別
混響降噪一直是語音轉寫的一大難點。對于為了聽感而錄制的有損失的語音,訊飛綜合利用DNN加混響技術和DNN去混響技術,解決遠場錄音的混響問題。所謂加混響,即在近場的清晰數(shù)據(jù)基礎上加上混響,仿造混響數(shù)據(jù),形成遠場語音,再對機器進行混合訓練,使模型的魯棒性更好。降噪的方式類似。
而如何從源頭上解決混響和降噪似乎才是問題的關鍵,訊飛獨辟蹊徑,將技術創(chuàng)新與專為轉寫而設計的硬件設備結合來解決這一問題。在智能錄音設備上加上多麥克陣列,利用陣列解混響技術去混響。再與單麥克解混響技術結合,進一步提高遠場環(huán)境下的識別率。目前,運用單麥克解混響技術識別率可達到90%以上。
文本摘要技術嶄露頭角
解決了人人對話場景的轉寫問題,人工智能大潮下,語音技術的下一步必然是繼續(xù)在更智能的方向朝前邁進——文本摘要技術成為可預見的迫切需求。摘要本質上是一種高層的語義理解,不僅國內尚屬空白,國際范圍內也鮮有成果。訊飛目前正在做的是先對文本進行預處理,包括異常檢測、標點預測、內容順滑等,過濾掉識別錯誤、重復詞、預期詞,再通過Encoder-Decoder框架解決自動摘要問題,現(xiàn)已獲得專利,有望在明年投入使用。
技術的進步終將落腳于功能和產品,從而服務人們的工作生活。目前,語音轉寫技術的最新發(fā)展成果已應用于科大訊飛旗下的音頻轉文字服務平臺——訊飛聽見(www.iflyrec.com/)、手機APP錄音寶、訊飛聽見錄音筆等產品上,涵蓋了多種終端,成為人工智能發(fā)展的重要推力。同時,隨著移動互聯(lián)網、智能硬件浪潮的到來,科大訊飛整合了各技術領域多年的研究成果,構建了全球首個智能人機交互平臺——“訊飛開放平臺”:將以語音交互為核心的人工智能技術開放給業(yè)界開發(fā)者。未來,通過科大訊飛的技術開放,將有更多類似“訊飛聽見”的人工智能落地化產品能夠快速實現(xiàn)。
評論