人工智能與語音識(shí)別技術(shù)
摘要:隨著深度神經(jīng)網(wǎng)絡(luò)在大規(guī)模語音識(shí)別任務(wù)上獲得顯著效果提升,大數(shù)據(jù)的不斷完善和漣漪效應(yīng)的提出,在近十年,中國的人工智能也得到了快速發(fā)展。作為國內(nèi)智能語音與人工智能產(chǎn)業(yè)領(lǐng)導(dǎo)者的科大訊飛率先將遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到真實(shí)在線系統(tǒng)中,并提出了全新的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)FSMN——訊飛構(gòu)型。
本文引用地址:http://www.ex-cimer.com/article/201603/288901.htm人工智能的三個(gè)層面
2014年8月20日,在國家會(huì)議中心,科大訊飛宣布其人工智能的整體戰(zhàn)略——訊飛超腦計(jì)劃,正式成立。科大訊飛超腦計(jì)劃的首次發(fā)布時(shí),科大訊飛就對(duì)人工智能做了一個(gè)清晰的分割和鑒定,它把人工智能劃分成三個(gè)層面。第一個(gè)層面是運(yùn)算智能,讓機(jī)器具備了能存會(huì)算的能力;第二個(gè)層面是感知智能,讓機(jī)器能聽會(huì)說能看會(huì)認(rèn);但是最有挑戰(zhàn)性的,也是我們?nèi)藚^(qū)別于動(dòng)物的最大的能力,就是我們的認(rèn)知智能。即認(rèn)識(shí)和知道,能理解會(huì)思考,這樣一個(gè)能力。
人工智能發(fā)展三要素——深度神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)和漣漪效應(yīng)當(dāng)
世界因?yàn)槿斯ぶ悄芏淖兊臅r(shí)候,我們開始思考為什么人工智能可以在過去的十年取得如此大的進(jìn)步。胡郁先生認(rèn)為,其實(shí),雖然在整個(gè)學(xué)術(shù)界眾說紛紜,但是慢慢的大家越來越趨向于三個(gè)關(guān)鍵的因素。即,深度神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)和漣漪效應(yīng)。
深度神經(jīng)網(wǎng)絡(luò)其實(shí)只是統(tǒng)計(jì)模式識(shí)別的一個(gè)很小的分支。但是它卻和我們現(xiàn)在大的IT產(chǎn)業(yè)的發(fā)展背景很好地結(jié)合在一起。因?yàn)楝F(xiàn)在統(tǒng)計(jì)模式識(shí)別辦法想要發(fā)揮出人工智能的威力,就要有深度神經(jīng)網(wǎng)絡(luò)能夠更好的使用以及互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代得到越來越多的大數(shù)據(jù)為大基礎(chǔ)。
漣漪效應(yīng)是科大訊飛提出的,是指互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng),把每個(gè)用戶的經(jīng)驗(yàn)和知識(shí)數(shù)據(jù)加入到我們核心技術(shù)研發(fā)過程中來的一種效應(yīng)。像是一個(gè)水滴滴到水面的時(shí)候,這個(gè)水面相當(dāng)于所有的用戶人群,而這個(gè)水滴所激發(fā)起來的這個(gè)漣漪,其實(shí)是這個(gè)核心技術(shù)一開始的效果。一開始水滴滴入水面振幅會(huì)很大,說明它的效果并不好。就像大家今天看到科大訊飛的語音識(shí)別系統(tǒng)已經(jīng)非常準(zhǔn)確,但是在2010年科大訊飛第一次發(fā)布會(huì)發(fā)布其語音輸入法的時(shí)候,識(shí)別率慘不忍睹。在實(shí)驗(yàn)室里面90%的正確率的識(shí)別系統(tǒng)放到真實(shí)環(huán)境下一用,正確率只有55%。但是只要這個(gè)系統(tǒng)在上線運(yùn)行中,就會(huì)不斷地有用戶,他們會(huì)不斷的貢獻(xiàn)數(shù)據(jù),從而為科大訊飛系統(tǒng)不斷改進(jìn)提供助力。當(dāng)這個(gè)水波紋擴(kuò)散出去的時(shí)候,有更多人用的時(shí)候,系統(tǒng)已經(jīng)是改進(jìn)過以后的系統(tǒng)。當(dāng)這個(gè)水波紋已經(jīng)能覆蓋1000萬人,系統(tǒng)改進(jìn)了以后,當(dāng)一千萬零一個(gè)人來使用這個(gè)系統(tǒng)的時(shí)候,對(duì)他來講是第一次,他會(huì)覺得:哇!怎么這么好。 有了這三點(diǎn)我們繼續(xù)可以在語音和圖像的道路上持續(xù)的尋找下去。
科大訊飛的發(fā)展歷程
發(fā)布會(huì)上,胡郁先生為我們展示了科大訊飛在人工神經(jīng)網(wǎng)絡(luò)方面的發(fā)展。其實(shí)真正將神經(jīng)網(wǎng)絡(luò)應(yīng)用在語音識(shí)別和圖像識(shí)別方面并取得成功應(yīng)該是在2010年的7月份。而在2011年9月份,科大訊飛的研究人員在中國科學(xué)技術(shù)大學(xué),就跟鄧力研究員進(jìn)行了探討。在2011年的年底,科大訊飛就將深度神經(jīng)網(wǎng)絡(luò)用于語音識(shí)別上,用于中文語音識(shí)別上第一個(gè)系統(tǒng)上線使用。在2012年4月份,在日本召開的,由微軟研究院的移動(dòng)研究院做的報(bào)告中,將谷歌、微軟和訊飛,列為當(dāng)時(shí)世界上,最先將深度神經(jīng)網(wǎng)絡(luò)推薦使用的幾個(gè)公司和研究機(jī)構(gòu)。此后,他們?cè)?012年將深度神經(jīng)網(wǎng)絡(luò)用于參數(shù)語音合成。利用了深度神經(jīng)網(wǎng)絡(luò)的參數(shù)語音合成系統(tǒng),比我們?cè)瓉硎褂玫囊彩钱?dāng)時(shí)世界上最先進(jìn)的,基于隱馬爾可夫模型的語音合成系統(tǒng)效果提升30%。現(xiàn)在已經(jīng)成為整個(gè)業(yè)界的標(biāo)配。而在2013年,科大訊飛在語種識(shí)別方面,第一次提出了一種新型構(gòu)型的深度神經(jīng)網(wǎng)絡(luò)的構(gòu)型。他們將當(dāng)時(shí)的語種識(shí)別技術(shù),在nist測(cè)試的最先進(jìn)的系統(tǒng)的基礎(chǔ)上,又提高了30%?,F(xiàn)在也是整個(gè)業(yè)界標(biāo)準(zhǔn)的語種識(shí)別構(gòu)型系統(tǒng)。2014年科大訊飛超腦技術(shù)發(fā)布,在超腦計(jì)劃里面他們又將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在更多方面。進(jìn)入2015年后,我們看到了越來越多的成果。
科大訊飛的最新進(jìn)展——不一樣的遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)
我們聽了很長一段聲音之后,就能夠記憶起原來的東西,這是人腦的一個(gè)非常特別的功能叫做記憶能力。人腦的這個(gè)記憶能力非常特別,它包括瞬時(shí)記憶、短時(shí)記憶和長時(shí)記憶。深度神經(jīng)網(wǎng)絡(luò)能夠比較好地模仿人類的大腦,但是深度神經(jīng)網(wǎng)絡(luò)對(duì)于短時(shí)記憶的處理其實(shí)比較弱。最近國際上有一個(gè)新的名詞叫做RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò)),也是我們講的回歸神經(jīng)網(wǎng)絡(luò)或遞歸神經(jīng)網(wǎng)絡(luò)。那么它相對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的唯一改進(jìn)就是他可以用前一個(gè)時(shí)刻的信息輸入到當(dāng)前時(shí)刻,進(jìn)而把原來的一些歷史信息能夠輸入到當(dāng)前來提高它的記憶能力。
一個(gè)真正的回歸神經(jīng)網(wǎng)絡(luò)里面的工作系統(tǒng)是非常復(fù)雜的。它可能包括LSTM。這是一個(gè)長短時(shí)記憶系統(tǒng),它里面還包括一個(gè)雙向語音識(shí)別系統(tǒng)。這個(gè)回歸神經(jīng)網(wǎng)絡(luò),它會(huì)從正向識(shí)別一遍,還會(huì)從反向識(shí)別一遍。而如果想要得到更好的效果,他還需要加一個(gè)叫做CTC(Connectionist Temporal Classification)的系統(tǒng)。那么這個(gè)ctc的系統(tǒng),可以保證在整個(gè)句子層面上的成功率是最高的。其實(shí)在這過程中我們會(huì)遇到很多的難題,比如說這些疊加起來,它的效果可能不是那么好。第二個(gè)是,如果我們剛才要利用未來的信息來識(shí)別的話,它的響應(yīng)時(shí)間會(huì)受到影響。更加重要的是,它是這么復(fù)雜的一個(gè)網(wǎng)絡(luò),如果你要去訓(xùn)練它,例如,訓(xùn)練1萬小時(shí)可能要一個(gè)星期。沒有人能夠忍受得了這種訓(xùn)練時(shí)間。
對(duì)此,科大訊飛提出了自己的構(gòu)型——FSMN(Feed-forward Sequential Memory Network,前饋型序列記憶網(wǎng)絡(luò)),即前饋序列記憶網(wǎng)絡(luò)。利用這種神經(jīng)網(wǎng)絡(luò),可以很好地有效地處理剛才碰到的各種問題。它可以把剛才的幾個(gè)優(yōu)點(diǎn)綜合在一起,它可以非常好的縮短響應(yīng)時(shí)間,它還可以非常好的提升我們的訓(xùn)練效果?,F(xiàn)在我們1萬小時(shí)從原來的一個(gè)星期現(xiàn)在已經(jīng)縮短到了一天。
卷積網(wǎng)絡(luò)是仿照人類視覺機(jī)理,借鑒人類在大腦上處理的一些優(yōu)勢(shì),形成一個(gè)自下而上逐步細(xì)化,從逐步地處理一些線條,局部輪廓到最后整個(gè)人臉。這樣的系統(tǒng)很好地仿照了人類大腦里面的結(jié)構(gòu)。但是僅有這些還是遠(yuǎn)遠(yuǎn)不夠的,它在分析文字的時(shí)候還是會(huì)有一定誤差,處理圖像的時(shí)候,也略顯模糊。
現(xiàn)在科大訊飛的卷積神經(jīng)網(wǎng)絡(luò)將整個(gè)圖片處理、版面分析、文字分割和最后的處理完全集中在一起。它綜合性地使用了卷積神經(jīng)網(wǎng)絡(luò),延遲性神經(jīng)網(wǎng)絡(luò)和我們的HMM的系統(tǒng)。當(dāng)把這些系統(tǒng)綜合在一起的時(shí)候,能夠更好地分析圖文任務(wù)的一些具體的情況,這將使我們得到一個(gè)最好的效果。
Neural Thinking Machine技術(shù)框架
利用深度神經(jīng)網(wǎng)絡(luò)可以把語音識(shí)別和圖像識(shí)別都提升到一個(gè)非常高的層次,但是人類最重要的是認(rèn)知。
人腦的大腦皮層是人區(qū)別于動(dòng)物最顯著的一個(gè)腦結(jié)構(gòu)變化,如果把人類的大腦皮層完全攤開的話,大概相當(dāng)于一個(gè)桌布那么大。但是科學(xué)家研究表明這個(gè)桌布上的不同區(qū)域的功能是完全不一樣的。中間有一部分是專門管視覺的,它會(huì)把你臉的各個(gè)細(xì)節(jié)處理的非常好。還有一部分是管聽覺的,還有一部分是用來管觸覺的。但是這些在感知層面上的各種信息都會(huì)匯聚到認(rèn)知層面。就是概念語言與概念表達(dá)和理解。
當(dāng)我們看到一只貓臉的時(shí)候,其實(shí)我們馬上腦袋里面就會(huì)形成一個(gè)貓的概念,這個(gè)時(shí)候我們腦袋里面會(huì)同時(shí)知道貓的叫聲,我們知道摸貓會(huì)是一種什么樣的感覺。多種不同感知內(nèi)容最后會(huì)匯聚到我們的認(rèn)知層面上。根據(jù)這種啟發(fā),科大訊飛在訊飛超腦里面建立了感知和認(rèn)知的綜合智能引擎的布局。在感知智能方面有Neural Viewing Machine、Neural Reading Machine、Neural Listening Machine。它們分別會(huì)主管看到的東西、閱讀和聽覺。當(dāng)這些東西感知到很多的信息以后,它會(huì)被送到上面的一個(gè)叫做Neural Thinking Machine的地方,在這個(gè)地方所有概念會(huì)進(jìn)行匯聚,這些概念會(huì)進(jìn)行推理,得出結(jié)論,從而幫助我們進(jìn)行決策。而決策以后的結(jié)果會(huì)通過一個(gè)叫做Neural Experssing Machine的結(jié)果返回來。從而形成整個(gè)的,包括交互,包括人類所有智能問題的完整閉環(huán)。其實(shí)Neural Thinking Machine是科大訊飛認(rèn)知的實(shí)現(xiàn)核心。在這個(gè)核心實(shí)現(xiàn)過程中,它主要實(shí)現(xiàn)包括我們講的語言的理解、知識(shí)的表達(dá)、邏輯的推理和最后的決策功能。為了實(shí)現(xiàn)這樣一個(gè)系統(tǒng),我們整個(gè)Neural Thinking Machine技術(shù)框架被定義成,在自然語言表述下的語言理解與生成以及知識(shí)表達(dá)與推理。(注:本文改編自2015年12月科大訊飛年度發(fā)布會(huì)的講話)
本文來源于中國科技期刊《電子產(chǎn)品世界》2016年第3期第23頁,歡迎您寫論文時(shí)引用,并注明出處。
評(píng)論