實(shí)現(xiàn)不間斷對話后,微軟小冰距離理想中的樣子又近了一步
更加自然的全雙工語音交互感官
本文引用地址:http://www.ex-cimer.com/article/201804/377948.htm其實(shí)我對于此次小冰所具備的智能家居設(shè)備控制技能、更加人性化的情感和同理心能力以及獨(dú)特的「小冰姐姐」模式這三項(xiàng)功能并不感到意外,而真正值得關(guān)注的地方是其一次喚醒可進(jìn)行連續(xù)對話。
要知道,目前包括智能音箱在內(nèi),絕大多數(shù)語音控制設(shè)備都采用了「一問一答」的交互方式。理由也很簡單,這樣的方案允許設(shè)備在技術(shù)并不足夠成熟的前提下,依舊能夠可以相對不錯的識別準(zhǔn)確度。
但這樣的人機(jī)交互方式所存在的不足之處在于,其并不符合人們自然的交互習(xí)慣。從某種角度上來說,即便是它在準(zhǔn)確度和回饋速度上都做到了接近完美,但可能也還是更多地停留在「工具」的層面,并非人們理想中人工智能該有的模樣。
而對比來看,搭載了微軟小冰的 Yeelight 可以實(shí)現(xiàn)對話像河流一樣不間斷進(jìn)行,在語音交互方式上顯然要更自然一些,微軟稱之為全雙工語音交互感官。
不顧想要實(shí)現(xiàn)近乎于人與人之間的交流方式,顯然并不是一件容易的事情,在前幾天的媒體溝通會上,小冰團(tuán)隊(duì)也對這背后部分技術(shù)特征進(jìn)行了披露。
首先在基礎(chǔ)框架上,微軟沒有選擇面向單個任務(wù)的的 Turn-oriented,而是采用了面向?qū)υ捜痰?Session-oriented。
同時在實(shí)際的人機(jī)交互過程中,小冰所采用的全雙工語音交互技術(shù),在包括邊聽邊想、節(jié)奏控制器、對聲音場景的理解以及自然語言理解與生成模型等多個維度上進(jìn)行了探索。
首先它建立了一套預(yù)測模型,來實(shí)現(xiàn)邊聽邊想。簡單來講,小冰會提前預(yù)測你想要表達(dá)的完整意思,從而實(shí)現(xiàn)更快的響應(yīng)速度和改口能力。同時在回答你所提出的問題時,可以實(shí)現(xiàn)動態(tài)回應(yīng),通過有選擇的將回答分成多段,來減少你的等待時間。
另外,為了讓小冰在與人類的對話過程中可以更好的掌握時機(jī)和重要內(nèi)容,它也設(shè)置了節(jié)奏控制器。當(dāng)然,人與機(jī)器交互時需要它能夠很好的實(shí)現(xiàn)對聲音場景的理解。比如識別你的性別、對指令的正確識別等等。
還有一個重要的技術(shù)特征是,小冰擁有自然語言理解與生成模型,從而實(shí)現(xiàn)更好的容錯性以及基于整個對話對上下文的理解。
綜合來講,在語音交互方式上,微軟選擇了一條短時間內(nèi)可能并不容易獲得明顯效果,但上限更高的技術(shù)路徑。不難想象的是,未來隨著 Turn-oriented 框架走到極致而無法更進(jìn)一步的情況下,也會有越來越多語音平臺加入到這個行列中。
但顯而易見的是,早先一步開始布局 Session-oriented 框架的微軟已經(jīng)領(lǐng)先了半個身位。從長遠(yuǎn)來看,其將獲得更高的收益。
回過頭來看小冰這個平臺,正如我們前邊提到的,雖然就目前而言它的整體體驗(yàn)并不那么完美,但其成長上限非常高。一旦未來各方面走向成熟,這個平臺或許將最早成為我們理想中的人工智能。
評論