聚焦2016:關于語音識別、圖像識別及大數據
圖像、語音成為近兩年最熱門的概念,所謂娛樂驅動市場,市場驅動技術發(fā)展。在多元化的互聯網圈里“好玩”才能紅,而圖像與音像也從過去的美化處理往更高深的技術領域前進,在2016年,智能的語音識別和圖像識別將走進普通人的生活中,它們會有哪些展望和動作呢?讓我們所見所聽的世界將變得生動起來。
本文引用地址:http://www.ex-cimer.com/article/201602/286964.htm語音識別技術雖然起源于1952年,但真正進入消費市場已經是上世紀90年代的事了。目前語音識別有兩大發(fā)展方向,一個是純機械指令,基于產品定位而設計命令詞組,作為高效的輔助工具存在;一個是智能化理解語境,與人進行互動交流,并承擔部分處理工作。后者可能是語音識別未來的發(fā)展方向,但實際應用中兩者并不沖突。簡單精準的機械指令讓工作更為純粹,沒必要做多余的計算動作。而很多智能設備將語音作為“解放雙手”的第三類互動形態(tài),就需要對人的語境進行“理解”,相信很多朋友都玩過siri、GoogleNow、Cortana,也同時體驗過這些語音助手“會錯意”的賣萌行為。老羅在去年堅果發(fā)布會上曾說所有語音助手都是“偽”智能,雖然有點以偏概全,但目前語音對語境的識別確實還不夠智能,遠不如機械指令效率。不過這些問題隨著深度學習等AI領域技術的崛起將逐漸克服。
圖像識別從以圖搜圖到明星、物體識別,再到場景識別,甚至現在延伸到了視頻領域,給行業(yè)帶來了太多驚喜。現在圖片內容的價值已經超越圖片本身,并且建立了從圖片到電商的商業(yè)模式。圖像識別一般針對畫面中一個對象做識別,比如大眾熟知的人臉、明星臉等識別技術已經很成熟了,基本識別率達到90%以上。近年、服飾品牌的同款識別和風景識別大行其道,為旅游行業(yè)和服飾行業(yè)創(chuàng)造了商機。圖像識別在視頻領域涌現出強大的應用前景,新興起的互動視頻技術video++已經實現視頻中的人臉和服飾同款的識別,基于圖像識別技術發(fā)展視頻中的商業(yè)場景。另外瞳孔識別的研究已經提上日程,不久的將來,科幻片中所見即所得的情景不再是幻想。
評論