科大訊飛胡郁:人工智能的發(fā)展未來與創(chuàng)業(yè)
人工智能的前世今生
本文引用地址:http://www.ex-cimer.com/article/201702/343991.htm人工智能這一話題,最早可以回溯到1946 年世界上第一臺電子計算機 ENIAC 的誕生。ENIAC 產生以后,很多計算機科學家對于計算機將來能夠代替人類做什么事情有很多聯(lián)想,其中最著名的一個人是圖靈,他在 1950 年左右在人工智能領域進行了很多的探討,并且提出了著名的“圖靈測試”。而“人工智能”一詞真正被提出來,是在 1956 年Dartmouth 的會議上,由四位圖靈獎得主、信息論創(chuàng)始人和一位諾貝爾獎得主一起將“人工智能”定義出來,包括明斯基、西蒙、麥卡塞等人,這次會議也被公認為人工智能研究的出生典禮。
人工智能與機器人的關系在今天看來,“機器人”一詞出現更早,1920 年就第一次出現了 Robot 這個詞,原本是蒸汽機械時代出現的東西,主要基于機械原理,跟計算機數字化、數學沒有什么關系;但在表現形式上有所不同:比如想要開家里二樓的燈,如果通過人工智能,只需要對著系統(tǒng)說一句,系統(tǒng)就會從后臺對語音指令進行分析并開燈;如果是機器人,則需要爬到二樓去把燈打開。正本清源,人工智能 (Artificial Intelligence) 是指,能夠和人一樣進行感知、認知、決策、執(zhí)行的人工程序或系統(tǒng)。然而,人工智能發(fā)展的 60 年不是一帆風順的,起起伏伏共經歷了三次浪潮。
(1)1970 年第一次黃金期。自從Dartmouth 會議以后,人們陸續(xù)發(fā)明了第一款感知神經網絡軟件和聊天軟件,那時大家都驚呼“人工智能來了,再過十年機器要超越人類了”。不過,很快到了 70 年代后期,人們發(fā)現過去的理論和模型,只能解決一些非常簡單的問題,很快人工智能進入了第一次的冬天。
(2)1990 年第二次黃金期。隨著1982 年 Hopfield 神經網絡和 BP 訓練算法的提出,大家發(fā)現人工智能的春天又來了。 80 年代又興起一波人工智能的熱潮,包括語音識別、語音翻譯以及日本提出的第五代計算機。不過,到了 90 年代后期,人們發(fā)現這種東西離我們的實際生活還很遙遠。比如 IBM 在 90 年代時提出了一款語音聽寫的軟件叫 IBM Viavoice,在演示當中效果不錯,但是真正用時卻很難使用。因此,在 2000 年左右第二次人工智能的浪潮又淹沒了。
(3)現在到了人工智能真正爆發(fā)的前夜。隨著 2006 年 Hinton 提出的深度學習技術,以及在圖像、語音識別和其他領域內取得的一些成功,大家認為經過了兩次起伏,人工智能開始進入了真正爆發(fā)的前夜??傊?,就國內外人工智能公司這么多年的發(fā)展來看,使命是內在的,階段性目標是變化的。
人工智能何時能到來?
在我看來,人工智能時代的到來離不開人機交互模式的變革??梢钥吹?,自 60 年代至今,IT 產業(yè)已經歷硬件、軟件、互聯(lián)網、移動互聯(lián)網與人工智能這五大浪潮,當前已進入物聯(lián)網產業(yè)萬物互聯(lián)的時代。在無屏、移動、遠場狀態(tài)下,以語音為主,鍵盤、觸摸等為輔的人機交互時代正在到來。目前主要面臨兩種交互:一種是只需要語音即可,比如藍牙音箱、手環(huán)等,語音之外,不需要看到任何信息;另一種是語音+圖像,比如電視上的語音交互、手機等。在這種情況下,觸摸交互的學術名詞應該叫做強視覺呈現的觸摸交互;而語音作為人機交互最自然的方式,將有效促進人工智能與各行業(yè)的結合,讓人工智能更容易進入大家的生活。除了語音交互,科大訊飛也在研究人臉識別技術,其特色是可以將人臉識別與聲紋識別結合在一起,將聲音與圖片混合,來做活性檢測。
由此,人工智能也將進入“智能 +”的時代,人工智能與各個行業(yè)的深入結合蘊含著巨大的機會。除了交互,人工智能還可以用在教育、醫(yī)療、智慧城市、出行、司法、安全、金融等眾多領域;同時,它在各個行業(yè)里可以做一個最簡單的事情:就是替代人工。在未來的 10 年,人工智能會像技術的服務一樣,進入到我們的生活當中,每個人都將離不開。
那么人工智能如何得以實現?在這里,我將人工智能的演進發(fā)展分成三個階段:計算智能(能存會算)、感知智能(能聽會說,能看會認)和認知智能(能理解會思考)。計算智能就是計算機與人類比存儲、比記憶,在此方面已經遠遠超過人類了。不過,在感知層面,計算機在語音、圖像識別等方面與人類還有較大差距,讓計算機真正能理解、會思考、進行自我學習,還是很欠缺的。只有實現認知智能的突破,AI 才能部分取代腦力勞動。
人工智能與創(chuàng)業(yè)
2016 年,人工智能產業(yè)得到了長足的發(fā)展,收獲了不少成功的案例。這里,我認為至少有三個因素促進了人工智能在產業(yè)界的成功:深度神經網絡、大數據以及漣漪效應。
(1)深度神經網絡。其模型和算法相對于傳統(tǒng)的方法,有著本質的不同;雖然它與我們人類的神經網絡相比,還有很多不足,但是確實在架構和描述方面有其強大之處。
(2)大數據。隨著移動互聯(lián)網的迅猛發(fā)展,數據每天都是以指數級增加:通過手機、微信等工具和軟件,人們可以隨時隨地把視覺、聽覺上的這些數據輕松地傳到網上,匯聚起來形成大數據。
(3)漣漪效應。隨著移動互聯(lián)網的發(fā)展,各種軟件、各種設備接觸用戶的門檻極大地降低了。例如,當一款新的 APP 找到第一批用戶時,他們的使用行為和個人數據就被后臺記錄下來,開發(fā)者再對這種行為和記錄進行迭代改進;當再把 APP投向第二批用戶時,軟件的性能已經比第一代產品有了較大提升,這就是漣漪效應。
可以說,漣漪效應推動了語音辨識與圖片識別的發(fā)展,特別是語音識別的實用化,更是得益于“漣漪效應”。科大訊飛在 2010 年推出語音識別產品時,識別率只有 60% 左右,剛開始大家都覺得很難用,但是有一批嘗鮮的用戶。隨著技術的迭代、更新,以及數據持續(xù)的迭代,如今訊飛語音識別率已經提高到 95% 以上,達到了完全實用的狀態(tài)。圖像識別技術也同樣如此,ImageNet 圖像識別任務在 2012 年時錯誤率高達 26.2%,但是到 2015 年底已經降到了 3.57%。基本上可以說,圖像識別技術的發(fā)展使得我們只要通過一個攝像頭,就能將家中的各種物體很輕易地分辨出來。
因此,可以得出兩點結論:深度神經網絡與大數據的結合已成為當前主流路徑;而基于互聯(lián)網和移動互聯(lián)網的“研究—工程—產品—用戶”的閉環(huán)優(yōu)化加速了產品迭代優(yōu)化的進程。
當然,對于人工智能領域的創(chuàng)業(yè)者來說,產品創(chuàng)新、系統(tǒng)創(chuàng)新以及商業(yè)模式的創(chuàng)新也都是非常重要的。從技術層面看,產品創(chuàng)新與系統(tǒng)創(chuàng)新是相對立存在的,產品創(chuàng)新可以是一些微創(chuàng)新,而系統(tǒng)創(chuàng)新所需的資金和時間耗費都很大,從沒有到開始立項,到最后商用需要 15~20 年,基本上創(chuàng)業(yè)者一輩子只能做出一個。從公司競爭角度看,現在的人工智能公司競爭不是單獨兩個公司,而是生態(tài)系統(tǒng)的競爭。比如創(chuàng)業(yè)公司很難獨立把人工智能做好,于是各大公司都要做人工智能平臺,包括科大訊飛的語音開放平臺,現在已有 23 萬開發(fā)者,每天服務 30~35 億次,連接的數目達 90 多億。
同時,在這個過程中,商業(yè)模式的創(chuàng)新非常重要,即好的技術創(chuàng)新一定要配合好的商業(yè)模式創(chuàng)新。高科技企業(yè)的早期市場和主流市場之間存在著一條巨大的“鴻溝”,能否順利跨越鴻溝并進入主流市場,成功贏得實用主義者的支持,就決定了一項高科技產品的成敗。破壞性創(chuàng)新之父——克里斯坦森提出:“大公司卓越有效的管理對于延續(xù)性創(chuàng)新的成功具有決定性的作用,而破壞式創(chuàng)新能夠讓創(chuàng)業(yè)公司和小公司擁有顛覆現有產業(yè)鏈的能力!”
最后,我想給創(chuàng)業(yè)者提點個人建議:去玩兒的事業(yè)一定是你真心喜歡的事情,如果你去玩兒還不選你喜歡的事情,我想你一定是神經病;去玩兒的事業(yè),一定要跟你喜歡的人一起去做,玩耍的過程比結果更重要。謀事在人成事在天,能成為馬云和馬化騰是歷史的必然,但成為這兩個具體的人一定有很多未然的因素;改變你能改變的,接受你不能改變的。所以,我覺得人工智能創(chuàng)業(yè)不管是做系統(tǒng)創(chuàng)新,還是做產品創(chuàng)新、微創(chuàng)新,我們要以這樣的心態(tài),真正去享受到我們生活中的每一個小細節(jié),同時要有使命感與宏偉藍圖!
評論