清華大學(xué)史元春：人工智能使人機(jī)交互成為現(xiàn)實(shí)

作者：時(shí)間：2018-01-15 來源：新浪科技

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

　　1月15日消息，在“新時(shí)代新發(fā)展”的清華五道口金融EMBA&EE 2018年新年思想?yún)R活動(dòng)中，清華大學(xué)計(jì)算機(jī)系人交互與媒體集成研究所長、信息科技術(shù)國家實(shí)驗(yàn)室普適計(jì)算研究部主任、全球創(chuàng)新學(xué)院 (GIX) 學(xué)院院長史元春，進(jìn)行了題為“智能交互——讓機(jī)器更懂你”的分享。她認(rèn)為在普適計(jì)算機(jī)時(shí)代，隨著更多的嵌入式設(shè)備的出現(xiàn)，如何更加自然地進(jìn)行人機(jī)之間的信息交換具有重要意義。

本文引用地址：http://www.ex-cimer.com/article/201801/374416.htm

　　史元春指出，在計(jì)算機(jī)幾十年的發(fā)展過程中，人機(jī)交互也就是人和機(jī)器之間的信息交換的技術(shù)，我們可以不夸張的說，也是一項(xiàng)引領(lǐng)性的技術(shù)。而人工智能和大數(shù)據(jù)的進(jìn)步使人機(jī)交互成為現(xiàn)實(shí)、可用。

　　史元春認(rèn)為，人機(jī)交互的目的是為了讓機(jī)器更懂“你”，讓用戶更加自如。她還通過“胖手指”、“空中打字”等案例分享了人機(jī)交互領(lǐng)域一些前沿的技術(shù)突破。

　　“智能技術(shù)的研究，也就是我們把一些模糊和用戶行為習(xí)慣識(shí)別為具體、準(zhǔn)確交互意圖的研究，大有可為”，史元春認(rèn)為，未來有望通過數(shù)據(jù)采集和建模來捕捉用戶的所有姿態(tài)和行為，從而生產(chǎn)出真正理解用戶的手機(jī)，讓手機(jī)交互行為的感知更加精準(zhǔn)和智能。

　　史元春表示，人工智能技術(shù)的深度應(yīng)用，能做到從模糊的行為習(xí)慣中解讀出準(zhǔn)確的意圖，將為未來人機(jī)共生提供可靠的技術(shù)基礎(chǔ)。(王上)

　　以下為史元春演講實(shí)錄：

　　各位下午好，非常榮幸有這個(gè)機(jī)會(huì)和五道口金融學(xué)院的老師和學(xué)生們交流，我叫史元春。我跟大家的經(jīng)歷不太一樣，來自于計(jì)算機(jī)系。并且我在這個(gè)學(xué)校和計(jì)算機(jī)系有30多年了，從學(xué)生到老師。簡介中談到我是GIX學(xué)院院長。GIX的英文叫Global Innovation Exchange，是清華大學(xué)全球創(chuàng)新學(xué)員，它也是清華第一個(gè)在海外辦起來的學(xué)院。

　　是我們?cè)趦赡甓嘁郧霸诿绹奈餮艌D和華盛頓大學(xué)聯(lián)合創(chuàng)辦，也很歡迎我們更多的五道口金融學(xué)院的同學(xué)，能夠有機(jī)會(huì)去西雅圖，我們清華那樣一個(gè)特別的學(xué)區(qū)來學(xué)習(xí)和交流。

　　今天這個(gè)演講的題目是關(guān)于我的科研的，科目叫智能交互。這里的交互是指人機(jī)交互。我們知道計(jì)算機(jī)的發(fā)展歷史只有幾十年，不是很長，但是這幾十年來它已經(jīng)和正在為我們的社會(huì)發(fā)展帶來了巨大的變化，在計(jì)算機(jī)幾十年的發(fā)展過程中，人機(jī)交互也就是人和機(jī)器之間的信息交換的技術(shù)，我們可以不夸張的說，也是一項(xiàng)引領(lǐng)性的技術(shù)。

　　從我的這個(gè)表上大家應(yīng)該可以看的出來，隨著接口技術(shù)的變化，交互模式也發(fā)生了變化，計(jì)算機(jī)從實(shí)驗(yàn)室、機(jī)房已經(jīng)走到了我們的辦公室、家庭，甚至今天已經(jīng)都走到了我們的手上，計(jì)算機(jī)的臺(tái)數(shù)也發(fā)生了極大的數(shù)量級(jí)變化。

　　到了今天，我們已經(jīng)走到了所謂的普適計(jì)算的時(shí)代，也就是說在我們的工作和生活的很多方面，我們有特殊的手持的設(shè)備，像今天的手機(jī)，也有更多的嵌入式的系統(tǒng)，像家電設(shè)備，還有更多實(shí)業(yè)以及社會(huì)生活場(chǎng)景會(huì)有越來越多這樣的設(shè)備，我們?nèi)藗儠?huì)有更多、更頻繁的，并且希望與更自然的方式，和這個(gè)機(jī)器發(fā)生著關(guān)系。

　　也就是說我們可能會(huì)與手持的設(shè)備、家電的設(shè)備、穿戴的設(shè)備，機(jī)器人和無人車，以更自然的模態(tài)，G比如說包括用語音、用語義豐富的手勢(shì)，甚至是我們?nèi)粘５男袨?，在很多的?chǎng)景中，可以跟機(jī)器的系統(tǒng)，計(jì)算的系統(tǒng)發(fā)生互動(dòng)，有效的來進(jìn)行信息訪問和信息系統(tǒng)提供給我們的現(xiàn)實(shí)服務(wù)。這些接口、終端和任務(wù)，我都在我們使用過程中，首位的自然，就是需要我們的人不需要那樣很精準(zhǔn)的表達(dá)，是一種模糊的表達(dá)和傳達(dá)的方式。

　　但是，在機(jī)器端能夠給我們精準(zhǔn)的理解和服務(wù)。

　　我們今天的這些交互方式其實(shí)還是很規(guī)范的，甚至我們都在用的手機(jī)，它是一個(gè)嚴(yán)謹(jǐn)?shù)慕Y(jié)構(gòu)，一個(gè)抽象的概念，我們有一點(diǎn)的學(xué)習(xí)甚至是記憶的附和，還要有比較準(zhǔn)確的表達(dá)。

　　如果要實(shí)現(xiàn)這個(gè)人的模糊的表達(dá)，到精準(zhǔn)的服務(wù)之間，需要克服這樣一些技術(shù)挑戰(zhàn)：

　　比如我們的交互意圖很內(nèi)在，那么我們獲得的數(shù)據(jù)隨機(jī)性很大，用故行為的差異性也非常大，應(yīng)用的場(chǎng)景也是各式各樣的。因此，這些問題需要我們?cè)谙鄳?yīng)的研究中來進(jìn)行克服，并且人機(jī)交互它既包括我們所使用的各種直接的、離用戶很近的接口也包括一個(gè)交互過程的優(yōu)化。這里我簡單看看接口，它應(yīng)該保包括從我們?nèi)藱C(jī)交互的研究來看，包括計(jì)算機(jī)用戶，輸入接口和計(jì)算機(jī)處理結(jié)果，反饋給用戶的輸出接口。

　　從輸入來看也就是說我們的人意念產(chǎn)生了一個(gè)訪問的請(qǐng)求，當(dāng)然未來如果我們的腦機(jī)接口的技術(shù)，也就是所謂讀腦的技術(shù)能夠發(fā)明的話，那我們就可以直接來獲取這個(gè)用戶的意圖。但是，大家可以看到我這個(gè)圖上畫的還是一個(gè)虛線，今天還是不太現(xiàn)實(shí)的，那么我們的意念還是要通過我們的行為系統(tǒng)傳達(dá)給機(jī)器。

　　我們的行為可以是在使用工具，也可以剛才講到，像自然語言和各種姿態(tài)。

　　今天在我們的傳感技術(shù)和識(shí)別的技術(shù)都有了很多的進(jìn)步，比如說大家用的這個(gè)手機(jī)屏，可能留了一個(gè)小劉海，今天的大手機(jī)屏，那是因?yàn)槟莻€(gè)上面有10幾個(gè)傳感器，還不能在屏下，只能單獨(dú)的露出來。我們現(xiàn)在的家庭里面可能已經(jīng)有智能音箱來幫助我們服務(wù)，這個(gè)是語音識(shí)別技術(shù)的進(jìn)步。甚至于人臉識(shí)別已經(jīng)變成了我們這種身份ID。

　　這些技術(shù)實(shí)際上在幾十年前都已經(jīng)提出來，最近的人工智能和大數(shù)據(jù)的進(jìn)步使得成為現(xiàn)實(shí)、可用。但是，在交互接口上還有很多需要優(yōu)化和需要?jiǎng)?chuàng)新的的一些方面。這里我舉兩個(gè)具體的例子：

　　大家都有用手機(jī)，手機(jī)上面我們還是要有我們本輸入這樣一個(gè)基本的任務(wù)的。大家在用微信，今天這個(gè)場(chǎng)合也有幾個(gè)人在用，這個(gè)時(shí)候你通常是在敲，而不是用語音識(shí)別，因?yàn)樾枰粋€(gè)靜默的環(huán)境。你敲的時(shí)候，大家如果用過電腦的話，你會(huì)覺得你的速度比用物理鍵盤慢了一倍，為什么慢?這就是人機(jī)交互中很典型的一個(gè)問題“胖手指問題”，是因?yàn)槲覀兊氖种福h(yuǎn)比我們點(diǎn)擊的對(duì)象要模糊的多。也就是對(duì)象的精準(zhǔn)點(diǎn)擊，用我們的fat finger是很難完成的，所以點(diǎn)不準(zhǔn)你就慢下來了。

　　今天在場(chǎng)有不少人也戴了智能手表，就像這個(gè)圖一樣，我可以給你裝一個(gè)軟件，也會(huì)有一個(gè)軟件全鍵盤，但有人會(huì)用嗎?你肯定想著我不會(huì)用，因?yàn)榕c我們?cè)谑謾C(jī)上進(jìn)行輸入的速度和體驗(yàn)來說，2毫米的小鍵盤根本不可能用，這是一個(gè)典型的fat finger問題。

　　可以給大家看一個(gè)我們?cè)趯?shí)驗(yàn)室的研究結(jié)果，我們?cè)谑謾C(jī)上做了一個(gè)全鍵盤，會(huì)看到輸入的速度還是可以接受的，實(shí)際速度一個(gè)實(shí)測(cè)的結(jié)果，跟你在用手機(jī)進(jìn)行輸入的速度是一樣的，每秒30-40個(gè)字左右。這是靠我們對(duì)電容圖像的智能處理和自然語言模型相結(jié)合獲得的結(jié)果，在一定程度上克服了所謂的胖手指問題。

　　用同樣的原理，我們還可以提供比如現(xiàn)在手機(jī)上很現(xiàn)實(shí)的技術(shù)，叫防誤觸。手機(jī)的屏幕現(xiàn)在越來越大，有全面屏和曲面屏，同時(shí)也會(huì)帶來一個(gè)問題，你握著它的時(shí)候會(huì)誤處。

　　同樣我們?cè)诙嗵卣鞯膱D像處理算法上的一些進(jìn)展，使得我們?cè)诜勒`觸上有比較大的進(jìn)步。最近華為剛發(fā)布的mate10以及剛剛在美國發(fā)布的，相信在座也有人在用這個(gè)手機(jī)，如果你再用它的話，它上面每秒120次，一直在運(yùn)行，是一個(gè)高性能的算法，就是我們實(shí)驗(yàn)室給它做出來的。

　　這個(gè)做的結(jié)果是什么?是從其他原有產(chǎn)品，誤觸率在13%，這個(gè)體驗(yàn)很不好，我們給它的算法直接降到0.3%，這個(gè)體驗(yàn)還是非常好。

　　自然交互中，我們還很期待一些很科幻的場(chǎng)景，比如我們?cè)诤芏嗫苹闷袝?huì)有這樣的，像手勢(shì)、姿態(tài)的交互和識(shí)別。實(shí)際上手勢(shì)識(shí)別或者姿態(tài)的識(shí)別，在人機(jī)交互是一個(gè)很難的命題，像一些具體的任務(wù)上，比如空中打字，也就是我抬手，現(xiàn)在很多人有盲打的能力，實(shí)際上你一抬手就在敲你想打的字，你已經(jīng)有了這個(gè)習(xí)慣。

　　在20多年前，大家就已經(jīng)設(shè)想，未來應(yīng)該能夠?qū)崿F(xiàn)這樣的技術(shù)。這個(gè)圖雖然不是很清楚，右下角是蘋果20多年前曾經(jīng)設(shè)想的，在臺(tái)式機(jī)上，不用這個(gè)鍵盤，抬手就可以打字。

　　上面這個(gè)照片，是我在hollow lens即將發(fā)布的時(shí)候，在微軟的時(shí)候帶著它的，今天如果你帶了hollow lens，就是VR、AR的技術(shù)使得我們眼前可以呈現(xiàn)三維的虛擬對(duì)象，那么你跟他進(jìn)行交互的時(shí)候，我那個(gè)照片在打的時(shí)候，因?yàn)閔ollow lens只支持這樣一個(gè)動(dòng)作。那么它的軟鍵盤在我面前，我只能一個(gè)一個(gè)的點(diǎn)，并且非常不準(zhǔn)確。

　　看一下我們做的實(shí)驗(yàn)結(jié)果，對(duì)人在空中打字行為所攜帶的信息量充分挖掘而進(jìn)行建模。處理充分挖掘是說，我們的主動(dòng)手、被動(dòng)手，主動(dòng)手指、被動(dòng)手指，以及位置隨意的變化、落點(diǎn)和語言模型的結(jié)合，可以使得我們實(shí)現(xiàn)幾十年的理想，科幻的一個(gè)結(jié)果。實(shí)際上用這樣的技術(shù)，我們還可以實(shí)現(xiàn)很多場(chǎng)景下跟蹤、交互和自動(dòng)理解用戶的意圖。

　　交互意圖的理解，我們建立了一套，通過數(shù)據(jù)采集、行為建模以及AI的一些分類算法，最終實(shí)現(xiàn)特定交互任務(wù)的一套研究方法和體系。我們把它用在手機(jī)上，目前希望能有更多的捕捉，因?yàn)槭謾C(jī)上其實(shí)大家不知道，里面有非常多的傳感器，并且進(jìn)去更多所謂的building sensor，還會(huì)專門從體系結(jié)構(gòu)上制造一個(gè)sensor heart的出現(xiàn)，我們可能能夠捕捉更多外在用戶的心態(tài)，包括臥姿、面部甚至眼神等能力，我們會(huì)提供一個(gè)手機(jī)交互全行為感知的能力，未來大家在使用手機(jī)上會(huì)有更好的體驗(yàn)。

　　從這個(gè)角度，所謂智能技術(shù)的研究，也就是我們把一些模糊和用戶行為習(xí)慣識(shí)別為具體、準(zhǔn)確交互意圖的研究，大有可為。即便從我們今天在手機(jī)這個(gè)問題上來看，我們也僅僅剛剛開始。大家不要以為我們今天的智能手機(jī)只是10年前才有，其實(shí)30年前就有，這是美國很普及的一本雜志叫《大眾科學(xué)》，這是它1995年的封面文章，這個(gè)圖上大家注意到，是1988年左右帕克研制的智能手機(jī)，實(shí)際上是iPhone原型系統(tǒng)。這cap model當(dāng)時(shí)有各種計(jì)算、傳感和應(yīng)用，以及識(shí)別的能力。

　　這個(gè)照片上我們可以看到，它跟我們?nèi)祟惖乃枷胝呔o密的結(jié)合在一起，共同互相了解和支持，更多的發(fā)現(xiàn)世界和獲得能力的過程。隨著計(jì)算超速手機(jī)滲入到我們生活更多方面，智能技術(shù)的進(jìn)步，也將為人機(jī)共生的美好前景提供支撐的技術(shù)。

　　很高興有這樣的機(jī)會(huì)跟大家分享，祝大家新年好!

新聞中心

清華大學(xué)史元春：人工智能使人機(jī)交互成為現(xiàn)實(shí)

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)