<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > 讀題還是讀你？剝開機器閱讀理解的神秘外衣

讀題還是讀你？剝開機器閱讀理解的神秘外衣

作者：時間：2018-02-25 來源：億歐網

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

收藏

　　最近一個有意思的現象，是機器閱讀理解突然開始熱絡了起來。

本文引用地址：http://www.ex-cimer.com/article/201802/376067.htm

　　2月21日，百度自然語言處理團隊研發(fā)的V-Net模型以46.15的Rouge-L得分登上微軟的MS MARCO(Microsoft MAchine Reading COmprehension)機器閱讀理解測試排行榜首。

　　

　　加上此前斯坦福大學的SQuAD競賽中，阿里、哈工大訊飛聯(lián)合實驗室等團隊先后超越了人類平均水平。這意味著，機器閱讀理解領域的兩大頂級賽事：MS MARCO和SQuAD的記錄先后由中國團隊打破。

　　但在熱鬧的“軍備競賽”之余，機器閱讀理解領域的深處并非一團和氣。各種爭議和辯論正在這場“機器答題大秀”背后上演。

　　比如說，為什么微軟要緊隨SQuAD之后另起爐灶，發(fā)布自己的數據集和競賽?學術界關于機器閱讀理解的爭議為何一直不斷?

　　這些疑問或許可以最終歸因到一個問題：讓AI做閱讀理解，到底有什么用?

　　我們來聊聊“閱讀理解圈”的江湖恩怨，以及接下來可預見的技術應用未來。

　　兩大數據集對峙：機器閱讀理解的問題與爭議

　　所謂的機器閱讀理解，基本概念跟咱們上學時做的閱讀理解題很相似，同樣都是給出一段材料和問題，讓“考生”給出正確答案。所不同的，僅僅是機器閱讀理解的主角變成了AI模型而已。

　　而機器閱讀理解領域的比賽方式，就像斯坦福大學著名的AI競賽ImageNet一樣，都是由一個官方給定的數據集+一場跑分競賽組成。各大科技巨頭和世界名校的AI研究團隊是主要參賽選手。

　　百度此次參與的機器閱讀理解比賽，是微軟在2016年末發(fā)布的MS MARCO。

　　這個賽事有趣的地方在于，其運用的訓練數據是微軟在產品實踐中，從真實用戶那里收集來的問題和答案。

　　這個數據集的問題全部來自于BING的搜索日志，然后又整理了這些問題獲得的人工答案作為訓練數據。這樣做的優(yōu)點在于，可以讓AI模型通過最接近真實應用的語境來進行學習、訓練和反向實踐，完成“學以致用”的小目標。

　　圈內普遍認為，微軟這么不容易地搜集一個源自真實網絡的數據集，就是希望硬懟斯坦福大學的SQuAD。

　　2016年早些時候，斯坦福大學相關團隊制作了一個用來測試AI模型閱讀理解能力的數據集。與MS MARCO不同，SQuAD主要訓練數據是來自維基百科的536篇文章，以及由人類閱讀這些文章后，提出的10萬多個問題及相關答案。

　　這種非常像校園考試的數據設定，從誕生之日起就爭議不斷。比如NLP領域的大牛Yoav Goldberg就認為這個數據集有些太過片面。SQuAD受到指責的地方，主要可以分為三個層面：

　　1、問題過分簡單。問題的答案主要源自于文檔中的一個片段，真實應用場景中很少遇到這樣的問題。

　　2、數據多樣性不足。SQuAD只有500多篇文章，內容不夠豐富，訓練出的模型被質疑難以處理其他數據或者更復雜的問題。

　　3、通用性不強。為了跑分的方便，SQuAD的問題結構比較簡單，涉及到的機器“推理”一面偏弱，導致其實用性數次受到懷疑。

　　舉個簡單的例子來描述一下兩個數據集之間的不同：SQuAD大多數問題的答案來自文檔本身，從文檔中“復制粘貼”就能完成回答，這樣模式固然更加方便，但客觀上對問題類型和答案范圍都做了限制，建立在SQuAD上的問題通常更加直白簡單。而MS MARCO的問題則更傾向真實的語言環(huán)境，需要智能體推理語境進行分析。

　　蘿卜白菜各有所愛，有人認為SQuAD是最方便測試的機器閱讀理解比賽，也有人堅持MS MARCO是最接近人類問答習慣的競賽。但爭論的背后或許有一個共識正在浮現：機器閱讀理解的應用性，已經開始受到產業(yè)的廣泛關注。

　　進擊的數據集：AI閱讀也要重視“素質教育”

　　當然，MS MARCO的數據集結構同樣也有很多爭議。但相類似的“從生活中來”的機器閱讀理解訓練數據集正在越來越多。一句話總結這種趨勢，大概就是大家發(fā)現，該讓AI從“應試教育”變成“素質教育”了。

　　結構緊湊、體系清晰的SQuAD，雖然可以非常便捷地展現出AI模型的測試結果，但拓展性和實用性始終受到指責。許多學者認為，這個數據集有些被過分“考試化”了，導致其最終變成為了競賽而競賽。

　　而直接從互聯(lián)網文本與產品實踐問題中訓練出的模型，被認為距離應用性更近。

　　其實仔細想想，機器閱讀理解這項技術，從來都不是紙上談兵的“象牙塔派”，在我們已經熟悉的互聯(lián)網應用中，就有大量只能依靠機器閱讀理解來解決的難題。

　　舉個例子，當用戶在搜索引擎尋找答案的時候，傳統(tǒng)方案只能依靠用戶互助來回答，正確性和效率都嚴重不足。但智能體進行回答，就不能只依靠關鍵詞填空來處理。比如絕不會有用戶提問“()是我國最長的河流?”;更多情況用戶會詢問復雜的問題，需要完整的解決方案和建議。那么，從真實提問數據中學習理解材料、回答問題的方案，近乎于AI技術滿足搜索引擎體驗升級的唯一出路。

　　再比如最近爭議不斷的內容推薦領域。今日頭條最近反復出狀況，很大程度來源于輿論指責其過度依賴關鍵詞進行算法推薦，忽略了用戶的對文章深度與知識性的需求。造成這種情況的原因之一，就在于算法的機器閱讀理解能力不夠，無法閱讀真實的互聯(lián)網材料，給出個性化的推薦結果。

　　除此之外，語音助手、智能客服等領域，都大量依靠于機器閱讀理解閱讀真實問題、真實互聯(lián)網材料，給出完整答案的AI能力。從真實數據中訓練AI，可能是破解這些難題的唯一途徑。

　　中文、通識、應用：可預見的MRC未來

　　在我們猜想機器閱讀理解的未來時，會看到幾個比較明顯的趨勢。

　　首當其沖，目前機器閱讀理解的訓練數據集和競賽，大部分集中在英文領域。這個尷尬正在一步步被打破。

　　比如百度在去年發(fā)布了與微軟MS MARCO結構類似全中文數據集DuReader。其首批發(fā)布的數據集包含20萬真實問題，100萬互聯(lián)網真實文檔，以及42萬人工撰寫生成的答案。由此可見，在中國團隊一次次挑戰(zhàn)英文機器閱讀理解記錄的同時，直接作用于中文世界的機器閱讀理解應該已經不遠了。

　　另一方面，機器閱讀理解的技術能力如何通用化、泛在化，與各種其他NLP技術體系相擬合，似乎成為了廣為關注的話題。讓機器能“理解”的同時，還能歸納、能思考、能創(chuàng)作，勾勒出完整的Deep NLP時代，也已經提上了日程。

　　再者，將機器閱讀理解能力投入搜索、問答等應用領域，產生現實價值的應用案例正在增多。相信不久的未來，機器閱讀理解工具化、集成化，可以滲透到各行各業(yè)當中，成為一種信息世界的主流解決方案。

　　比較大概率的狀況，大概是不久的將來，我們會在信息流中感受到了種難以具體形容卻又真實存在的體驗提升。那就是因為機器正在“讀你”，而不是“讀題”。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： NLP

評論

相關推薦

讀題還是讀你？剝開機器閱讀理解的神秘外衣

智能計算 NLP | 2018-02-25

無需「域外」文本，微軟：NLP就應該針對性預訓練

微軟 NLP | 2020-08-10

Gartner遴選出新冠肺炎疫情期間AI幫助政府和醫(yī)療機構CIO改善決策制定的五大領域

醫(yī)療電子 AI COVID-19 CDO NLP | 2020-05-26

多級存儲器與模擬內存內計算完美融合，人工智能邊緣處理難題迎刃而解

網絡與存儲 AI NLP | 2020-03-27

微軟亞洲研究院：NLP將迎來黃金十年

智能計算微軟 NLP | 2018-12-05

生成式人工智能音頻快速發(fā)展：高信噪比MEMS麥克風功不可沒

消費電子 NLP STT SNR MEMS 麥克風 | 2024-06-21

Gartner發(fā)布2020年數據與分析領域的十大技術趨勢

智能計算 NLP AI ML | 2020-07-01

清華AI研究院成立自然語言處理與社會人文計算研究中心

智能計算清華 AI NLP | 2019-07-05

多級存儲器與模擬內存內計算完美融合，人工智能邊緣處理難題迎刃而解

網絡與存儲 AI NLP FG SDK ADC | 2020-07-13

沈緒榜院士談嵌入式系統(tǒng)的挑戰(zhàn)與新機遇

物聯(lián)網 NLP VR AR 201902 | 2019-01-29

焦點

推薦視頻

技術專區(qū)

關閉

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();