<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 業(yè)界動(dòng)態(tài) > 無需「域外」文本，微軟：NLP就應(yīng)該針對性預(yù)訓(xùn)練

無需「域外」文本，微軟：NLP就應(yīng)該針對性預(yù)訓(xùn)練

作者：時(shí)間：2020-08-10 來源：51cto

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

在生物醫(yī)學(xué)這樣的專業(yè)領(lǐng)域訓(xùn)練NLP模型，除了特定數(shù)據(jù)集，「域外」文本也被認(rèn)為是有用的。但最近，微軟的研究人員「大呼」：我不這么覺得！

本文引用地址：http://www.ex-cimer.com/article/202008/416905.htm

什么是預(yù)訓(xùn)練？這是一個(gè)拷問人工智能「門外漢」的靈魂問題。生而為人，我們不需要一切從零開始學(xué)習(xí)。但是，我們會(huì)「以舊學(xué)新」，用過去所學(xué)的舊知識(shí)，來理解新知識(shí)和處理各種新任務(wù)。在人工智能中，預(yù)訓(xùn)練就是模仿人類這個(gè)過程。

預(yù)訓(xùn)練（pre-training）這個(gè)詞經(jīng)常在論文中見到，指的是用一個(gè)任務(wù)去訓(xùn)練一個(gè)模型，幫助它形成可以在其他任務(wù)中使用的參數(shù)。

用已學(xué)習(xí)任務(wù)的模型參數(shù)初始化新任務(wù)的模型參數(shù)。通過這種方式，舊的知識(shí)可以幫助新模型從舊的經(jīng)驗(yàn)中成功地執(zhí)行新任務(wù)，而不是從零開始。

以前的研究已經(jīng)表明，在像生物醫(yī)學(xué)這樣的專業(yè)領(lǐng)域，當(dāng)訓(xùn)練一個(gè)NLP模型時(shí)，特定領(lǐng)域的數(shù)據(jù)集可以提高準(zhǔn)確性。不過，還有一個(gè)普遍的認(rèn)識(shí)是，「域外」文本也有用。但是！微軟研究人員對這一假設(shè)提出了質(zhì)疑。

近日，微軟研究人員提出一種人工智能技術(shù)，針對生物醫(yī)學(xué)NLP的領(lǐng)域特定語言模型預(yù)訓(xùn)練。并自信地說，通過從公開的數(shù)據(jù)集中編譯一個(gè)「全面的」生物醫(yī)學(xué)NLP基準(zhǔn)，在包括命名實(shí)體識(shí)別、基于證據(jù)的醫(yī)學(xué)信息提取、文檔分類等任務(wù)上取得了最先進(jìn)的成果。

他們認(rèn)為，「混合領(lǐng)域」預(yù)訓(xùn)練？不就是遷移學(xué)習(xí)的另一種形式嗎？源領(lǐng)域是一般文本(如新聞)，目標(biāo)領(lǐng)域是專門文本(如生物醫(yī)學(xué)論文)。

在此基礎(chǔ)上，針對特定領(lǐng)域的生物醫(yī)學(xué)NLP模型的預(yù)訓(xùn)練總是優(yōu)于通用語言模型的預(yù)訓(xùn)練，說明「混合領(lǐng)域」預(yù)訓(xùn)練并不完美。

神經(jīng)語言模型預(yù)訓(xùn)練的兩種范式?！富旌项I(lǐng)域」預(yù)訓(xùn)練（上）；只使用域內(nèi)文本預(yù)訓(xùn)練（下）

如此自信，研究人員是有證據(jù)的。他們通過對生物醫(yī)學(xué)NLP應(yīng)用的影響，比較了訓(xùn)練前的建模和特定任務(wù)的微調(diào)。

第一步，他們創(chuàng)建了一個(gè)名為生物醫(yī)學(xué)語言理解和推理基準(zhǔn)(BLURB)的基準(zhǔn)，該基準(zhǔn)側(cè)重于PubMed（一個(gè)生物醫(yī)學(xué)相關(guān)的數(shù)據(jù)庫）提供的出版物，涵蓋了諸如關(guān)系提取、句子相似度和問題回答等任務(wù)，以及諸如是/否問題回答等分類任務(wù)。為了計(jì)算總結(jié)性分?jǐn)?shù)，BLURB中的語料庫按任務(wù)類型分組，并分別打分,之后計(jì)算所有的平均值。

為了評估，他們又在最新的PubMed文檔中生成了一個(gè)詞匯表并訓(xùn)練了一個(gè)模型：1400萬篇摘要和32億個(gè)單詞，總計(jì)21GB。在一臺(tái)擁有16個(gè)V100顯卡的Nvidia DGX-2機(jī)器上，培訓(xùn)了大約5天時(shí)間。這個(gè)模型具有62,500步長和批量大小，可與以前生物醫(yī)學(xué)預(yù)訓(xùn)練實(shí)驗(yàn)中使用的計(jì)算量相媲美。

又一個(gè)自信，研究人員說他們的模型——PubMedBERT，是建立在谷歌的BERT之上。

那個(gè)牛掰掰的BERT？Google 在 2018 年提出的一種 NLP 模型,成為最近幾年 NLP 領(lǐng)域最具有突破性的一項(xiàng)技術(shù)。

但有趣的是，將PubMed的全文添加到預(yù)訓(xùn)練文本(168億字)中會(huì)讓性能略有下降，直到預(yù)訓(xùn)練時(shí)間延長。但研究人員將這部分歸因于數(shù)據(jù)中的噪聲。

“在本文中，我們挑戰(zhàn)了神經(jīng)語言預(yù)訓(xùn)練模型中普遍存在的假設(shè)（就是前面說的「混合領(lǐng)域」預(yù)訓(xùn)練），并證明了從「無」開始對特定領(lǐng)域進(jìn)行預(yù)訓(xùn)練可以顯著優(yōu)于「混合領(lǐng)域」預(yù)訓(xùn)練?！笧樯镝t(yī)學(xué)NLP的應(yīng)用帶來了新的、最先進(jìn)的結(jié)果，」研究人員寫道，「我們未來會(huì)進(jìn)一步探索特定領(lǐng)域的預(yù)培訓(xùn)策略，將BLURB基準(zhǔn)擴(kuò)展到臨床或其他高價(jià)值領(lǐng)域?！?/p>

為了鼓勵(lì)生物醫(yī)學(xué)NLP的研究，研究人員創(chuàng)建了一個(gè)以BLURB基準(zhǔn)為特色的排行榜。他們還以開源的方式發(fā)布了預(yù)先訓(xùn)練過的特定任務(wù)模型。

研究已發(fā)布于預(yù)印論文網(wǎng)站arxiv上。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞：微軟 NLP

評論

相關(guān)推薦

藍(lán)屏事件為何沒影響中國民航業(yè)：國產(chǎn)系統(tǒng)、360軟件等至關(guān)重要！

嵌入式系統(tǒng) 微軟 360 周鴻祎 | 2024-07-22

微軟2002嵌入式技術(shù)教育大會(huì)情況（4月11-12）北京(老站轉(zhuǎn))

amine | 2002-05-16

微軟中國重布棋局“長城計(jì)劃”一石三鳥

hpnet | 2002-08-06

決戰(zhàn)希臘：微軟“創(chuàng)新杯”2009實(shí)況-——軟件設(shè)計(jì)和嵌入式開發(fā)項(xiàng)目組決賽1

視頻微軟嵌入式創(chuàng)新杯 | 2009-07-07

微軟車載系統(tǒng)將整合小娜司機(jī)可用語音對汽車發(fā)號施令

設(shè)計(jì)方案微軟車載系統(tǒng) 小娜 | 2015-11-03

微軟嵌入式技術(shù)教育大會(huì)專訪實(shí)錄(老站轉(zhuǎn))

amine | 2002-05-16

[轉(zhuǎn)帖]微軟正式在中國發(fā)布最新的嵌入式系統(tǒng)

amine | 2002-05-17

比爾·蓋茨在微軟的最后一天——蓋茨攜好萊塢巨星出演搞笑片

視頻微軟比爾·蓋茨 CES | 2008-07-09

智領(lǐng)未來——嵌入式Windows 8全新功能概覽

資源下載微軟嵌入式 Windows Embedded Windows CE 數(shù)字標(biāo)牌金融醫(yī)療 EEPW會(huì)展 | 2012-11-01

最新的無線充電技術(shù)，將來的無線充電應(yīng)用

設(shè)計(jì)方案無線充電超聲波聚焦光線微軟共 | 2015-07-14

Windows CE 開發(fā)初步

資源下載微軟 Windows CE 無線裝置 | 2007-12-20

決戰(zhàn)希臘：微軟“創(chuàng)新杯”2009實(shí)況-——軟件設(shè)計(jì)和嵌入式開發(fā)項(xiàng)目組決賽4

視頻微軟嵌入式創(chuàng)新杯 | 2009-07-08

反壟斷機(jī)構(gòu)加強(qiáng)對OpenAI的審查，取消董事會(huì)中觀察員席位

OpenAI 微軟蘋果壟斷 | 2024-07-11

蘋果“免費(fèi)”獲得OpenAI董事會(huì)觀察員席位，與微軟級別相當(dāng)

蘋果 OpenAI 微軟 ChatGPT | 2024-07-05

微軟大當(dāng)機(jī)俄羅斯基礎(chǔ)設(shè)施全靠Astra Linux

嵌入式系統(tǒng) 微軟俄羅斯基礎(chǔ)設(shè)施 Astra Linux | 2024-07-22

英國對微軟與Inflection AI相關(guān)交易展開反壟斷調(diào)查

微軟 Inflection AI 反壟斷 CMA | 2024-07-18

美股再新高，蘋果市值超微軟，特斯拉九連漲，期銀一度跌3%，法股高開低走

手機(jī)與無線通信蘋果微軟特斯拉 | 2024-07-09

服務(wù)器設(shè)備 – “一網(wǎng)打盡”的全面解決方案

資源下載微軟嵌入式 | 2010-11-29

傳蘋果將獲得OpenAI董事會(huì)觀察員席位與微軟地位相當(dāng)

智能計(jì)算蘋果 OpenAI 微軟 | 2024-07-03

淺析藍(lán)牙技術(shù)

資源下載愛立信移動(dòng)通信公司藍(lán)牙特殊利益集團(tuán) 3Com 朗訊（Lucent）微軟（Microsoft）摩托羅拉 | 2007-05-29

微軟usbsdk 開發(fā)包

資源下載微軟 usbsdk 開發(fā)包 | 2007-04-19

反壟斷審查愈演愈烈，微軟、蘋果放棄OpenAI董事會(huì)席位

智能計(jì)算微軟蘋果 OpenAI | 2024-07-11

決戰(zhàn)希臘：微軟“創(chuàng)新杯”2009實(shí)況-——軟件設(shè)計(jì)和嵌入式開發(fā)項(xiàng)目組決賽2

視頻微軟嵌入式創(chuàng)新杯 | 2009-07-07

Windows設(shè)備大規(guī)模癱瘓影響深遠(yuǎn)：美國呼吁拆分微軟

嵌入式系統(tǒng) 微軟 Windows CrowdStrike | 2024-07-22

微軟大當(dāng)機(jī) 出1錯(cuò)就爆全球混亂

嵌入式系統(tǒng) 微軟 Windows CrowdStrike 大當(dāng)機(jī) | 2024-07-22

哪位需要微軟嵌入式大會(huì)的講義請舉手.

jackwang | 2002-05-16

微軟用“互聯(lián)互通”的智能系統(tǒng)詮釋物聯(lián)網(wǎng)

設(shè)計(jì)方案微軟物聯(lián)網(wǎng) 智能 | 2015-09-22

決戰(zhàn)希臘：微軟“創(chuàng)新杯”2009實(shí)況-——軟件設(shè)計(jì)和嵌入式開發(fā)項(xiàng)目組決賽3

視頻微軟嵌入式創(chuàng)新杯 | 2009-07-08

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();