<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁(yè) > 工控自動(dòng)化 > 業(yè)界動(dòng)態(tài) > 如何快速使用大規(guī)模機(jī)器學(xué)習(xí)的核心技術(shù)？

如何快速使用大規(guī)模機(jī)器學(xué)習(xí)的核心技術(shù)？

作者：時(shí)間：2016-02-26 來源：TechWeb

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

收藏

編者按：這么多巨頭將機(jī)器學(xué)習(xí)平臺(tái)開源，作為開發(fā)者，我們?cè)贈(zèng)]理由不利用好，大規(guī)模機(jī)器學(xué)習(xí)是一柄利刃，但決不是萬(wàn)能的，對(duì)于大規(guī)模機(jī)器學(xué)習(xí)領(lǐng)域來說，業(yè)務(wù)技術(shù)的重要性勝過基礎(chǔ)技術(shù)。

　　具體來說，DMTK當(dāng)前版本的工具包主要有以下幾個(gè)部分：

本文引用地址：http://www.ex-cimer.com/article/201602/287461.htm

　　DMTK分布式機(jī)器學(xué)習(xí)框架

　　主要由參數(shù)服務(wù)器和客戶端軟件開發(fā)包(SDK)兩部分構(gòu)成。

　　1. 參數(shù)服務(wù)器。重新設(shè)計(jì)過的參數(shù)服務(wù)器在原有基礎(chǔ)上從性能和功能上都得到了進(jìn)一步提升——支持存儲(chǔ)混合數(shù)據(jù)結(jié)構(gòu)模型、接受并聚合工作節(jié)點(diǎn)服務(wù)器的數(shù)據(jù)模型更新、控制模型同步邏輯等。

　　2. 客戶端軟件開發(fā)包(SDK)。包括網(wǎng)絡(luò)層、交互層的一些東西，支持維護(hù)節(jié)點(diǎn)模型緩存(與全局模型服務(wù)器同步)、節(jié)點(diǎn)模型訓(xùn)練和模型通訊的流水線控制、以及片狀調(diào)度大模型訓(xùn)練等。用戶并不需要清楚地知道參數(shù)和服務(wù)器的對(duì)應(yīng)關(guān)系，SDK會(huì)幫助用戶自動(dòng)將客戶端的更新發(fā)送至對(duì)應(yīng)的參數(shù)服務(wù)器端。

　　通用分布式機(jī)器學(xué)習(xí)算法

　　LightLDA：LightLDA是一種全新的用于訓(xùn)練主題模型的學(xué)習(xí)算法，是具有可擴(kuò)展、快速、輕量級(jí)，計(jì)算復(fù)雜度與主題數(shù)目無關(guān)等特點(diǎn)的高效算法。在其分布式實(shí)現(xiàn)中，DMTK團(tuán)隊(duì)做了大量系統(tǒng)優(yōu)化使得其能夠在一個(gè)普通計(jì)算機(jī)集群上處理超大規(guī)模的數(shù)據(jù)和模型。例如，在一個(gè)由8臺(tái)計(jì)算機(jī)組成的集群上，只需要一個(gè)星期左右的時(shí)間，可以在具有1千億訓(xùn)練樣本(token)的數(shù)據(jù)集上訓(xùn)練具有1千萬(wàn)詞匯表和1百萬(wàn)個(gè)話題(topic)的LDA模型(約10萬(wàn)億個(gè)參數(shù))。這種規(guī)模的實(shí)驗(yàn)以往在數(shù)千臺(tái)計(jì)算機(jī)的集群上也需要數(shù)以月計(jì)的時(shí)間才能得到相似結(jié)果。

　　分布式詞向量：詞向量技術(shù)近來被普遍地應(yīng)用于計(jì)算詞匯的語(yǔ)義表示，它可以用作很多自然語(yǔ)言處理任務(wù)的詞特征。微軟為兩種計(jì)算詞向量的算法提供了高效的分步式實(shí)現(xiàn)：一種是標(biāo)準(zhǔn)的word2vec算法，另一種是可以對(duì)多義詞計(jì)算多個(gè)詞向量的新算法。

　　詞向量的作用是為了比較兩個(gè)詞之前的距離，基于這個(gè)距離來判斷語(yǔ)義上更深的信息。以前的詞向量模型以單詞為維度建立，每個(gè)單詞學(xué)出一組參數(shù)，每組參數(shù)即為詞向量，每個(gè)單詞通過映射至詞向量上來進(jìn)行語(yǔ)義上的表達(dá)。一個(gè)向量在語(yǔ)義空間中對(duì)應(yīng)一個(gè)點(diǎn)。而一詞多義的現(xiàn)象極為普遍，但如果多個(gè)意思在語(yǔ)義空間中只用一個(gè)點(diǎn)來表達(dá)就不太科學(xué)。如果我們希望學(xué)出多個(gè)語(yǔ)義空間中的點(diǎn)，在建立模型時(shí)就不會(huì)讓每個(gè)單詞只表達(dá)出一個(gè)向量，而是最開始時(shí)就讓每個(gè)單詞選擇N個(gè)向量進(jìn)行定義，而后置入概率混合模型。這個(gè)模型通過在學(xué)習(xí)過程中不斷的優(yōu)化，產(chǎn)生對(duì)每個(gè)單詞多個(gè)向量的概率分布，結(jié)合語(yǔ)境對(duì)每個(gè)向量分配概率，從而學(xué)習(xí)更有意義的詞向量表達(dá)。

　　一詞多義的學(xué)習(xí)框架和學(xué)習(xí)過程與一詞一義并沒什么不同，但它有更多的參數(shù)，并且需要在學(xué)習(xí)過程中分配多個(gè)向量各自對(duì)應(yīng)的概率，因此復(fù)雜度更高。由于整個(gè)過程通過多機(jī)進(jìn)行并行，因此還是能夠保證以足夠快的速度完成訓(xùn)練。比如在對(duì)某網(wǎng)頁(yè)數(shù)據(jù)集(約1千億單詞)進(jìn)行訓(xùn)練時(shí)，8臺(tái)機(jī)器大概40個(gè)小時(shí)內(nèi)就可以完成模型訓(xùn)練。

　　DMTK提供了豐富的API接口給研發(fā)人員。大數(shù)據(jù)接口主要集中在并行框架這部分，來解決很多機(jī)器一起學(xué)習(xí)時(shí)，單機(jī)的客戶端如何調(diào)用參數(shù)服務(wù)器的問題。

　　王太峰為我們列舉了DMTK中對(duì)于不同需求的開發(fā)者設(shè)計(jì)的API：

　　保持原有機(jī)器學(xué)習(xí)算法流程：這類開發(fā)人員最需要的API就是同步參數(shù)，依照自己原有的算法進(jìn)行訓(xùn)練，只在需要多機(jī)之間交互時(shí)利用DMTK的API來獲取模型參數(shù)(GET)和發(fā)送更新(ADD)。通常這類開發(fā)需要花的精力比較少。從頭設(shè)計(jì)算法：這類開發(fā)人員不需要設(shè)計(jì)完整算法流程，只需按照DMTK中對(duì)數(shù)據(jù)塊描述，接口會(huì)告訴DMTK每條數(shù)據(jù)需要什么參數(shù)，如何利用數(shù)據(jù)進(jìn)行參數(shù)更新。DMTK客戶端SDK會(huì)自動(dòng)啟動(dòng)內(nèi)置的學(xué)習(xí)流程，進(jìn)行逐條數(shù)據(jù)的訓(xùn)練，并在必要的時(shí)候進(jìn)行模型交互。

　　目前DMTK在GitHub上有1400多顆星，在分布式機(jī)器學(xué)習(xí)的框架上來說排名是非?？壳暗摹Ｓ脩粢卜答伭撕芏鄬?duì)代碼修復(fù)的意見、和對(duì)增加一些額外功能需求的建議。

　　DMTK并非完整的開箱即用解決方案，其中分布式的算法，如LightLDA，WordEmbedding可以為很多用戶直接所用。同時(shí)，DMTK在設(shè)計(jì)上允許用戶進(jìn)行后續(xù)擴(kuò)展，使其能夠支持更多的算法和平臺(tái)。王太峰還透露，目前DMTK還是利用現(xiàn)有的文檔系統(tǒng)(Filesystem)，直接將數(shù)據(jù)分布在里面，各個(gè)機(jī)器處理本地硬盤上的數(shù)據(jù)。在此基礎(chǔ)上，DMTK正逐漸增加對(duì)Hadoop的一些支持，如利用HDFS去讀數(shù)據(jù)，幫助用戶調(diào)度作業(yè)等。

　　后記

　　就在不久前，微軟公司還發(fā)布了另一套機(jī)器學(xué)習(xí)工具包，即計(jì)算網(wǎng)絡(luò)工具包(Computational Network Toolkit)——或者簡(jiǎn)稱CNTK。另外，谷歌開源人工智能系統(tǒng)TensorFlow，IBM開源機(jī)器學(xué)習(xí)平臺(tái)SystemML。這對(duì)廣大開發(fā)者和創(chuàng)業(yè)公司來說，無疑在很大程度上簡(jiǎn)化基礎(chǔ)技術(shù)的投入和難度。

上一頁(yè) 1 2 下一頁(yè)

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 機(jī)器人

評(píng)論

相關(guān)推薦

智能搏擊訓(xùn)練機(jī)器人電路圖

設(shè)計(jì)方案智能搏擊訓(xùn)練機(jī)器人電路圖 | 2010-01-22

外媒眼中中國(guó)機(jī)器人產(chǎn)業(yè)有多強(qiáng)？

機(jī)器人 | 2024-07-12

大咖觀點(diǎn) | AI 大模型邁向多模態(tài)，助力具身智能與機(jī)器人實(shí)現(xiàn)創(chuàng)新

Arm AI 機(jī)器人 | 2024-07-17

德州儀器閃耀上海慕展三大板塊更顯產(chǎn)品實(shí)力

模擬技術(shù) 德州儀器慕尼黑電子展汽車電子機(jī)器人能源 | 2024-07-15

馬斯克又跳票了，特斯拉推遲交付擎天柱機(jī)器人

馬斯克特斯拉機(jī)器人 | 2024-07-23

自攀爬幕墻清洗機(jī)器人控制系統(tǒng)設(shè)計(jì)

設(shè)計(jì)方案攀爬幕墻清洗機(jī)器人控制系統(tǒng) 設(shè)計(jì) | 2009-09-04

DFRobot的拓展型全向變形機(jī)器人（2）

視頻 EEPW Intel 機(jī)器人 Edison | 2014-11-02

2003中國(guó)北京國(guó)際機(jī)器人暨自動(dòng)化技術(shù)裝備展覽會(huì)

hpnet | 2003-03-30

Altera2012亞洲創(chuàng)新設(shè)計(jì)大賽CN099視頻介紹-01

視頻 Altera 機(jī)器人 | 2012-11-01

機(jī)器人實(shí)驗(yàn)室網(wǎng)址

hpnet | 2003-02-13

關(guān)于中國(guó)機(jī)器人發(fā)展前景

hpnet | 2002-10-21

基于MSP430的自主式移動(dòng)機(jī)器人設(shè)計(jì)與實(shí)現(xiàn)

資源下載 TI MSP430 機(jī)器人 PWM 232通訊 | 2007-02-16

暖場(chǎng)表演：體操機(jī)器人

視頻物聯(lián)網(wǎng) 可穿戴設(shè)備智能硬件高峰論壇機(jī)器人 | 2015-01-19

無人考古機(jī)器人電路圖

設(shè)計(jì)方案無人考古機(jī)器人電路圖 | 2010-01-22

英飛凌全新光學(xué)模塊助力石頭科技新一代智能機(jī)器人引領(lǐng)智能家居清潔新體驗(yàn)

智能掃拖一體機(jī) 機(jī)器人光學(xué)模塊 | 2024-06-26

工業(yè)機(jī)器人創(chuàng)造新價(jià)值

hpnet | 2003-02-19

機(jī)器人技術(shù)

資源下載機(jī)器人技術(shù)歷史現(xiàn)狀發(fā)展趨勢(shì) | 2007-02-16

萬(wàn)人裁員又再招聘近800人特斯拉AI和機(jī)器人領(lǐng)域布局再提速

汽車電子特斯拉 AI 機(jī)器人 | 2024-07-17

機(jī)器人實(shí)時(shí)遠(yuǎn)程控制系統(tǒng)及其開發(fā)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)

設(shè)計(jì)方案機(jī)器人實(shí)時(shí) 遠(yuǎn)程控制系統(tǒng) 及其開發(fā) 設(shè)計(jì) 實(shí)現(xiàn) | 2009-09-04

研華AFE機(jī)器人專用控制器：集多視覺與強(qiáng)抗干擾的機(jī)器人

工控自動(dòng)化研華 AFE 機(jī)器人專用控制器視覺 | 2024-07-22

步進(jìn)電動(dòng)機(jī)及其驅(qū)動(dòng)控制系統(tǒng)

資源下載步進(jìn)電動(dòng)機(jī) 驅(qū)動(dòng)控制機(jī)器人 | 2007-12-16

中國(guó)首款全尺寸人形機(jī)器人“青龍”將于 2024 世界人工智能大會(huì)亮相并開源

2024 世界人工智能大會(huì) AI 機(jī)器人 | 2024-07-02

蛇形機(jī)器人的研究與開發(fā)

資源下載機(jī)器人蛇形機(jī)器人舵機(jī) 開發(fā) | 2007-02-16

情感機(jī)器人緩解人類焦慮的情緒

hpnet | 2003-02-13

擬人感官智能語(yǔ)音交互型機(jī)器人頭部設(shè)計(jì)

視頻信息技術(shù)大賽單片機(jī) STC15F2K61S2 智能語(yǔ)音機(jī)器人 | 2013-01-04

工業(yè)5.0浪潮下，移動(dòng)機(jī)器人加速『智能化』

安森美機(jī)器人 | 2024-07-22

多重技術(shù)融合正在影響機(jī)器人發(fā)展尖端技術(shù)提升制造業(yè)競(jìng)爭(zhēng)力

多重技術(shù)融合機(jī)器人尖端技術(shù) 制造業(yè)競(jìng)爭(zhēng)力 | 2024-07-22

自平衡機(jī)器人電路圖

設(shè)計(jì)方案平衡機(jī)器人電路圖 | 2010-01-20

暖場(chǎng)表演：機(jī)器人舞蹈

視頻物聯(lián)網(wǎng) 可穿戴設(shè)備智能硬件高峰論壇機(jī)器人藍(lán)宙電子 | 2015-01-13

機(jī)械設(shè)計(jì)實(shí)作計(jì)畫-機(jī)器人之系統(tǒng)整合

資源下載機(jī)械設(shè)計(jì) 機(jī)器人系統(tǒng)整合 | 2007-04-19

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();