如何快速使用大規(guī)模機(jī)器學(xué)習(xí)的核心技術(shù)?
具體來說,DMTK當(dāng)前版本的工具包主要有以下幾個(gè)部分:
本文引用地址:http://www.ex-cimer.com/article/201602/287461.htmDMTK分布式機(jī)器學(xué)習(xí)框架
主要由參數(shù)服務(wù)器和客戶端軟件開發(fā)包(SDK)兩部分構(gòu)成。
1. 參數(shù)服務(wù)器。重新設(shè)計(jì)過的參數(shù)服務(wù)器在原有基礎(chǔ)上從性能和功能上都得到了進(jìn)一步提升——支持存儲混合數(shù)據(jù)結(jié)構(gòu)模型、接受并聚合工作節(jié)點(diǎn)服務(wù)器的數(shù)據(jù)模型更新、控制模型同步邏輯等。
2. 客戶端軟件開發(fā)包(SDK)。包括網(wǎng)絡(luò)層、交互層的一些東西,支持維護(hù)節(jié)點(diǎn)模型緩存(與全局模型服務(wù)器同步)、節(jié)點(diǎn)模型訓(xùn)練和模型通訊的流水線控制、以及片狀調(diào)度大模型訓(xùn)練等。用戶并不需要清楚地知道參數(shù)和服務(wù)器的對應(yīng)關(guān)系,SDK會幫助用戶自動(dòng)將客戶端的更新發(fā)送至對應(yīng)的參數(shù)服務(wù)器端。
通用分布式機(jī)器學(xué)習(xí)算法
LightLDA:LightLDA是一種全新的用于訓(xùn)練主題模型的學(xué)習(xí)算法,是具有可擴(kuò)展、快速、輕量級,計(jì)算復(fù)雜度與主題數(shù)目無關(guān)等特點(diǎn)的高效算法。在其分布式實(shí)現(xiàn)中,DMTK團(tuán)隊(duì)做了大量系統(tǒng)優(yōu)化使得其能夠在一個(gè)普通計(jì)算機(jī)集群上處理超大規(guī)模的數(shù)據(jù)和模型。例如,在一個(gè)由8臺計(jì)算機(jī)組成的集群上,只需要一個(gè)星期左右的時(shí)間,可以在具有1千億訓(xùn)練樣本(token)的數(shù)據(jù)集上訓(xùn)練具有1千萬詞匯表和1百萬個(gè)話題(topic)的LDA模型(約10萬億個(gè)參數(shù))。這種規(guī)模的實(shí)驗(yàn)以往在數(shù)千臺計(jì)算機(jī)的集群上也需要數(shù)以月計(jì)的時(shí)間才能得到相似結(jié)果。
分布式詞向量:詞向量技術(shù)近來被普遍地應(yīng)用于計(jì)算詞匯的語義表示,它可以用作很多自然語言處理任務(wù)的詞特征。微軟為兩種計(jì)算詞向量的算法提供了高效的分步式實(shí)現(xiàn):一種是標(biāo)準(zhǔn)的word2vec算法,另一種是可以對多義詞計(jì)算多個(gè)詞向量的新算法。
詞向量的作用是為了比較兩個(gè)詞之前的距離,基于這個(gè)距離來判斷語義上更深的信息。以前的詞向量模型以單詞為維度建立,每個(gè)單詞學(xué)出一組參數(shù),每組參數(shù)即為詞向量,每個(gè)單詞通過映射至詞向量上來進(jìn)行語義上的表達(dá)。一個(gè)向量在語義空間中對應(yīng)一個(gè)點(diǎn)。而一詞多義的現(xiàn)象極為普遍,但如果多個(gè)意思在語義空間中只用一個(gè)點(diǎn)來表達(dá)就不太科學(xué)。如果我們希望學(xué)出多個(gè)語義空間中的點(diǎn),在建立模型時(shí)就不會讓每個(gè)單詞只表達(dá)出一個(gè)向量,而是最開始時(shí)就讓每個(gè)單詞選擇N個(gè)向量進(jìn)行定義,而后置入概率混合模型。這個(gè)模型通過在學(xué)習(xí)過程中不斷的優(yōu)化,產(chǎn)生對每個(gè)單詞多個(gè)向量的概率分布,結(jié)合語境對每個(gè)向量分配概率,從而學(xué)習(xí)更有意義的詞向量表達(dá)。
一詞多義的學(xué)習(xí)框架和學(xué)習(xí)過程與一詞一義并沒什么不同,但它有更多的參數(shù),并且需要在學(xué)習(xí)過程中分配多個(gè)向量各自對應(yīng)的概率,因此復(fù)雜度更高。由于整個(gè)過程通過多機(jī)進(jìn)行并行,因此還是能夠保證以足夠快的速度完成訓(xùn)練。比如在對某網(wǎng)頁數(shù)據(jù)集(約1千億單詞)進(jìn)行訓(xùn)練時(shí),8臺機(jī)器大概40個(gè)小時(shí)內(nèi)就可以完成模型訓(xùn)練。
DMTK提供了豐富的API接口給研發(fā)人員。大數(shù)據(jù)接口主要集中在并行框架這部分,來解決很多機(jī)器一起學(xué)習(xí)時(shí),單機(jī)的客戶端如何調(diào)用參數(shù)服務(wù)器的問題。
王太峰為我們列舉了DMTK中對于不同需求的開發(fā)者設(shè)計(jì)的API:
保持原有機(jī)器學(xué)習(xí)算法流程:這類開發(fā)人員最需要的API就是同步參數(shù),依照自己原有的算法進(jìn)行訓(xùn)練,只在需要多機(jī)之間交互時(shí)利用DMTK的API來獲取模型參數(shù)(GET)和發(fā)送更新(ADD)。通常這類開發(fā)需要花的精力比較少。 從頭設(shè)計(jì)算法:這類開發(fā)人員不需要設(shè)計(jì)完整算法流程,只需按照DMTK中對數(shù)據(jù)塊描述,接口會告訴DMTK每條數(shù)據(jù)需要什么參數(shù),如何利用數(shù)據(jù)進(jìn)行參數(shù)更新。DMTK客戶端SDK會自動(dòng)啟動(dòng)內(nèi)置的學(xué)習(xí)流程,進(jìn)行逐條數(shù)據(jù)的訓(xùn)練,并在必要的時(shí)候進(jìn)行模型交互。
目前DMTK在GitHub上有1400多顆星,在分布式機(jī)器學(xué)習(xí)的框架上來說排名是非??壳暗?。用戶也反饋了很多對代碼修復(fù)的意見、和對增加一些額外功能需求的建議。
DMTK并非完整的開箱即用解決方案,其中分布式的算法,如LightLDA,WordEmbedding可以為很多用戶直接所用。同時(shí),DMTK在設(shè)計(jì)上允許用戶進(jìn)行后續(xù)擴(kuò)展,使其能夠支持更多的算法和平臺。王太峰還透露,目前DMTK還是利用現(xiàn)有的文檔系統(tǒng)(Filesystem),直接將數(shù)據(jù)分布在里面,各個(gè)機(jī)器處理本地硬盤上的數(shù)據(jù)。在此基礎(chǔ)上,DMTK正逐漸增加對Hadoop的一些支持,如利用HDFS去讀數(shù)據(jù),幫助用戶調(diào)度作業(yè)等。
后記
就在不久前,微軟公司還發(fā)布了另一套機(jī)器學(xué)習(xí)工具包,即計(jì)算網(wǎng)絡(luò)工具包(Computational Network Toolkit)——或者簡稱CNTK。另外,谷歌開源人工智能系統(tǒng)TensorFlow,IBM開源機(jī)器學(xué)習(xí)平臺SystemML。這對廣大開發(fā)者和創(chuàng)業(yè)公司來說,無疑在很大程度上簡化基礎(chǔ)技術(shù)的投入和難度。
評論