<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 設(shè)計應(yīng)用 > 《機器學(xué)習(xí)系統(tǒng)設(shè)計》學(xué)后總結(jié)

          《機器學(xué)習(xí)系統(tǒng)設(shè)計》學(xué)后總結(jié)

          作者: 時間:2016-12-21 來源:網(wǎng)絡(luò) 收藏

            《系統(tǒng)設(shè)計》是一本不錯的實戰(zhàn)入門的書籍。第一章介紹了用于的Python相關(guān)工具,接下來分別用實戰(zhàn)型例子講解聚類、分類、回歸、模式識別、降維等機器學(xué)習(xí)的主要的幾種方法。

          本文引用地址:http://www.ex-cimer.com/article/201612/341911.htm

            機器學(xué)習(xí)就是教機器自己來完成任務(wù),機器學(xué)習(xí)的目標就是通過若干示例讓機器學(xué)會完成任務(wù)。

            像其他工程一樣,設(shè)計一個機器學(xué)習(xí)系統(tǒng)工作一般花在一些極其平凡的任務(wù)上:

            (1)讀取和清洗數(shù)據(jù);

            (2)探索和理解輸入數(shù)據(jù);

            (3)分析如何最好地將數(shù)據(jù)呈現(xiàn)給學(xué)習(xí)算法;

            (4)選擇正確的學(xué)習(xí)算法和模型;

            (5)正確地評估性能。

            分類是一種監(jiān)督性學(xué)習(xí)(需要樣本進行訓(xùn)練),書中第二章從最簡單的肉眼觀察方法,講到K鄰近算法和分類樹方法。

            聚類是一種無監(jiān)督學(xué)習(xí),書中第三章一種比較典型的聚類方法——K均值(質(zhì)心移動法)。

            主題模型不同于聚類,而是把對象放入幾個組(叫做主題)中。

            分類、聚類和主題模型是主流的機器學(xué)習(xí)模型,是機器學(xué)習(xí)的基礎(chǔ)知識,只有融會貫通這些基礎(chǔ)知識才能在遇到更有挑戰(zhàn)性地問題時能見招拆招。

            設(shè)計機器學(xué)習(xí)系統(tǒng)免不了要對系統(tǒng)進行提升,我本基本有如下選擇:

            (1)增加更多數(shù)據(jù):也許我們沒有為學(xué)習(xí)算法提供足夠數(shù)據(jù),因此增加更多的訓(xùn)練數(shù)據(jù)即可。

            (2)考慮模型復(fù)雜度:也許模型還不夠復(fù)雜,或者已經(jīng)太復(fù)雜了。例如在K鄰近算法中 ,我們可以降低K值,使得較少的近鄰被考慮進去,從而更好地預(yù)測不平滑數(shù)據(jù)。我們也可以提高K值,來得到相反的結(jié)果。

            (3)修改特征空間:也許我們的特征集合并不好。例如,我們可以改變當(dāng)前特征的范圍,或者設(shè)計新的特征。又或者,如果一些特征和另外一些特征是別名關(guān)系,可以刪除一些特征。

            (4)改變模型:也許XX算法并不適合我們的問題,無論我們讓模型變得有多復(fù)雜,無論特征空間會邊得多負雜,它永遠也得不到良好的預(yù)測結(jié)果。

            邏輯回歸是一種分類方法,當(dāng)他處理基于文本的分類任務(wù)時,功能非常強大。

            樸素貝葉斯是一種分類方法,也許是最優(yōu)美的有實際效用的機器學(xué)習(xí)算法之一了,盡管名字叫做樸素,但是當(dāng)你看到其分類的實際效果時,你會發(fā)現(xiàn)并不是那么樸素。他對無關(guān)特征的處理能力十分強悍,無關(guān)特征會被自然地過濾掉。用它進行機器學(xué)習(xí)和預(yù)測的時候,速度都非???,而且并不需要很大的存儲空間。(之所以稱作樸素,是因為有一個能讓貝葉斯方法最優(yōu)工作的假設(shè):所有特征需要相互獨立。而實際應(yīng)用中,這種情況很少出現(xiàn)。盡管如此,在實踐中,即使在獨立假設(shè)并不成立的情況下,他仍然能達到很高的正確率。

            關(guān)回歸預(yù)測模型中首先介紹a kind old method——普通最小二乘法回歸(Ordinary Least Squares,OLS)。有時候為了避免過擬合用到了嶺回歸、Lasson法和彈性網(wǎng)(他們是最前沿的回歸方法)。

            Apriori算法在形式上會將一些集合當(dāng)作輸入,并返回這些集合中出現(xiàn)頻率非常高的子集。Apriori的目標就是尋找一個高支持度的項集。其解決的經(jīng)典問題是購物籃問題(挖掘購買A的人可能還會購買什么)。當(dāng)然,購物籃問題也可以嘗試用基于概率的關(guān)聯(lián)規(guī)則挖掘方法。

            涉及到語音、音樂等樣本的機器學(xué)習(xí)系統(tǒng)則略顯不同,因為他們的描述值并不是那么明顯(比如花朵分類問題中,對特征的描述花瓣數(shù)量、花朵顏色等都比較明確),而對于一段長3分鐘的MP3歌曲,顯然我們不能用MP3數(shù)據(jù)的每一bit來表示。書中介紹了一種基于音樂頻率的分類方法(FFT)——一種可以從音頻中提取頻率強度的方法(快速傅里葉變換)。但是FFT僅僅是一個方向,卻正確率不高!其實對于音樂分類已經(jīng)有人遇到同樣的問題,并成功解決了,甚至有一個每年舉辦的會議專門用來解決音樂分類問題。這個組織是由音樂信息檢索國際協(xié)會(ISMIR)組織的。很明顯自動音樂體裁分類是音樂信息檢索的一個子領(lǐng)域。在AMGC中一個應(yīng)用比較多的音樂體裁分類方法就是梅爾倒頻譜系數(shù)(MFCC)技術(shù)。梅爾倒頻譜(MFC)會對聲音的功率譜進行編碼,它是通過對信號譜的對數(shù)進行傅里葉變換得到的。

            而涉及到圖像、視頻的機器學(xué)習(xí)系統(tǒng)則又和之前不同,這方面甚至直接獨立出來單獨研究。



          關(guān)鍵詞: 機器學(xué)習(xí)

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();