<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 手機與無線通信 > 設(shè)計應(yīng)用 > 基于改進平衡Winnow算法的短信過濾系統(tǒng)

基于改進平衡Winnow算法的短信過濾系統(tǒng)

作者：時間：2011-01-20 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

2 構(gòu)造分類器

訓(xùn)練分類器是研究的重點，采用Balanced Winnow 算法并對其進行改進。

2.1 Winnow 分類算法

Winnow 算法是二值屬性數(shù)據(jù)集上的線性分類算法。線性分類問題中表示分類界限的超平面等式如下：

w0α0+w1α1+w2α2+…+wkαk=0 ，其中：α0，α1，…，αk分別是屬性的值；w0，w1， …，wk是超平面的權(quán)值。如果其值大于0 ，則預(yù)測為第一類否則為第二類。

Winnow 算法是錯誤驅(qū)動型的分類算法，即當(dāng)出現(xiàn)錯分的實例時才更新權(quán)值向量。設(shè)定兩個學(xué)習(xí)系數(shù)α 和β(其中α＞1，β＜1) ，通過將權(quán)值乘以參數(shù)α( 或β) 來分別修改權(quán)值。

2.2 Balanced Winnow 分類算法

標(biāo)準(zhǔn)的Winnow 算法不允許有負(fù)的權(quán)值，于是就有了另一個稱為平衡的Winnow 版本，允許使用負(fù)的權(quán)值。

對Winnow 算法的基本形式，權(quán)重向量的每一維都是正數(shù)。Balanced Winnow 是用w+-w-代替w，當(dāng)

則將實例歸為該類。Balanced Winnow 的權(quán)重更新策略為：

(1) 如果

，但文本不屬于該類，則要降低權(quán)重：　　對j=1，，…，d，如果xj≠0 ，則xj≠0 ， w+j =βw+j ，w-j =αw-j ，α＞1，0＜β＜1。

(2) 如果

但文本應(yīng)屬于該類，則要提高權(quán)重：　　對j=1，2，…，d，如果xj≠0，則w+j =αw+j ，w-j =βw-j ，α＞1，0＜β＜1。

在實驗中，采用文獻[7] 中統(tǒng)一α 和β 為一個參數(shù)的方法，令β=1/α，沒有影響分類效果，但有效簡化了參數(shù)的選擇?？梢詾椴煌念悇e確定不同的θ 值，但實驗表明：對于不同的類別選擇同樣的θ 值，結(jié)果幾乎是一樣的，所以在每次獨立的實驗中都取相同的θ 值，大小是訓(xùn)練文本所含的平均特征數(shù)，而初始的w+和w-分別取全2 和全1 向量。

在平衡Winnow 算法中，一旦參數(shù)α、β 和閾值θ 確定下來后，將在訓(xùn)練過程中不斷更新權(quán)重向量w+和w-至最適合這組參數(shù)。因此對參數(shù)的依賴較小，需要手工調(diào)整的參數(shù)不多。

2.3 去除野點

在短信過濾中，短信樣本是由手動或自動方式收集的，收集的過程中難免會出錯，因此短信樣本集中可能存在一些被人為錯分的樣本點，即野點。這些野點在訓(xùn)練時，會使得分類器產(chǎn)生嚴(yán)重的抖動現(xiàn)象，降低分類器的性能。因此，好的分類器應(yīng)具有識別野點的能力。

對于Winnow 算法，若樣本中存在野點，則野點在訓(xùn)練時以較大的概率出現(xiàn)在兩分類線之外，且分類錯誤。

這些野點對分類器的訓(xùn)練過程產(chǎn)生很大的影響，可能會造成分類器的“ 過度學(xué)習(xí)” 。因此引入損失函數(shù)，按照損失函數(shù)的定義，這些野點損失較大，因此可以通過給損失函數(shù)設(shè)置一個上界函數(shù)來處理線性分類器中的野點問題，如圖1 所示。

圖1 所示為兩類線性可分情況，圖中實心點和空心點分別表示兩類訓(xùn)練樣本，H 為兩類樣本沒有被錯誤地分開的分類線，H1 和H2 分別為平行于分類線H 且與分類線H 的距離為單位距離的兩條直線。直線G(t)為平衡Winnow 算法中第t 輪迭代后損失函數(shù)的上界線。該上界線是關(guān)于迭代次數(shù)t 的函數(shù)，因此可以將該上界線G(t)對應(yīng)的上界函數(shù)記為g(t)。從圖1 可知，在直線G(t)左下側(cè)誤分樣本的損失較少，可以認(rèn)為這些誤分樣本是由于當(dāng)前分類器的性能較低而誤分的；在直線G(t) 右上側(cè)誤分的樣本由于在第t 輪迭代后損失仍較大，則可以認(rèn)為這些誤分的樣本是野點。根據(jù)線性分類器和野點的性質(zhì)可知，上界函數(shù)g(t)具有以下性質(zhì)：

(1) 隨著Winnow 算法中迭代次數(shù)t 的增加，上界函數(shù)g(t) 單調(diào)遞減，并且遞減的速率也隨著t 的增加而遞減，即上界函數(shù)的導(dǎo)數(shù)g(t)為單調(diào)遞減函數(shù)；(2) 上界函數(shù)既不能太大，也不能太小。太大會降低判斷野點的能力，太小則會誤判正常樣本為野點。

根據(jù)上界函數(shù)的這些特性，可以考慮一個平行于分類線H 的線性函數(shù)作為損失函數(shù)的上界函數(shù)。即g(t)=

其中：ε 為常數(shù)值；直線G(t) 平行于分類線H；η 為損失因子，也稱為學(xué)習(xí)率，可以在訓(xùn)練分類器的時候指定其值。

在每一輪訓(xùn)練中，若該樣本的G(t) 值大于分類線的值，并且超過一定的閾值，且不屬于該類，則判定該樣本具有野點的性質(zhì)，應(yīng)當(dāng)在訓(xùn)練集中將該樣本去除，以便提高下一輪訓(xùn)練的準(zhǔn)確性。這樣不僅有效削弱了分類器的抖動現(xiàn)象，而且提高了分類器的性能。

上一頁 1 2 3 下一頁

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 驅(qū)動

評論

相關(guān)推薦

CWl840驅(qū)動雙晶體管的單端正激變換式開關(guān)穩(wěn)壓電路

設(shè)計方案 CWl840 驅(qū)動晶體管單端正端正變換式開關(guān) 穩(wěn)壓 | 2009-07-06

消息稱英偉達在最新的驅(qū)動中取消了 RTX 30 顯卡挖礦限制

網(wǎng)絡(luò)與存儲英偉達 RTX 30 顯卡驅(qū)動 | 2022-10-14

試驗六：Flash驅(qū)動

資源下載 CNASIC NOR Flash NAND FLASH GARFIELD 驅(qū)動 | 2007-02-09

Vxworks下驅(qū)動程序編寫(老站轉(zhuǎn))

amine | 2002-05-28

電動汽車逆變器用IGBT驅(qū)動電源設(shè)計

電源與新能源開關(guān)電源驅(qū)動 | 2018-08-20

[轉(zhuǎn)帖]Vxworks串口驅(qū)動編寫實例解讀

amine | 2002-05-26

電子科技大學(xué)--嵌入式系統(tǒng)應(yīng)用開發(fā)技術(shù)33

視頻嵌入式應(yīng)用軟件 USB Mouse 驅(qū)動 | 2009-05-06

有負(fù)載驅(qū)動能力的乘法器(MPY600)

設(shè)計方案有負(fù)載驅(qū)動能力乘法器 MPY600 | 2009-07-06

第0課第7節(jié)_剛接觸開發(fā)板之制作根文件系統(tǒng)及初試驅(qū)動

視頻 2440裸板 Linux 驅(qū)動 | 2013-10-14

電機控制應(yīng)用不斷迭代，ST平臺化方案滿足碎片化需求

工控自動化電機驅(qū)動 MCU | 2020-06-22

TFT LCD液晶顯示器的驅(qū)動原理

資源下載液晶 TFT LCD顯示器驅(qū)動 | 2008-01-06

第12課第2.2節(jié) 字符設(shè)備驅(qū)動程序之LED驅(qū)動程序_測試改進

視頻 2440裸板 Linux LED 驅(qū)動 | 2013-10-21

超結(jié)高壓MOSFET驅(qū)動電路及EMI設(shè)計

電源與新能源 202106 超結(jié) 驅(qū)動 EMI 非線性 MOSFET | 2021-07-14

OPA502構(gòu)成的橋氏驅(qū)動電路

設(shè)計方案 OPA502 構(gòu)成橋氏驅(qū)動電路 | 2009-07-06

聚積科技賦能幻映紀(jì)元推動影視產(chǎn)業(yè)「文藝復(fù)興」

光電顯示 LED 驅(qū)動 | 2022-05-26

基于驅(qū)動LED串的DCM升壓轉(zhuǎn)換器的詳細(xì)理論分析

光電顯示驅(qū)動 DCM 升壓轉(zhuǎn)換器 LED串 | 2018-08-28

大功率開關(guān)電源中功率MOSFET的驅(qū)動技術(shù)

資源下載開關(guān)電源 MOSFET 驅(qū)動 | 2007-02-09

MPS做一體化電機驅(qū)動方案有三絕招

工控自動化電機驅(qū)動 | 2019-04-16

IGBT的驅(qū)動與保護技術(shù)

資源下載 IGBT 驅(qū)動保護 | 2007-02-16

如何在嵌入式LINUX中增加自己的設(shè)備驅(qū)動程序

jackwang | 2002-06-19

MOS管驅(qū)動電路設(shè)計

MOS管驅(qū)動電路設(shè)計 | 2023-09-30

馬達驅(qū)動電路

資源下載馬達驅(qū)動驅(qū)動電路 | 2007-12-24

vxworks中編寫串口驅(qū)動？(老站轉(zhuǎn))

amine | 2002-06-01

可控硅驅(qū)動放大電路

設(shè)計方案可控硅驅(qū)動放大電路 | 2009-07-06

如何驅(qū)動一個直流電機？直流電機驅(qū)動電路大全

工控自動化直流電機驅(qū)動 | 2019-09-18

驅(qū)動50Ω負(fù)載的線性放大器

設(shè)計方案驅(qū)動負(fù)載線性放大器 | 2009-07-06

如何在嵌入式LINUX中增加自己的設(shè)備驅(qū)動程序

jackwang | 2002-05-21

第12課第2.1節(jié) 字符設(shè)備驅(qū)動程序之LED驅(qū)動程序_編寫編譯

視頻 2440裸板 Linux LED 驅(qū)動 | 2013-10-21

第12課第1節(jié) 字符設(shè)備驅(qū)動程序之概念介紹

視頻 2440裸板 Linux 驅(qū)動 | 2013-10-21

干貨碼住丨深度剖析IGBT柵極驅(qū)動注意事項

IGBT 柵極驅(qū)動 | 2023-07-27

焦點

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();