基于改進平衡Winnow算法的短信過濾系統(tǒng)
3 系統(tǒng)反饋
Winnow 是一種在線學(xué)習(xí)的、以錯誤為驅(qū)動的分類器, 適于結(jié)合增量式學(xué)習(xí)來解決自適應(yīng)問題, 實現(xiàn)用戶的個性化要求。平衡Winnow 算法是基本W(wǎng)innow 算法的另外一種形式, 同樣具有在線更新能力。在分類器訓(xùn)練過程中, 對錯分的短信通過α 和β 更新類別權(quán)重向量,實現(xiàn)對分類器的更新, 平衡Winnow 算法中w+和w-的雙向調(diào)節(jié), 使算法的訓(xùn)練速度更快, 適合于對分類實時性要求較高的短信過濾系統(tǒng)。
4 實驗資源及分析與*價
本文在自建短信語料庫的基礎(chǔ)上完成對比實驗, 其中正常短信1 892 條, 垃圾短信270 條, 將短信語料庫隨機分成5 等份, 其中4 份用于訓(xùn)練樣本,1 份作為測試樣本。
4.1 *價指標(biāo)
分類系統(tǒng)*價指標(biāo)如下, 包括兩類短信各自的準(zhǔn)確率(precision) 和召回率(recall) , 由于系統(tǒng)目標(biāo)是垃圾短信過濾, 于是增加了針對垃圾短信的綜合*價指標(biāo)(F1):
F1=(2×準(zhǔn)確率×召回率)/( 準(zhǔn)確率+召回率)。
4.2 實驗結(jié)果分析
(1) 實驗1: 探討改進的特征權(quán)重計算方法對實驗結(jié)果的影響。實驗結(jié)果如表1 所示。
表1 特征權(quán)重計算方法對實驗結(jié)果的影響。
其中測試樣本中正常短信被誤分為垃圾短信條數(shù)為22 條, 正常短信召回率為94.2%; 垃圾短信被誤分為正常短信8 條, 準(zhǔn)確率僅為67.7%。
(2) 實驗2: 統(tǒng)一參數(shù)和取固定的閾值θ 之后對實驗結(jié)果的影響。該實驗中?。?alpha;=1.5 、β=1/1.5 、θ=15 。實驗結(jié)果如表2 所示。
表2 選定參數(shù)對實驗結(jié)果的影響
其中測試樣本中正常短信被誤分為垃圾短信條數(shù)為18 條, 正常短信召回率為96.1%; 而測試用的垃圾短信正確識別了44 條, 準(zhǔn)確率為71.0%。由此可見, 參數(shù)對實驗結(jié)果的影響不大。
(3) 實驗3: 去除野點對實驗結(jié)果的影響。實驗結(jié)果如表3 所示。
表3 去除野點對實驗結(jié)果的影響。
從實驗結(jié)果分析, 僅有12 條正常短信和8 條垃圾短信被錯誤分類。通過去除野點, 發(fā)現(xiàn)不僅緩減了抖動現(xiàn)象, 而且提高了分類器的分類性能及正常短信的召回率。
Balanced Winnow 在訓(xùn)練速度和分類速度上具有較大優(yōu)勢, 所以具有更高的實用價值, 非常適合短信過濾的要求。另外,Winnow 作為一種在線學(xué)習(xí)方法, 在訓(xùn)練集合不斷擴大的情況下能夠快速對分類器進行更新。正是基于Winnow 不斷學(xué)習(xí)、不斷調(diào)整的機制, 使其非常適合用戶自己定制需要的分類標(biāo)準(zhǔn)。隨著用戶不斷地反饋調(diào)整,整個系統(tǒng)會表現(xiàn)出越來越好的效果。本文引用地址:http://www.ex-cimer.com/article/156764.htm
評論