<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 手機(jī)與無線通信 > 設(shè)計應(yīng)用 > 基于改進(jìn)平衡Winnow算法的短信過濾系統(tǒng)

基于改進(jìn)平衡Winnow算法的短信過濾系統(tǒng)

作者：時間：2011-01-20 來源：網(wǎng)絡(luò)

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

摘要：將黑白名單技術(shù)與Balanced Winnow 算法相結(jié)合，實(shí)現(xiàn)對垃圾短信的過濾。采用CHI 特征提取算法并對權(quán)重計算方法進(jìn)行改進(jìn)，同時提出了去除訓(xùn)練樣本中野點(diǎn)的想法，通過判定去除野點(diǎn)，減緩在訓(xùn)練過程中出現(xiàn)的抖動現(xiàn)象。實(shí)驗(yàn)表明這種改進(jìn)對于提高訓(xùn)練速度及提高短信過濾的性能均有很好的作用。

手機(jī)短信以其短小、迅速、簡便、價格低廉等優(yōu)點(diǎn)成為一種重要的通信和交流方式，受到眾多人士的青睞。然而，手機(jī)短信與郵件一樣存在著垃圾信息問題。

目前，垃圾短信過濾主要有黑名單過濾、關(guān)鍵詞過濾和基于文本分類的內(nèi)容過濾等方式。黑名單過濾和關(guān)鍵詞過濾方式能快速過濾垃圾短信，但這兩種過濾方式實(shí)質(zhì)是基于規(guī)則的過濾，雖然在一定程度上阻擋了一些垃圾短信，但規(guī)則的方法需要更多的用戶自定義設(shè)置，很容易被反過濾。基于文本分類的短信過濾采用常見的分類算法，如樸素貝葉斯、SVM、神經(jīng)網(wǎng)絡(luò)等。黎路等人將貝葉斯分類應(yīng)用到J2ME 模擬環(huán)境中成功地過濾了中獎短信和祝福短信。浙江大學(xué)的金展、范晶等將樸素貝葉斯和支持向量機(jī)結(jié)合，解決了傳統(tǒng)垃圾短信過濾系統(tǒng)短信特征和內(nèi)容未能得到及時更新而導(dǎo)致過濾性能降低的問題。王忠軍將基于樸素貝葉斯短信過濾算法與基于最小風(fēng)險貝葉斯算法進(jìn)行了實(shí)驗(yàn)分析和比較，結(jié)論是基于最小風(fēng)險的短信過濾算法具有較好的性能。

然而，短信過濾的準(zhǔn)確率依賴于其訓(xùn)練樣本的數(shù)量及質(zhì)量，這些分類算法需要經(jīng)過訓(xùn)練學(xué)習(xí)建立分類器模型，因此在速度上不能很好地滿足短信過濾實(shí)時性的要求。

從現(xiàn)有技術(shù)上來說，垃圾短信的過濾在準(zhǔn)確率和效率方面仍然不能滿足現(xiàn)實(shí)需要。

本文針對現(xiàn)有短信過濾技術(shù)的不足，設(shè)計了在手機(jī)終端的短信過濾系統(tǒng)，根據(jù)垃圾短信的特點(diǎn)將黑白名單和基于內(nèi)容過濾相結(jié)合。這種過濾方式要求能夠快速地對短信進(jìn)行分類，并且能夠?qū)崿F(xiàn)用戶對短信過濾的個性化要求，使垃圾短信過濾系統(tǒng)具有更好的過濾性能。

Winnow 算法是在1987 年由Nick LittleSTONe 提出并對可行性做了嚴(yán)格證明的線性分類算法。當(dāng)時的目標(biāo)是想找到一種時空復(fù)雜度僅僅與分類對象相關(guān)屬性相關(guān)的數(shù)量呈線性相關(guān)的算法。平衡Winnow 算法是對基本W(wǎng)innow 算法的一種改進(jìn)，該算法具有過濾速度快、性能好、支持反饋更新的優(yōu)點(diǎn)，在信息過濾領(lǐng)域有很好的應(yīng)用前景，尤其適合于對實(shí)時性要求較高的短信過濾系統(tǒng)。

本文設(shè)計并實(shí)現(xiàn)了一個基于平衡Winnow 算法的短信內(nèi)容過濾系統(tǒng)，對該算法在短信過濾系統(tǒng)上的應(yīng)用進(jìn)行了詳細(xì)分析。分類器的訓(xùn)練過程分成預(yù)處理、訓(xùn)練、分類和反饋四個部分。

1 預(yù)處理模塊

預(yù)處理模塊包括中文分詞、特征提取以及短信的向量表示子模塊。

1.1 中文分詞

中文分詞是漢語所特有的研究課題。英語、法語等印歐語種詞與詞之間存在著自然的分割，一般不存在分詞的問題。本系統(tǒng)采用了目前國內(nèi)較多使用的中科院計算所開發(fā)的漢語詞法分析系統(tǒng)ICTCLAS ( Institute ofComputing Technology ，Chinese Lexical Analysis System) 。

ICTCLAS 3.0 分詞速度單機(jī)996 Kb/s，分詞精度98.45%，API 不超過200 KB，各種詞典數(shù)據(jù)壓縮后不到3 MB，是當(dāng)前相對較好的漢語詞法分析器。

1.2 特征提取

特征提取的方法目前也有很多，常用的特征選取方法有：文檔頻率DF(Document Frequency) 、信息增益IG(Information Gain) 、互信息MI(Mutual Information) 、χ2統(tǒng)計等。

本文將分詞后的詞作為候選特征，然后使用特征提取算法從中提取出對分類最有用的一些特征，去除對分類貢獻(xiàn)不大的候選特征，以降低特征的維數(shù)。其中χ2的主要思想是認(rèn)為詞條與類別之間符合χ2分布。χ2 統(tǒng)計量的值越高，特征項(xiàng)和類別之間的獨(dú)立性越小、相關(guān)性越強(qiáng)，即特征項(xiàng)對此類別的貢獻(xiàn)越大。χ2 是一個歸一化的值，該方法比其他方法能減少50％左右的詞匯，具有分類效果好的優(yōu)點(diǎn)。本文中采用χ2統(tǒng)計進(jìn)行特征提取。

但不是簡單地令特征項(xiàng)的權(quán)重xi=1 或0 ，而是令xi=f(χ2)或0 ，這里χ2 特指特征對應(yīng)的χ2 統(tǒng)計值，對應(yīng)關(guān)系f 根據(jù)實(shí)際情況而定。實(shí)驗(yàn)中(n 是一個正整數(shù)，取n=4) 。實(shí)驗(yàn)表明比用布爾權(quán)重表示效果要好。

1.3 文本向量表示目前應(yīng)用較多的是向量空間模型VSM (VectorSpace Model) ，文中用VSM 將一條短信表示為(W1，W2，…，Wk，…，Wn)的向量形式。其中：Wk(k=1 ，2 ，…，n)為第k 個特征的權(quán)重，n 為選定的特征數(shù)。

上一頁 1 2 3 下一頁

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 驅(qū)動

評論

相關(guān)推薦

電子科技大學(xué)--嵌入式系統(tǒng)應(yīng)用開發(fā)技術(shù)33

視頻嵌入式應(yīng)用軟件 USB Mouse 驅(qū)動 | 2009-05-06

第12課第1節(jié) 字符設(shè)備驅(qū)動程序之概念介紹

視頻 2440裸板 Linux 驅(qū)動 | 2013-10-21

OPA502構(gòu)成的橋氏驅(qū)動電路

設(shè)計方案 OPA502 構(gòu)成橋氏驅(qū)動電路 | 2009-07-06

MPS做一體化電機(jī)驅(qū)動方案有三絕招

工控自動化電機(jī) 驅(qū)動 | 2019-04-16

MOS管驅(qū)動電路設(shè)計

MOS管驅(qū)動電路設(shè)計 | 2023-09-30

大功率開關(guān)電源中功率MOSFET的驅(qū)動技術(shù)

資源下載開關(guān)電源 MOSFET 驅(qū)動 | 2007-02-09

馬達(dá)驅(qū)動電路

資源下載馬達(dá) 驅(qū)動驅(qū)動電路 | 2007-12-24

第12課第2.2節(jié) 字符設(shè)備驅(qū)動程序之LED驅(qū)動程序_測試改進(jìn)

視頻 2440裸板 Linux LED 驅(qū)動 | 2013-10-21

有負(fù)載驅(qū)動能力的乘法器(MPY600)

設(shè)計方案有負(fù)載驅(qū)動能力乘法器 MPY600 | 2009-07-06

聚積科技賦能幻映紀(jì)元推動影視產(chǎn)業(yè)「文藝復(fù)興」

光電顯示 LED 驅(qū)動 | 2022-05-26

干貨碼住丨深度剖析IGBT柵極驅(qū)動注意事項(xiàng)

IGBT 柵極驅(qū)動 | 2023-07-27

如何在嵌入式LINUX中增加自己的設(shè)備驅(qū)動程序

jackwang | 2002-06-19

CWl840驅(qū)動雙晶體管的單端正激變換式開關(guān)穩(wěn)壓電路

設(shè)計方案 CWl840 驅(qū)動晶體管單端正端正變換式開關(guān) 穩(wěn)壓 | 2009-07-06

超結(jié)高壓MOSFET驅(qū)動電路及EMI設(shè)計

電源與新能源 202106 超結(jié) 驅(qū)動 EMI 非線性 MOSFET | 2021-07-14

可控硅驅(qū)動放大電路

設(shè)計方案可控硅驅(qū)動放大電路 | 2009-07-06

vxworks中編寫串口驅(qū)動？(老站轉(zhuǎn))

amine | 2002-06-01

IGBT的驅(qū)動與保護(hù)技術(shù)

資源下載 IGBT 驅(qū)動保護(hù) | 2007-02-16

試驗(yàn)六：Flash驅(qū)動

資源下載 CNASIC NOR Flash NAND FLASH GARFIELD 驅(qū)動 | 2007-02-09

[轉(zhuǎn)帖]Vxworks串口驅(qū)動編寫實(shí)例解讀

amine | 2002-05-26

基于驅(qū)動LED串的DCM升壓轉(zhuǎn)換器的詳細(xì)理論分析

光電顯示驅(qū)動 DCM 升壓轉(zhuǎn)換器 LED串 | 2018-08-28

如何驅(qū)動一個直流電機(jī)？直流電機(jī)驅(qū)動電路大全

工控自動化直流電機(jī) 驅(qū)動 | 2019-09-18

消息稱英偉達(dá)在最新的驅(qū)動中取消了 RTX 30 顯卡挖礦限制

網(wǎng)絡(luò)與存儲英偉達(dá) RTX 30 顯卡驅(qū)動 | 2022-10-14

Vxworks下驅(qū)動程序編寫(老站轉(zhuǎn))

amine | 2002-05-28

電機(jī)控制應(yīng)用不斷迭代，ST平臺化方案滿足碎片化需求

工控自動化電機(jī) 驅(qū)動 MCU | 2020-06-22

電動汽車逆變器用IGBT驅(qū)動電源設(shè)計

電源與新能源開關(guān)電源驅(qū)動 | 2018-08-20

第0課第7節(jié)_剛接觸開發(fā)板之制作根文件系統(tǒng)及初試驅(qū)動

視頻 2440裸板 Linux 驅(qū)動 | 2013-10-14

TFT LCD液晶顯示器的驅(qū)動原理

資源下載液晶 TFT LCD顯示器驅(qū)動 | 2008-01-06

第12課第2.1節(jié) 字符設(shè)備驅(qū)動程序之LED驅(qū)動程序_編寫編譯

視頻 2440裸板 Linux LED 驅(qū)動 | 2013-10-21

如何在嵌入式LINUX中增加自己的設(shè)備驅(qū)動程序

jackwang | 2002-05-21

驅(qū)動50Ω負(fù)載的線性放大器

設(shè)計方案驅(qū)動負(fù)載線性放大器 | 2009-07-06

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();