<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 工控自動化 > 設計應用 > 基于網絡設備的網頁過濾的設計

基于網絡設備的網頁過濾的設計

作者：時間：2011-03-25 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

收藏

　　3.4 TF-IDF 權值計算

　　TF-IDF 計算公式：

　　其中TF（x,d）表示特征x在網頁d中出現(xiàn)的頻率，IDF（x）表示為，N是總共的訓練樣本數(shù)，df （x）為包含特征x 的樣本數(shù)。

　　3.5 改進的權值計算公式

　　從TF-IDF 計算公式可以看出，TF-IDF 計算公式是將一個樣本簡單的分解為若干特征，只是針對文本的內容，沒有從文本的結構組成上考慮各特征的權值。

　　實際上，在一個HTML 結構文檔中，在之間，,以及一些其他的標簽之間出現(xiàn)的特征，相對于其他普通的正文，具有更重要的意義，因此對這些標簽之間的特征要給予比較大的權值，而對于其他普通的正文給予權重比較小。考慮到HTML 的這種結構化特性，對TF-IDF 權值計算進行一些改進。

　　以下是設計的一個簡單的位置——權值等級對應表，權值的選擇可由實際情況具體而定。

表1 特征位置與權值對應表

特征位置與權值對應表

　　一個詞在一個網頁中出現(xiàn)的頻率越高，表示該詞在這個網頁中更重要。根據(jù)IDF，一個詞的重要與包含它的網頁數(shù)量成反比。一個特征x 在第i 個等級中的頻率如下表示：

　　其中Nxi 表示某個詞x 出現(xiàn)在等級i 中間的次數(shù)， Nx 表示詞x 出現(xiàn)在該網頁中總的次數(shù)。

　　權值的計算：

　　其中Wi 為特征等級為i 時，對應的加權系數(shù)。

　　3.6 KNN 算法

　　K-近鄰法的原理：在訓練樣本集中，找出與待分類的網頁相鄰最近的K 個訓練樣本，找出K 個近鄰中樣本數(shù)最多的類別c，就判斷待分類樣本為c 類。這里采用相似度作為計算距離的依據(jù)，相似的計算根據(jù)兩個樣本之間的夾角的余弦值來判斷。

　　根據(jù)此公式，計算出待測樣本x 與所有訓練樣本的距離，從而找出與x 距離最近的K 個訓練樣本，根據(jù)這K 個樣本的所屬類別，確定待測樣本x 的所屬類別。

　　3.7 內容過濾流程

　　為了不給用戶造成比較明顯的延遲，采用“第一次放過”的策略。先并不攔截該響應報文，只是復制一份應用層信息，在整個響應報文傳輸完成之后，對復制的一份完整報文進行內容過濾操作；如果判斷報文內容是非法的，則將對應的請求報文的URL 信息添加到黑名單中，如果檢查認為是合法的，則允許該連接持續(xù)，并將URL 信息添加到白名單中。

　　4 結語

　　通過實驗分析，在過濾時間上，URL 過濾階段白名單匹配速度提高了53%,在黑名單的匹配中，速度提高了80%。在內容過濾階段，由于采用的“第一次放過”策略，不會給用戶帶來延遲。既能在一定程度滿足網絡延遲的要求，又能改善用戶的互聯(lián)網環(huán)境。但仍然存在一些需要改進的地方：該過濾系統(tǒng)是部署在網絡設備之上，網絡設備作為網絡節(jié)點，擔負著繁重的數(shù)據(jù)交換任務，考慮到這些，沒有對返回的報文進行實時的分析，而是采用“第一次放過”的過濾策略；此外，采用向量空間模型來表示，其缺點在于特征項之間線性無關的假設，因此可以考慮特征項之間的關聯(lián)性等，對該文本表示模型進行更加精確的表示。

上一頁 1 2 3 下一頁

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： 網絡設備

評論

相關推薦

嵌入式分布系統(tǒng)中網絡設備的時間同步

嵌入式系統(tǒng) 嵌入式分布系統(tǒng) 網絡設備 VxWorks | 2013-01-23

嵌入式分布系統(tǒng)中網絡設備的時間同步

設計方案嵌入式分布系統(tǒng) 網絡設備 VxWorks | 2015-06-24

新型浪涌保護器在樓宇控制系統(tǒng)中的應用

電源與新能源浪涌電磁兼容性電涌保護器網絡設備 | 2011-12-18

TD-SCDMA與TD-LTE共享平臺

TD-SCDMA TD-LTE 共享平臺網絡設備 | 2011-09-09

歐盟指責華為中興傾銷

手機與無線通信華為網絡設備無線 | 2012-12-09

一種WPAN網絡設備方案

嵌入式系統(tǒng) 方案網絡設備 WPAN 一種 | 2011-08-28

求助：想自己做一個嵌入式網絡設備，請大家指點一下

jackwang | 2006-09-17

QNX操作系統(tǒng)及網絡設備驅動模塊

資源下載網絡設備驅動模塊 | 2009-11-09

Linux系統(tǒng)網絡設備驅動程序

資源下載 Linux系統(tǒng) 網絡設備設備驅動程序 | 2007-02-28

Wickmann面向電信網絡設備推出PPTC自復位保險絲

zhangwde | 2006-01-05

“棱鏡門”致思科在華業(yè)務受沖擊華為受益

網絡與存儲華為網絡設備 | 2013-06-27

Marvell入選Wi-Fi聯(lián)盟的Wi-Fi認證TDLS試驗項目

手機與無線通信 Marvell Wi-Fi 網絡設備 | 2012-08-28

DeviceAndModule

資源下載設備管理模塊機制 Devfs注冊塊設備請求隊列網絡設備 | 2009-06-14

RF Code發(fā)布RFID網絡設備開發(fā)者套件

sanhey | 2006-02-15

利用科來網絡回溯分析技術診斷網絡設備異常丟包故障

設計方案網絡回溯分析網絡設備 CRC 校驗碼錯誤 | 2015-08-06

中國電信否認將大規(guī)模購買IP網絡設備

hpnet | 2002-12-06

IP網絡測試技術提高高帶寬無線網絡設備開發(fā)水平

手機與無線通信無線網絡設備開發(fā) 水平帶寬提高網絡測試技術 IP | 2012-06-08

網絡設備采購方式悄然轉型：中國ODM廠商受寵

網絡與存儲思科 ODM 網絡設備 | 2012-04-04

[zz]風河網絡設備平臺（PNE）提升網絡性能

唐朝 | 2003-10-17

飛思卡爾 -安全可靠，面向未來物聯(lián)網的嵌入式處理解決方案

視頻飛思卡爾嵌入式處理解決方案汽車電子消費電子工業(yè)電子網絡設備 MCU 單片機微處理器傳感器模擬IC 連接器件物聯(lián)網半導體 | 2015-01-14

自動化通信設備的故障分類及檢修方法

電源與新能源通信設備網絡設備故障分析 | 2011-10-24

焦點

推薦視頻

技術專區(qū)

關閉

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();