<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          關 閉

          新聞中心

          EEPW首頁 > 工控自動化 > 設計應用 > 基于網絡設備的網頁過濾的設計

          基于網絡設備的網頁過濾的設計

          作者: 時間:2011-03-25 來源:網絡 收藏

            3.4 TF-IDF 權值計算

            TF-IDF 計算公式:


            其中TF(x,d)表示特征x在網頁d中出現(xiàn)的頻率,IDF(x)表示為,N是總共的訓練樣本數(shù),df (x)為包含特征x 的樣本數(shù)。

            3.5 改進的權值計算公式

            從TF-IDF 計算公式可以看出,TF-IDF 計算公式是將一個樣本簡單的分解為若干特征,只是針對文本的內容,沒有從文本的結構組成上考慮各特征的權值。

            實際上,在一個HTML 結構文檔中,在之間,,以及一些其他的標簽之間出現(xiàn)的特征,相對于其他普通的正文,具有更重要的意義,因此對這些標簽之間的特征要給予比較大的權值,而對于其他普通的正文給予權重比較小。考慮到HTML 的這種結構化特性,對TF-IDF 權值計算進行一些改進。

            以下是設計的一個簡單的位置——權值等級對應表,權值的選擇可由實際情況具體而定。

          表1 特征位置與權值對應表

           特征位置與權值對應表

            一個詞在一個網頁中出現(xiàn)的頻率越高,表示該詞在這個網頁中更重要。根據(jù)IDF,一個詞的重要與包含它的網頁數(shù)量成反比。一個特征x 在第i 個等級中的頻率如下表示:


            其中Nxi 表示某個詞x 出現(xiàn)在等級i 中間的次數(shù), Nx 表示詞x 出現(xiàn)在該網頁中總的次數(shù)。

            權值的計算:


            其中Wi 為特征等級為i 時,對應的加權系數(shù)。

            3.6 KNN 算法

            K-近鄰法的原理:在訓練樣本集中,找出與待分類的網頁相鄰最近的K 個訓練樣本,找出K 個近鄰中樣本數(shù)最多的類別c,就判斷待分類樣本為c 類。這里采用相似度作為計算距離的依據(jù),相似的計算根據(jù)兩個樣本之間的夾角的余弦值來判斷。


            根據(jù)此公式,計算出待測樣本x 與所有訓練樣本的距離,從而找出與x 距離最近的K 個訓練樣本,根據(jù)這K 個樣本的所屬類別,確定待測樣本x 的所屬類別。

            3.7 內容過濾流程

            為了不給用戶造成比較明顯的延遲,采用“第一次放過”的策略。先并不攔截該響應報文,只是復制一份應用層信息,在整個響應報文傳輸完成之后,對復制的一份完整報文進行內容過濾操作;如果判斷報文內容是非法的,則將對應的請求報文的URL 信息添加到黑名單中,如果檢查認為是合法的,則允許該連接持續(xù),并將URL 信息添加到白名單中。

            4 結語

            通過實驗分析,在過濾時間上,URL 過濾階段白名單匹配速度提高了53%,在黑名單的匹配中,速度提高了80%。在內容過濾階段,由于采用的“第一次放過”策略,不會給用戶帶來延遲。既能在一定程度滿足網絡延遲的要求,又能改善用戶的互聯(lián)網環(huán)境。但仍然存在一些需要改進的地方:該過濾系統(tǒng)是部署在之上,作為網絡節(jié)點,擔負著繁重的數(shù)據(jù)交換任務,考慮到這些,沒有對返回的報文進行實時的分析,而是采用“第一次放過”的過濾策略;此外,采用向量空間模型來表示,其缺點在于特征項之間線性無關的假設,因此可以考慮特征項之間的關聯(lián)性等,對該文本表示模型進行更加精確的表示。




          上一頁 1 2 3 下一頁

          關鍵詞: 網絡設備

          評論


          相關推薦

          技術專區(qū)

          關閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();