<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          關(guān) 閉

          新聞中心

          EEPW首頁 > 工控自動(dòng)化 > 設(shè)計(jì)應(yīng)用 > 基于網(wǎng)絡(luò)設(shè)備的網(wǎng)頁過濾的設(shè)計(jì)

          基于網(wǎng)絡(luò)設(shè)備的網(wǎng)頁過濾的設(shè)計(jì)

          作者: 時(shí)間:2011-03-25 來源:網(wǎng)絡(luò) 收藏

            3 內(nèi)容過濾

            3.1 響應(yīng)報(bào)文的獲取與重組

            由于網(wǎng)絡(luò)的復(fù)雜性,返回的HTTP 響應(yīng)報(bào)文可能不是有序的到達(dá)的,因此在上需要對到達(dá)的響應(yīng)報(bào)文進(jìn)行有序的重組。根據(jù)請求報(bào)文的五元組信息,收集該請求對應(yīng)的HTTP 響應(yīng)報(bào)文;由于可能亂序,根據(jù)ACK 字段和Seq 字段對報(bào)文進(jìn)行排序重組。在重組中建立的數(shù)據(jù)結(jié)構(gòu)圖2 所示。

          重組使用的數(shù)據(jù)結(jié)構(gòu)

          圖2 重組使用的數(shù)據(jù)結(jié)構(gòu)

            3.2 文本的表示

            目前常用的文本表示模型有許多種,常用的有:布爾邏輯模型、概率模型和向量空間模型等。在向量空間模型,文本內(nèi)容被形式化為多維空間中的一個(gè)點(diǎn),把對文本內(nèi)容的處理簡化為向量空間中向量運(yùn)算,使問題的復(fù)雜性大為降低。

            權(quán)重的計(jì)算既可用規(guī)則的方法手工完成,又可通過統(tǒng)計(jì)的方法自動(dòng)完成,便于融合統(tǒng)計(jì)和規(guī)則兩種方法。

            向量空間模型用項(xiàng)的向量空間來表示文檔信息,項(xiàng)是指用來表示文檔內(nèi)容特征的基本語言單位(字、詞、詞組或短語等),也稱為特征詞,文檔可以用項(xiàng)的*來表示。一個(gè)網(wǎng)頁可以由特征以及其權(quán)值表示,如下:


            其中 xi 為文本向量空間中的一個(gè)特征, w i 為該特征的權(quán)值。

            3.3 特征的選取

            一個(gè)文本攜帶大量的信息,基于計(jì)算的復(fù)雜性考慮,只能在文本信息中提取出其中一些比較重要的特征;并且對于實(shí)際的性能要求,文本中的關(guān)鍵信息足以反映一個(gè)文本特征。像一個(gè)文本中出現(xiàn)的“的”、“有”等一些詞是一些通用詞,不能體現(xiàn)某些文本的特征,因此需要事先對文本進(jìn)行預(yù)處理,去除掉這些詞。



          關(guān)鍵詞: 網(wǎng)絡(luò)設(shè)備

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();