NetFlow流量采集與聚合的研究實現(xiàn)
近年來,隨著信息技術(shù)的飛速發(fā)展,越來越多的企業(yè)和大型機構(gòu)在其內(nèi)部構(gòu)建基于網(wǎng)絡的應用,復雜程度及對網(wǎng)絡的依賴程度日益提高,各種各樣的網(wǎng)絡問題也隨之產(chǎn)生。網(wǎng)絡流量監(jiān)測是網(wǎng)絡管理和系統(tǒng)管理的一個重要組成部分,網(wǎng)絡流量數(shù)據(jù)為網(wǎng)絡的運行和維護提供了重要信息。這些數(shù)據(jù)對網(wǎng)絡的資源分布、容量規(guī)劃、服務質(zhì)量分析、錯誤監(jiān)測與隔離、安全管理都十分重要。因此,對網(wǎng)絡流量及相關(guān)情況實施科學合理的監(jiān)管和深入分析,成為網(wǎng)絡管理的重要環(huán)節(jié)之一;同時,它也為網(wǎng)絡問題提供有效解決方案及進行網(wǎng)絡的規(guī)劃。
目前的網(wǎng)絡流量分析方法主要有基于SNMP、基于實時抓包分析、基于網(wǎng)絡探針和基于:Flow技術(shù)等幾種。NetFlow基于Flow技術(shù),目前已得到大多數(shù)網(wǎng)絡設備廠商的支持,提供了網(wǎng)絡監(jiān)測方面非常完善的應用?;?a class="contentlabel" href="http://www.ex-cimer.com/news/listbylabel/label/NetFlow">NetFlow的流量采集方法可以獲得包括源/目的主機IP、應用協(xié)議類型、源/目的端口等詳細信息,根據(jù)這些信息就可以對協(xié)議(應用)、主機IP(用戶)以及AS域等進行統(tǒng)計排行和趨勢分析,也可對異常流量進行監(jiān)測分析。此外,NetFlow避免了大量部署和配置監(jiān)測探針的復雜過程,使得網(wǎng)絡性能分析更加全面、靈活且簡單易用。
l NetFlow技術(shù)
NetFlow是Cisco公司提出的基于Cisco IOS系統(tǒng)的一種應用。它用于提供網(wǎng)絡設備上數(shù)據(jù)包形成的“流”的統(tǒng)計信息,并逐漸演變成為網(wǎng)絡流量統(tǒng)計和安全分析的主要手段。目前利用:NetFlow可以實現(xiàn)網(wǎng)絡流量監(jiān)測,用戶應用監(jiān)控,網(wǎng)絡安全,網(wǎng)絡規(guī)劃以及流量計費等功能。
NetFlow有兩個核心的組件:NetFlow緩存,存儲IP流信息;NetFlow的數(shù)據(jù)導出或傳輸機制,NetFlow利用此機制將數(shù)據(jù)發(fā)送到網(wǎng)絡管理采集器。
1.1 流(Flow)的定義
一條流由一個源主機與一個目的主機間的單方向傳輸?shù)木W(wǎng)絡數(shù)據(jù)包組成,其中,源和目的主機由各自的IP地址和端口號來標識。一條流一般由以下七個關(guān)鍵字段惟一標識:
?源地址
?目的地址
?源端口號
?目的端口號
?第3層協(xié)議類型(如TCP,UDP)
?服務類型
?入邏輯接口標示符
1.2 流(Flow)格式
啟動NetFlow的設備會輸出其緩沖區(qū)里的信息,以UDP包的形式傳送給NetFlow流量采集器。包由包頭和若干流記錄組成。常用的NetFlOW輸出包格式共有5個版本,它們分別是Version 1,Version 5,Ver-sion 7,Version 8和Version 9,其中V5是最為流行和成熟的版本,目前得到最廣泛的使用。最新的V9已經(jīng)被列入IETF的標準,并有待進一步研究和規(guī)范。V9采用了模板技術(shù)與流記錄相結(jié)合的方式,使NetFlow輸出包的格式具有動態(tài)和可擴展的特性。NetFlow V9的輸出格式主要由三部分構(gòu)成:
(1)包頭部(Packet Header):包括版本號、包中數(shù)據(jù)流總數(shù)、系統(tǒng)時間、數(shù)據(jù)流序列、數(shù)據(jù)源ID等。
(2)模板流集(Template FlowSet):包含一個或多個模板,模板是用于描繪數(shù)據(jù)流中各個數(shù)據(jù)段的含義,可以在路由器上根據(jù)需要自行設置模板。
(3)數(shù)據(jù)流集(。Data FlowSet):包含多個數(shù)據(jù)流,每個數(shù)據(jù)流集通過模板ID對應某個模板。數(shù)據(jù)采集端根據(jù)模板來解析數(shù)據(jù)流。
2 NetFlow流量采集與聚合
2.1 系統(tǒng)概述
根據(jù)NetFlow的特點,設計并實現(xiàn)了一個網(wǎng)絡流量監(jiān)測系統(tǒng),其系統(tǒng)結(jié)構(gòu)如圖1所示。
當NetFlow采集器接收到從路由器發(fā)送來的Net-Flow數(shù)據(jù)包后,采集器將進行數(shù)據(jù)包的解析和數(shù)據(jù)流聚合,形成多種適合統(tǒng)計分析需要的數(shù)據(jù),再分門別類地存入數(shù)據(jù)庫。分析器則根據(jù)前端不同的查詢請求,依照一定的查詢策略從數(shù)據(jù)庫不同的表中提取相應數(shù)據(jù)進行分析展現(xiàn)。
本系統(tǒng)的后臺采集器和聚合處理部分用JAVA編寫實現(xiàn),數(shù)據(jù)庫采用開源的MySQL,而NetFlow流量分析利用Tomcat服務器通過Web方式展現(xiàn),前臺部分用JSP編寫實現(xiàn)。工作的重點即在于數(shù)據(jù)采集、數(shù)據(jù)聚合以及數(shù)據(jù)庫設計部分。
2.2 NetFlow流采集
2.2.1 采集器的設計
數(shù)據(jù)采集模塊是整個系統(tǒng)的基礎(chǔ)。由于。NetFlow數(shù)據(jù)流量非常大,為防止丟包系統(tǒng)采用緩沖區(qū)和線程池結(jié)構(gòu),如圖2所示。
當采集器監(jiān)聽到一個NetFlow數(shù)據(jù)包時,將該數(shù)據(jù)包接收到緩沖區(qū),并從包解析線程池中取出一個線程,根據(jù)相應的NetFlow的報文格式解析出數(shù)據(jù)流信息,將該原始流信息放入緩沖區(qū),然后將原始流存入數(shù)據(jù)庫,同時采用相應的聚合策略聚合原始流生成聚合流并存入相應的數(shù)據(jù)庫中。
2.2.2 NetFlow數(shù)據(jù)包接收與解析
由于NetFlow數(shù)據(jù)是借助于UDP數(shù)據(jù)報來傳送,因而倘若后續(xù)的處理速度跟不上數(shù)據(jù)包到達的速度,則會出現(xiàn)嚴重丟包的現(xiàn)象。為解決高速大流量數(shù)據(jù)的及時接收及較低丟包率問題,采用了多線程的方式來實現(xiàn)。用獨立的兩個線程分別完成數(shù)據(jù)接收和解析操作:接收數(shù)據(jù)的線程在特定的IP地址監(jiān)聽相應的UDP端口,接收到的數(shù)據(jù)暫存在緩沖區(qū)中;解析線程從緩沖區(qū)提取數(shù)據(jù),按照相應的報文格式進行解析。由于接收線程和解析線程共享同一個臨界資源,即接收的緩沖區(qū),需要對臨界資源進行加鎖操作。
下面為部分實現(xiàn)多線程采集的JAVA代碼實例,其中packet為接收的NetFlow數(shù)據(jù)包對象,linkedLst為linkedList容器,利用synchronized進行線程間同步。
(1) 接收線程
評論