多手段保證LTE承載網(wǎng)可靠性
1、可靠性概述
電信級運營網(wǎng)絡對可靠性需求可分為三個層面:設備可靠性、網(wǎng)絡可靠性和業(yè)務可靠性。在承載網(wǎng)中,網(wǎng)絡和設備的可用性要求達到99.999%(這相當于設備在一年的連續(xù)運行中,因各種可能原因造成停機維護的時間少于5分鐘),高可靠性是電信運營商網(wǎng)絡建設和網(wǎng)絡運營的基本要求。
在網(wǎng)絡架構(gòu)不斷演進中可靠性的要求一直貫穿其中,可以說可靠性是網(wǎng)絡的必備特性??煽啃员WC網(wǎng)絡發(fā)生故障時以最快的速度進行保護倒換,使得運營商的損失降到最低。
LTE承載網(wǎng)定位于綜合承載,實現(xiàn)2G、3G、LTE移動業(yè)務、固定業(yè)務的綜合接入,業(yè)務的多樣化使得網(wǎng)絡承載技術(shù)變得錯綜復雜,對網(wǎng)絡的高可靠性要求成為必然。
如上圖所示,在LTE階段,承載網(wǎng)絡架構(gòu)發(fā)生了很大變化。由于EPC高置,即EPC只部署在省會或者大型城市,使得基站和EPC之間的承載網(wǎng)絡需要跨越回傳+Core兩層網(wǎng)絡。
LTE業(yè)務對時延要求更加嚴格,對于LTE承載網(wǎng)來說,無法控制無線側(cè)和核心網(wǎng)側(cè)的時延,只能控制承載網(wǎng)絡的時延,如何保證LTE業(yè)務時延滿足要求關(guān)系到LTE業(yè)務是否能夠正常運營,可靠性部署勢在必行。
如上圖所示,對于應用層來說,TCP的滑動窗口和其三次握手接收數(shù)據(jù)確認機制,導致TCP連接的吞吐量與端到端時延成反比。當TCP傳輸路徑發(fā)生故障時,TCP啟用重傳機制,如果長時間得不到倒換路徑,會導致連接中斷。
LTE時代數(shù)據(jù)業(yè)務激增,網(wǎng)絡設備提供的端口從GE到10GE、100GE不斷增加,當數(shù)據(jù)速率到Gbit數(shù)量級時,長時間不能切換代表著大量數(shù)據(jù)的丟失,對于語音、視頻等業(yè)務來說,這幾乎是致命的。
可靠性技術(shù)可以保證在最短時間內(nèi)切換到保護路徑,不會出現(xiàn)連接中斷的情況。這對于運營商來說,無疑是保證用戶體驗的必然選擇。
可靠性技術(shù)可以分為快速檢測和保護倒換技術(shù)兩個方面來進行部署,二者相輔相成共同為網(wǎng)絡高可靠性提供保證。
1.1快速檢測技術(shù)
網(wǎng)絡設備一個越來越重要的特征是,要求對相鄰系統(tǒng)之間通信故障進行快速檢測,保證出現(xiàn)故障時可以更快的建立起替代通道或倒換到其他鏈路。
目前,一些硬件如SDH等可以提供這個功能,但是對于很多硬件或者軟件無法提供這個功能,比如以太網(wǎng)。還有一些無法實現(xiàn)路徑檢測,比如轉(zhuǎn)發(fā)引擎或者接口等,因此無法實現(xiàn)端到端的檢測。
目前的網(wǎng)絡一般采用慢Hello機制,尤其是路由協(xié)議在沒有硬件幫助下,檢測時間會很長(例如:OSPF需要2秒的檢測時間,ISIS需要1秒的檢測時間)。這對某些應用來說時間太長了,當數(shù)據(jù)速率到Gbit數(shù)量級時,缺陷感應時間長代表著大量數(shù)據(jù)的丟失,并且對于不運行路由協(xié)議的節(jié)點沒有辦法檢測鏈路的狀態(tài)。同時,在現(xiàn)有的IP網(wǎng)絡中并不具備秒以下的間歇性故障修復功能,而傳統(tǒng)路由架構(gòu)在對實時應用(如語音)進行準確故障檢測方面能力有限。
快速檢測技術(shù)的出現(xiàn)解決了上述問題,典型的快速檢測技術(shù)包括BFD、Eth OAM、MPLS OAM等。這些快速檢測技術(shù)通過相鄰設備間ms級進行檢測報文的發(fā)送和接收,當?shù)竭_配置的間隔收不到對端的報文時即上報故障,通知設備進行相應的協(xié)議倒換。
1.2保護倒換技術(shù)
網(wǎng)絡設備通過快速檢測技術(shù)檢測到故障后,配合保護倒換技術(shù)進行相應協(xié)議的倒換。保護倒換技術(shù)即在事先建立好備用通道供設備進行倒換,針對不同的承載技術(shù)需要部署相應的保護倒換技術(shù)。
針對LTE網(wǎng)絡,保護倒換技術(shù)按照業(yè)務部署可以分類為L2VPN類、L3VPN類、網(wǎng)關(guān)類、鏈路類保護倒換技術(shù)。L2VPN類保護倒換技術(shù)主要是PW冗余,L3VPN類保護倒換技術(shù)主要是VPN FRR,網(wǎng)關(guān)類保護保護技術(shù)為E-VRRP,鏈路類保護倒換技術(shù)包括LDP FRR、混合FRR、TE FRR和TE HSB.
2、LTE承載網(wǎng)可靠性技術(shù)
下面的章節(jié)將針對中國電信和中國聯(lián)通在LTE承載網(wǎng)建設中涉及到的可靠性技術(shù)進一步進行詳細介紹。
2.1中國電信LTE承載網(wǎng)可靠性技術(shù)
中國電信在建設IPRAN網(wǎng)絡時,主流場景是依托于現(xiàn)有的城域網(wǎng)進行建設,也存在端到端新建的IPRAN網(wǎng)絡。在演進到LTE承載組網(wǎng)時,沒有EPC機房的地市需要向上跨過CN2到省會或者大區(qū)城市EPC機房進行業(yè)務落地。
中國電信的LTE承載網(wǎng)架構(gòu)和承載方式如上圖所示,本地網(wǎng)仍然采用IPRAN的承載方式(即PW+L3VPN),只是非省會城市需要途徑CN2省干網(wǎng)絡到省會或者大區(qū)的EPC機房落地業(yè)務。
為了敘述方便,拓撲圖簡化如下:
對于省會或者大區(qū)城市(EPC所在地),RAN ER直接上聯(lián)至EPC CE設備即可;對于非省會城市(沒有EPC),RAN ER設備需要和CN2的本地落地PE設備相連,由CN2調(diào)度到EPC CE設備然后到EPC進行業(yè)務落地。
PW+L3VPN方案的設計理念為接入層通過一種技術(shù)PW實現(xiàn)所有業(yè)務的接入,降低接入層的維護復雜度,以及維護人員的技能要求,到達匯聚路由器后再進入L3VPN轉(zhuǎn)發(fā)。
對于省會或者大區(qū)城市(EPC所在地),業(yè)務承載如下圖所示:
如上圖所示,接入層建立二層管道PW,匯聚路由器以上起L3VPN,通過內(nèi)部環(huán)回接口實現(xiàn)PW與L3VPN的橋接。通常一個接入環(huán)會雙掛兩臺匯聚路由器,匯聚路由器作為基站的三層網(wǎng)關(guān),此時需要為兩臺匯聚路由器三層內(nèi)部環(huán)回接口設置相同的MAC和IP,實現(xiàn)雙網(wǎng)關(guān)保護。
PW+L3VPN同時采用二層PW及三層VPN技術(shù),相應的保護方案也是兩種技術(shù)保護方案的組合。
按照保護模式可以分為隧道保護、業(yè)務保護及網(wǎng)關(guān)保護三類:
1)隧道保護
用于網(wǎng)絡內(nèi)部鏈路及節(jié)點故障,特征是保護倒換前后業(yè)務源宿節(jié)點不變,相應的保護技術(shù)為LDP快速收斂、LSP 1:1、TE FRR,檢測技術(shù)為BFD for IGP/LSP.
2)業(yè)務保護
用于匯聚路由器、RAN ER以及EPC CE節(jié)點故障,特征是保護前后業(yè)務源宿節(jié)點(包括PW與L3VPN的橋接點)發(fā)生變化,相應的保護技術(shù)為PW Redundancy和VPN FRR,檢測技術(shù)分別為BFD for PW和BFD for Tunnel.
3)網(wǎng)關(guān)保護
用于EPC CE及EPC與EPC CE之間的鏈路故障,相應的保護技術(shù)為E-VRRP.
2.2中國聯(lián)通LTE承載網(wǎng)可靠性技術(shù)
中國聯(lián)通在建立IPRAN網(wǎng)絡時,主流場景是端到端新建的IPRAN網(wǎng)絡,也存在依托于現(xiàn)有的城域網(wǎng)進行建設。
中國聯(lián)通的LTE承載網(wǎng)架構(gòu)和承載方式如下圖所示,本地網(wǎng)仍然采用IPRAN的承載方式(即HVPN),只是非省會城市需要途徑聯(lián)通B網(wǎng)省干到省會或者大區(qū)的EPC機房落地業(yè)務。
為了敘述方便,拓撲圖簡化如下:
HVPN(Hierarchy VPN)在傳統(tǒng)端到端L3VPN的基礎(chǔ)上進行了適當優(yōu)化,通過引入一層“輕量級RR”來緩解核心側(cè)設備壓力,解決組建大網(wǎng)的問題。具體方案為:
將匯聚路由器設為“第二級RR”,接入路由器與匯聚路由器建立BGP會話,由于匯聚路由器下掛接入路由器數(shù)量有限,因此匯聚路由器上BGP會話壓力不大;匯聚路由器與城域骨干RR建立BGP會話,相比接入路由器,整網(wǎng)的匯聚路由器數(shù)量大大降低,相應的RR的BGP會話壓力也大大降低。匯聚路由器收到接入路由器發(fā)布的VPNv4路由后,將下一跳修改為自己之后再發(fā)布給RR,之后再由RR反射給EPC CE,因此EPC CE有整網(wǎng)明細路由;匯聚路由器收到的VPNv4路由均不向接入路由器發(fā)布,僅向接入路由器發(fā)布一條缺省路由,用于引導上行流量,由此,接入路由器僅需維護極少的VPN路由,路由壓力較大的問題得以徹底解決。由于VPN采用分層的方式,相應的用于承載VPN的隧道也需要采用分層的方式,接入路由器與匯聚路由器之間為一段隧道,匯聚路由器與EPC CE設備之間為另一段隧道,EPC CE的隧道數(shù)量較多的問題也不復存在。
通過上述方案,HVPN解決了傳統(tǒng)端到端L3VPN的擴展性問題,保證了低端設備與高端設備共同組大網(wǎng)的能力。
對于省會或者大區(qū)城市(EPC所在地),核心層設備直接上聯(lián)至EPC CE設備即可;對于非省會城市(沒有EPC),核心層設備需要和B網(wǎng)的本地落地PE設備相連,由B網(wǎng)調(diào)度到EPC CE設備然后到EPC進行業(yè)務落地。
對于省會或者大區(qū)城市(EPC所在地),業(yè)務承載如下圖所示:
L3VPN到邊緣的業(yè)務保護方案非常完備,可以分為隧道保護、業(yè)務保護及網(wǎng)關(guān)保護三種模式,隧道保護用于網(wǎng)絡內(nèi)部鏈路及節(jié)點故障,特征是保護倒換前后業(yè)務源宿節(jié)點不變,相應的保護技術(shù)為LSP 1:1,檢測技術(shù)為BFD for LSP;業(yè)務保護用于匯聚路由器及EPC CE節(jié)點故障,特征是保護前后業(yè)務源宿節(jié)點(包括兩段L3VPN的銜接點)發(fā)生變化,相應的保護技術(shù)為VPN FRR,檢測技術(shù)為BFD for Tunnel;網(wǎng)關(guān)保護用于EPC CE及EPC與EPC CE之間的鏈路故障,相應的保護技術(shù)為E-VRRP.
2.3快速檢測技術(shù)
雙向轉(zhuǎn)發(fā)檢測BFD(Bidirectional Forwarding Detection)用于快速檢測系統(tǒng)之間的通信故障,并在出現(xiàn)故障時通知上層應用。
BFD for PW是一種對PW進行故障檢測的機制,用于觸發(fā)所承載業(yè)務的快速切換,達到業(yè)務保護的目的。利用BFD完成隧道或PW故障的快速檢測,從而引導所承載業(yè)務的快速切換,達到業(yè)務保護的目的。
BFD For TE是MPLS TE中的一種端到端的快速檢測機制,用于快速檢測隧道所經(jīng)過的路徑(包括鏈路和節(jié)點)中所發(fā)生的故障。
TE傳統(tǒng)的檢測機制包括RSVP Hello或者RSVP刷新超時等檢測,都具有檢測速度緩慢的缺點。BFD檢測機制很好的克服了這些缺點,它采用快速收發(fā)報文的機制,完成這些隧道路徑故障的快速檢測,從而觸發(fā)承載業(yè)務的快速切換,達到保護業(yè)務的目的。
在LSP隧道上建立BFD會話,利用BFD檢測機制快速檢測LSP隧道的故障,可以提供端到端的保護。BFD可以用來檢測MPLS LSP轉(zhuǎn)發(fā)路徑上數(shù)據(jù)平面的故障。使用BFD檢測單向LSP路徑時,反向鏈路可以是IP鏈路、LSP.
3、總結(jié)
為了建設一張高可靠性的LTE網(wǎng)絡,華為公司針對各種業(yè)務提供了端到端的可靠性保護方案,保證業(yè)務順暢,同時在故障發(fā)生后能以最快的速度進行保護倒換,把運營商損失降到最低。
在快速檢測方面,華為公司較早實現(xiàn)的BFD for everything,可以針對端口、鏈路、LSP、TE-LSP、VPN、PWE3等等進行快速檢測,保證在故障發(fā)生的第一時間通知相關(guān)模塊進行快速倒換。
在故障倒換方面,華為公司配合快速檢測,推出了針對LTE場景的各種保護技術(shù),如PW冗余、VPN FRR、混合FRR、TE HSB、VRRP等,已經(jīng)在現(xiàn)網(wǎng)中廣泛應用,為運營商的無線和有線業(yè)務保駕護航。
評論