利用TCP卸載技術提升網絡處理器的應用性能
——
傳輸控制協(xié)議(TCP)是一種最初針對低速地面鏈路而設計的傳輸層協(xié)議。然而,隨著高速傳輸介質和復雜的訪問機制的發(fā)展,用純軟件方式實現(xiàn)TCP需要強大的計算和存儲能力。
近年來,網絡速度、CPU和內存的速度呈爆炸式增長。由于以太網速度的增長速度遠遠大于CPU或內存,所以目前的網絡性能仍然主要受制于內存與CPU速度。
TCP卸載是一種用于加速TCP/IP連接的技術,它克服了上述局限性,將復雜的TCP處理從主機CPU轉移到專用的TCP加速器上。通常,用于加速的TCP卸載引擎(TOE)是一個主機CPU共址的專用子系統(tǒng)??蛇_到同樣目標的一種可選機制,是將復雜的TCP/IP處理轉移至用高速鏈路與TCP服務器連接的網絡處理器(NP)上(一種專用的可編程硬件設備)。
這種可選機制采用的網絡處理器不但具備通用處理器(GPP)的低成本與高靈活性,而且還具有定制硅芯片解決方案的速度與可擴展性。此外,NP還可減輕TCP服務器上需要大量內存和CPU資源的處理負擔。它還提供可擴展性極高的解決方案,尤其是存在原有設備或對成本敏感的設備的情況下。
防御網絡通常與長延遲衛(wèi)星鏈路、易出錯的無線信道一起,構成高性能服務器與網絡。衛(wèi)星鏈路是降低整體性能的鏈路中最薄弱的環(huán)節(jié)。采用這種可選機制可使帶有TOE的NP連接至薄弱部分,從而讓NP-TOE能消除長延遲和信道錯誤的不利影響,并提高網絡整體性能。
對于成本與尺寸受限的低端企業(yè)級產品而言,通過在中央網絡單元中引入TOE來解決內存/CPU 瓶頸是一種具有可擴展性和成本效益的解決方案。與提高主機自身的性能(如使用鍵盤、顯示器和鼠標——KVM交換機)相比,該方法尤其具有優(yōu)勢。
圖1列舉了一種部署方案,其中遠程鍵盤、監(jiān)視器和鼠標控制多臺與基于IP的KVM(KVM-over-IP)交換機相連的遠程托管服務器。遠程控制計算機的鼠標與鍵盤事件通過因特網從KVM交換機傳輸?shù)椒掌?。服務器通過KVM交換機將壓縮的監(jiān)視器數(shù)據發(fā)送至遠程計算機。帶有TOE的NP使KVM 交換機能夠將TCP的處理負擔轉移到NP,從而簡化了KVM交換機硬件。
圖1:帶有TOE的NP提升網絡性能的部署實例。
采用TCP接合技術的TOE
TCP卸載可在企業(yè)TCP主機和遠程NP兩種網絡實體上進行,它是通過利用分離的TCP連接(也稱為TCP接合)而得以實現(xiàn)的。TCP接合是一種著名的TCP性能增強技術。在TCP接合中,兩個獨立的TCP連接可以跨接一次會話:一個從客戶端到NP,另一個從NP到服務器。圖 2 說明了采用TCP接合技術的TOE的基本操作步驟。
服務器發(fā)送的數(shù)據由NP在本地確認,從而減少服務器的緩沖需求并且加快擁塞窗口的擴大。NP在遠端(客戶端)的確認(ACK)到達之前緩沖數(shù)據。在未收到確認通知的情況,NP執(zhí)行定時器管理以向遠端重發(fā)TCP段。利用本地確認還可以避免TCP服務器受NP和客戶端之間網絡擁塞和延遲過長的影響。這可以減輕服務器的內存負擔。
NP 還可以為服務器向客戶端發(fā)送的數(shù)據(包括校驗和計算)執(zhí)行可選的網絡地址轉換(NAT)。盡管上述功能需要大量計算并且給GPP帶來繁重負擔,但NP非常適合處理此類操作。
與路由等傳統(tǒng)NP應用相比,TCP卸載應用需要具備包間依賴性和基于連接的狀態(tài)機。此外,這種應用還要處理傳輸層功能,而這超越了由NP執(zhí)行的傳統(tǒng)鏈路層和網絡層的處理能力。
TCP 處理過程中主要有兩個復雜之處。緩沖器管理包括對擁塞網絡中未確認段、亂序段和延遲段進行存儲。定時器管理包括估算重發(fā)超時(RTO) 估算以及觸發(fā)未確認段的重發(fā)。
在高性能服務器或網絡與長延遲無線和/或窄帶網絡一起運行的情況下(防御和移動網絡大多如此),這種機制非常有用。在這種情況下,由于立即確認使可察覺的延遲更短,所以NP上的TCP卸載功能可縮短慢啟動階段。請注意,當處理任務很輕時,慢啟動階段決定了應用性能。
另外,TCP擁塞控制針對有線部分的擁塞以及易錯無線信道的性能下降而調整。由于錯誤恢復功能受限于NP和客戶端,所以NP上的TCP卸載可以防止服務器中的窗口崩潰。這可以提高整體吞吐量。
圖2:從服務器到客戶端的數(shù)據處理框圖。
利用網絡處理器實現(xiàn)帶TOE的TCP接合技術
在開發(fā)執(zhí)行被提議的替代機制的概念原型中,我們采用杰爾APP340處理器(圖3)。APP3xx系列NP具有2Gbps的吞吐能力。該器件包含分類器、由調度程序、緩沖器管理器與流編輯器(SED)組成的流量管理器、狀態(tài)引擎以及片上控制處理器(即嵌入式主機)。嵌入式主機處理低速通道(控制與管理),器件的其余部分則處理快速通道或數(shù)據管道。
分類器用于識別連接及其狀態(tài);狀態(tài)引擎讓TCP 狀態(tài)變量能被NP上的各種功能模塊訪問;流量管理器運行TCP擁塞控制協(xié)議,并執(zhí)行調度決策;SED則被用于執(zhí)行序號處理及網絡地址轉換(NAT)的穿透(traversal)。
APP340允許流量整形功能模塊控制每個隊列的數(shù)據包調度。NP為每個數(shù)據流維護多個目的隊列,包括到客戶端的主要傳輸、到客戶端的數(shù)據包重發(fā)以及到服務器的傳輸。
APP340支持分級調度,這樣就可以利用輔助隊列在每個目的隊列的同一級別傳送控制信息。這些控制數(shù)據包由數(shù)據包生成引擎(PGE)根據狀態(tài)機在內部生成。它們被用于觸發(fā)調度機制,例如在調度隊列中保持數(shù)據包,并只在TCP狀態(tài)機需要時釋放數(shù)據包。
這種利用分級調度架構控制TCP段調度的能力,以及保持包間狀態(tài)依賴性的能力使 APP340 架構非常適合 TCP 處理。
圖3:從客戶端到服務器的數(shù)據處理框圖。
TCP連接的建立
在數(shù)據包到達NP端口時,分類器模塊根據TCP端口號和IP地址確定數(shù)據包流。如果數(shù)據包流不存在,則將數(shù)據包發(fā)送到嵌入式主機以建立連接。
一旦收到與 TCP 協(xié)議的三方握手(SYN、SYN-ACK和ACK)相對應的初始數(shù)據包時,主機解析TCP選項并獲取相應參數(shù),如序列號(SN)和最大段長,并將它們轉發(fā)到狀態(tài)引擎和SED。另外,它還更新分類器中的查找樹,從而關聯(lián)數(shù)據流標識符與TCP連接。
然后,將數(shù)據包傳回分類器,以便重新插入數(shù)據包流。外發(fā)的TCP握手數(shù)據包接受NAT穿透處理,并且忽略其它TOE功能。類似地,主機處理連接終止。分類器解析FIN字段并將數(shù)據包發(fā)至主機。
來自服務器的 TCP 數(shù)據流
當用于已建立的數(shù)據流的TCP數(shù)據段進入分類器時,利用查找樹可獲取流標識符。
APP340是一種基于模塊的處理器。它采用兩階段分類處理,第一階段處理單個模塊。第二階段處理重組后的協(xié)議數(shù)據單元。如果數(shù)據段到達時是亂序的,則將其保留在分類器中first pass重排序緩沖器中,直到有序段到達。
對于有序段,則檢查TCP狀態(tài),以了解當前滑動窗口大小(cwnd)、接收器通知窗口(rwnd)、NP的內存限制以及正在傳輸?shù)臄?shù)據包大小是否允許傳輸該數(shù)據包。如果數(shù)據包可以傳輸,則轉發(fā)到SED進行 NAT 轉換并發(fā)送到遠端客戶端。流量整形器(TS)的轉發(fā)緩沖器中保存一個副本,另一個副本被發(fā)送到SED,用于生成一個立即本地確認。SED利用傳來的TCP/IP報頭、最末ACK的SN和最后收到的字節(jié)數(shù)生成本地ACK。
如果TCP滑動窗口被占滿,則TS停止調度數(shù)據包。數(shù)據包在停止狀態(tài)結束之前一直有效保存在TS中(圖4)。
來自客戶端的TCP數(shù)據流
當ACK到達分類器時,分類器提取確認號并將其轉發(fā)至狀態(tài)引擎。狀態(tài)引擎更新cwnd,以反映TCP流的慢速啟動或擁塞避免階段。該引擎還更新rwnd、未確認數(shù)據的大小以及TCP滑動窗口的占滿狀態(tài)。
生成一個觸發(fā)信號發(fā)送到TS,以從重發(fā)隊列中刪除已確認的數(shù)據包。TS調度所有來自伙伴(partner)控制隊列確認數(shù)據包和相關數(shù)據包,然后在 SED將其清除。若TCP滑動窗口先前已被占滿,則生成觸發(fā)信號發(fā)送到 TS,以恢復對TCP數(shù)據段的處理(圖5)。然后,該確認在NP上結束。
如果客戶端數(shù)據包帶有背負(piggybacked)數(shù)據,則按照上述方式更新狀態(tài)機。然后修改報頭中的確認號,以反映最近生成的本地確認號,并將它轉發(fā)給服務器。另外,在狀態(tài)引擎中更新下一個來自客戶端的預期SN,以便將該SN用作隨后本地確認的SN。
重發(fā)與重發(fā)超時(RTO)估算
對于重發(fā)緩沖器中的每個數(shù)據包,內部PGE生成的伙伴控制隊列保留該段的傳輸時間。當一個確認到達時,按確認到達時間與傳輸時間差計算往返時間,然后按照IETF RFC 2988推薦標準估算重發(fā)超時(RTO)。
如果數(shù)據包處于重發(fā)序列之中,則PGE生成由當前時間、重發(fā)時間或者當前時間外加RTO組成的控制數(shù)據包。
對PGE進行編程,以生成周期性的觸發(fā)信號。每次進行此操作時,TS都會檢查重發(fā)時間。每個帶有過期定時器的數(shù)據包被調度發(fā)送到SED,同時相應的控制數(shù)據包也被清除。重復此操作,直到處理完所有帶有過期定時器的數(shù)據包?;貍鞑⒋鎯γ總€重發(fā)段的副本,以用于下一次重發(fā)。IETF RFC 2001規(guī)定的快速重發(fā)算法由PGE實現(xiàn),一旦收到來自客戶端的三個重復確認,它便生成一個重發(fā)觸發(fā)信號。
基于NP的TOE使服務器性能可以不依賴于NP和客戶端之間的網絡特征。其性能反而可以反映NP和服務器之間的鏈路特征。此外,服務器的內存需求仍獨立于網絡擁塞和客戶端網絡的往返時延。
我們可以看到,在遠程NP采用TCP卸載機制可以充分提高低端設備的TCP性能,而且服務器可以免受與各種客戶端環(huán)境相關的資源需求變化的影響。另外,具有很長無線組件的高性能客戶端網絡可通過NP TOE減輕擁塞及鏈路損失,從而顯著改善用戶體驗。
tcp/ip相關文章:tcp/ip是什么
評論