浪潮研成處理器協(xié)同芯片組 使西方禁運(yùn)失去意義
中國已經(jīng)掌握了國際領(lǐng)先的32路高端容錯(cuò)計(jì)算機(jī)的核心技術(shù),浪潮正在開發(fā)性能更高、可靠性更強(qiáng)的64路系統(tǒng)高端容錯(cuò)計(jì)算機(jī)系統(tǒng),也將進(jìn)一步拓展應(yīng)用規(guī)模。天梭K1的目標(biāo)市場份額是30%以上,同時(shí)把自主化進(jìn)程向更深層次推進(jìn)。
本文引用地址:http://www.ex-cimer.com/article/268042.htm在國外嚴(yán)密的技術(shù)封鎖和產(chǎn)業(yè)鏈高度壟斷的情況下,浪潮依靠自主創(chuàng)新在高端容錯(cuò)計(jì)算機(jī)體系結(jié)構(gòu)、操作系統(tǒng)、處理器協(xié)同芯片和硬件系統(tǒng)方面實(shí)現(xiàn)重大技術(shù)創(chuàng)新與突破,從無到有建立起高端容錯(cuò)計(jì)算機(jī)技術(shù)體系,并開創(chuàng)了高端容錯(cuò)計(jì)算機(jī)產(chǎn)業(yè)。
浪潮在高端容錯(cuò)計(jì)算機(jī)領(lǐng)域的主要技術(shù)突破可以概括為一個(gè)“211工程”:“2項(xiàng)核心技術(shù)”——體系結(jié)構(gòu)和容錯(cuò)技術(shù)體系;“1個(gè)核心部件”——處理器協(xié)同芯片組;“1個(gè)操作系統(tǒng)”——K-UX。同時(shí),在研制天梭K1的過程中,浪潮共申請(qǐng)發(fā)明專利1147項(xiàng),目前獲得授權(quán)100多項(xiàng)。
跨過“8”的門檻
高端容錯(cuò)計(jì)算機(jī)不僅可以通過處理器升級(jí)來獲得性能提升,還可以通過增加處理器數(shù)量來提高性能,但是當(dāng)處理器數(shù)量超過8顆,就會(huì)碰到“內(nèi)存墻”的問題。浪潮集團(tuán)首席科學(xué)家王恩東表示,處理器要協(xié)同工作,相互之間必然要通訊,而且處理器之間不僅要進(jìn)行數(shù)據(jù)傳遞,更要保持?jǐn)?shù)據(jù)一致,任何數(shù)據(jù)異步都可能會(huì)造成系統(tǒng)停機(jī),這使得處理器通訊遠(yuǎn)比一般性的通訊技術(shù)更為復(fù)雜。如果采用一般的處理器協(xié)同技術(shù),當(dāng)處理器數(shù)量超過8顆以后,大量的處理器資源都被通訊占用,繼續(xù)增加處理器數(shù)量時(shí),性能提高就會(huì)十分有限。其直接的技術(shù)表現(xiàn)就是處理器讀取內(nèi)存數(shù)據(jù)延時(shí)過長,這個(gè)現(xiàn)象在專業(yè)領(lǐng)域被稱為“內(nèi)存墻”。
要破解天梭K1 面臨的“內(nèi)存墻”問題,只能創(chuàng)建一個(gè)全新的處理器互聯(lián)結(jié)構(gòu)和通訊機(jī)制。這是業(yè)界幾十年來一直難以破解的難題,全球具有該項(xiàng)技術(shù)開發(fā)能力的公司不到5家。天梭K1有32顆處理器、256個(gè)內(nèi)存插槽,已經(jīng)遠(yuǎn)遠(yuǎn)超過了初始的技術(shù)瓶頸。浪潮還創(chuàng)建了“三級(jí)目錄兩級(jí)緩存一致性域協(xié)議”,保證處理器數(shù)量增加時(shí),系統(tǒng)通訊規(guī)模和復(fù)雜度僅有較小增加。
浪潮基于上述自主的體系結(jié)構(gòu)技術(shù),研制成功處理器協(xié)同芯片組,讓瓦森納組織對(duì)中國的高端容錯(cuò)計(jì)算機(jī)技術(shù)禁運(yùn)失去了意義。處理器協(xié)同芯片是計(jì)算機(jī)中唯一復(fù)雜度可與處理器相比的芯片部件。浪潮研制的芯片組集成了4.5億個(gè)晶體管,有2577根管腳,在中國集成電路產(chǎn)業(yè)沒有設(shè)計(jì)生產(chǎn)如此規(guī)模芯片的先例的情況下,該芯片達(dá)到了國際領(lǐng)先水平:支持64路處理器互連;報(bào)文處理能力40億條/秒;聚合帶寬達(dá)到1056Gbps;延遲小于200納秒。
軟硬一體的容錯(cuò)技術(shù)實(shí)現(xiàn)99.9994%高可用
高端容錯(cuò)計(jì)算機(jī)是專門承擔(dān)關(guān)鍵應(yīng)用系統(tǒng)的系統(tǒng)平臺(tái),一旦出現(xiàn)停機(jī)事故,將會(huì)嚴(yán)重傷害客戶業(yè)務(wù),甚至在社會(huì)經(jīng)濟(jì)層面造成影響。因此,能夠提供99.999%的高可用性,可以7×24小時(shí)不間斷運(yùn)行是高端容錯(cuò)計(jì)算機(jī)最基本的應(yīng)用需求。
天梭K1也必須對(duì)各類故障、隱患以及外部不利因素作充分的考慮。從可用性的角度看,研制高端容錯(cuò)計(jì)算機(jī)就像用積木來搭一個(gè)摩天大廈,必須開發(fā)出一套完整的容錯(cuò)技術(shù)來消除每個(gè)可能出現(xiàn)的問題,保證系統(tǒng)運(yùn)行的連續(xù)性。高端容錯(cuò)計(jì)算機(jī)大約有幾十萬個(gè)電子器件,目前品質(zhì)最高的工業(yè)級(jí)電子器件平均無故障時(shí)間在10000小時(shí)左右。另外,高端容錯(cuò)計(jì)算機(jī)的BIOS等底層代碼有幾千萬行。最權(quán)威的Coverity Analysis集團(tuán)數(shù)據(jù)顯示,目前企業(yè)軟件的缺陷密度為0.72,也就是說平均每1000行代碼中會(huì)有0.72個(gè)缺陷,而任何一處不良代碼都是潛在的隱患。
浪潮最終創(chuàng)建了多層次冗余與故障管理容錯(cuò)系統(tǒng)模型,天梭K1在芯片、模塊、固件、操作系統(tǒng)、業(yè)務(wù)應(yīng)用層面全面采用冗余設(shè)計(jì)以杜絕單點(diǎn)故障,采用故障診斷、隔離和恢復(fù)的全流程自動(dòng)處理技術(shù),系統(tǒng)可自我修復(fù),整體可用度超過99.9994%。同時(shí),天梭K1的容錯(cuò)技術(shù)經(jīng)受住了實(shí)際應(yīng)用的檢驗(yàn)。2010年8月,第一臺(tái)天梭K1樣機(jī)在建設(shè)銀行新疆區(qū)分行啟動(dòng)上線測試,承擔(dān)中間業(yè)務(wù)系統(tǒng),成功替代國外產(chǎn)品。系統(tǒng)自上線以來,已經(jīng)穩(wěn)定運(yùn)行1500余天。
通過Unix 03認(rèn)證的Unix操作系統(tǒng)
操作系統(tǒng)是硬件資源的管理者。高端容錯(cuò)計(jì)算機(jī)對(duì)性能、可靠性和安全性的要求都非常高,普通操作系統(tǒng)無法滿足高端容錯(cuò)計(jì)算機(jī)的技術(shù)需求,需要專屬的操作系統(tǒng)。
復(fù)雜度是高端容錯(cuò)計(jì)算機(jī)操作系統(tǒng)面臨的第一個(gè)技術(shù)挑戰(zhàn)。高端容錯(cuò)計(jì)算機(jī)處理器核、內(nèi)存容量、I/O設(shè)備等資源的規(guī)模是通用服務(wù)器的十倍以上,操作系統(tǒng)資源管理復(fù)雜性極大提升。容錯(cuò)是第二個(gè)重要的技術(shù)挑戰(zhàn)。高端容錯(cuò)計(jì)算機(jī)系統(tǒng)不僅需要容忍幾十萬個(gè)器件的失效問題,也需要容忍難以控制的軟件缺陷問題。因此,需要開發(fā)復(fù)雜系統(tǒng)內(nèi)核容錯(cuò)技術(shù),快速準(zhǔn)確地發(fā)現(xiàn)、隔離和恢復(fù)數(shù)百種軟硬件故障,保障系統(tǒng)承載的關(guān)鍵應(yīng)用穩(wěn)定可靠運(yùn)行。
浪潮最終研制成功中國第一款Unix 操作系統(tǒng)K-UX,在研制過程中共開發(fā)了3200 余項(xiàng)Unix特性,成功通過The Open Group Unix 03 國際標(biāo)準(zhǔn)認(rèn)證的60000余項(xiàng)測試,并對(duì)該標(biāo)準(zhǔn)提出7項(xiàng)修改,且全部被納入新的測試標(biāo)準(zhǔn)。通過UNIX 03認(rèn)證,意味著K-UX進(jìn)入了高端關(guān)鍵應(yīng)用操作系統(tǒng)的俱樂部。
浪潮在K-UX中建立了多層次NUMA 域非對(duì)稱資源調(diào)度技術(shù)體系,解決了大規(guī)模軟硬件資源的高效率調(diào)用問題。其中,內(nèi)核及共享庫代碼段多副本技術(shù)可以保證處理器盡可能地就近訪問待執(zhí)行指令,避免跨節(jié)點(diǎn)遠(yuǎn)程取指,極大地降低了處理器間的通訊強(qiáng)度。通過實(shí)測,該技術(shù)可提升性能約160%。綜合利用多層次NUMA 域非對(duì)稱資源調(diào)度技術(shù),實(shí)測該程序性能提升2.7倍。
浪潮還在K-UX中創(chuàng)建了復(fù)雜系統(tǒng)內(nèi)核容錯(cuò)技術(shù)體系,解決了系統(tǒng)對(duì)軟硬件故障的容忍和自動(dòng)化處理問題。浪潮開發(fā)出應(yīng)用透明的進(jìn)程級(jí)冗余技術(shù),系統(tǒng)可識(shí)別關(guān)鍵任務(wù)并透明構(gòu)造冗余進(jìn)程,解決冗余進(jìn)程間狀態(tài)同步和I/O 一致性難題,構(gòu)建內(nèi)核級(jí)應(yīng)用高可用機(jī)制,將業(yè)務(wù)失效切換時(shí)間由秒級(jí)大幅縮短至毫秒級(jí)。此外,還突破了設(shè)備驅(qū)動(dòng)保護(hù)架構(gòu)技術(shù),為設(shè)備驅(qū)動(dòng)提供隔離運(yùn)行環(huán)境。約80%的操作系統(tǒng)失效是由于設(shè)備驅(qū)動(dòng)程序缺陷引起的,K-UX設(shè)計(jì)實(shí)現(xiàn)內(nèi)核區(qū)域訪問控制機(jī)制,阻斷驅(qū)動(dòng)程序缺陷污染內(nèi)核的路徑,從根本上解決了不良驅(qū)動(dòng)對(duì)系統(tǒng)的潛在威脅。
評(píng)論