<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 嵌入式系統(tǒng) > 業(yè)界動態(tài) > 致龍芯15周年 胡偉武披露龍芯3號開發(fā)歷程

          致龍芯15周年 胡偉武披露龍芯3號開發(fā)歷程

          作者: 時間:2016-10-25 來源:網(wǎng)易科技 收藏

            近日,中科宣布四核處理器芯片完成流片并通過系統(tǒng)測試。根據(jù)現(xiàn)有的測試結(jié)果,達(dá)到了預(yù)定的設(shè)計性能目標(biāo)。其中,綜合計算性能方面,在1.5GHz主頻下,GCC編譯的SPECCPU2006定點和浮點單核分值分別超過11分和10分;訪存性能方面,Steam分值超過13GBps。的流片成功,標(biāo)志著我國自主研發(fā)的高性能微處理器芯片,可以超越目前引進(jìn)的同類芯片性能。龍芯CPU首席科學(xué)家胡偉武撰文披露了龍芯3號開發(fā)的歷程。

          本文引用地址:http://www.ex-cimer.com/article/201610/311777.htm

            龍芯3A3000芯片

            2016年是紅軍長征勝利80周年,2016年研制成功的龍芯3A3000處理器即以CZ80命名,每顆芯片的硅片上都刻有CZ80字樣。

            1936年10月,紅一、二、四方面軍經(jīng)過艱苦卓絕的努力,三大主力會師,開創(chuàng)了中國革命的新局面。它雄辯地表明,只要堅持理想,實事求是,中國共產(chǎn)黨完全有能力摧堅于正銳、挽瀾于極危,從重大挫折中走出來。

            2016年10月,以長征勝利80周年命名為CZ80的龍芯3A3000處理器研制成功。它雄辯地表明,只要堅持自主研發(fā),進(jìn)行持續(xù)改進(jìn),自主研發(fā)的CPU性能完全可以超過引進(jìn)技術(shù)的CPU,滿足自主信息化需求。

            2016年10月7日,我懷著虔誠的心情走進(jìn)毛主席紀(jì)念堂,向毛主席匯報龍芯3A3000的研制成功。步出毛主席紀(jì)念堂,我感慨萬千。當(dāng)十年前我開始龍芯3號研制時,完全沒有想到龍芯3號系列CPU發(fā)展道路之曲折,奮斗之艱辛,付出之巨大。

            2006年9月13日,以長征勝利70周年命名為CZ70的龍芯2E通過科技部組織的驗收,時任科技部部長徐冠華親自參加了龍芯2E的驗收會。龍芯2E的研制是“十五”末國家863計劃緊急安排的一個任務(wù)。當(dāng)時“漢芯”造假事件被曝光,加上“十五”863計劃早期支持的龍芯2C沒有達(dá)到合同要求的SPECCPU2000分值300分的目標(biāo),自主處理器研發(fā)受到普遍質(zhì)疑。2005年4月,科技部高新司領(lǐng)導(dǎo)把我叫到辦公室,問我到2005年年底前能不能完成863計劃“十五”初制定的主頻1GHz、SPECCPU2000分值達(dá)到500分的目標(biāo)。我說剩下不到一年時間,肯定來不及。他說根據(jù)有關(guān)規(guī)定,項目時間到期后三個月內(nèi)(即2006年3月底前)提出驗收申請就算按時完成。我硬著頭皮接了該任務(wù),因為我知道如果“十五”的任務(wù)完不成,那“十一五”國家是不是還支持自主CPU研發(fā)就成問題。經(jīng)過艱苦的努力,龍芯2E在2005年11月底交付流片(把設(shè)計好的技術(shù)文件交給芯片生產(chǎn)廠家進(jìn)行生產(chǎn)),2006年3月18日流片成功,達(dá)到了技術(shù)指標(biāo)。雖然達(dá)到這些指標(biāo)有些勉強(SPECCPU2000分值達(dá)到500分是計算所的編譯組做了很多編譯優(yōu)化實現(xiàn)的,但SPECCPU的測試是允許進(jìn)行編譯優(yōu)化的),但畢竟完成了指標(biāo)。龍芯2E的意義從徐冠華部長參加完驗收會后接受新聞聯(lián)播記者采訪時說的一句話可以看出:龍芯2E的成功表明,我國在“十五”期間安排的自主CPU研發(fā)是成功的。這也為“十一五”期間國家繼續(xù)支持自主CPU研發(fā)打下了基礎(chǔ)。

            2005年深秋,利用龍芯2E流片后等待芯片回來的時間我?guī)е糠铸埿菊n題組的骨干在香山別墅討論龍芯3號的結(jié)構(gòu)方案。香山別墅和香山飯店一樣在香山公園內(nèi),但比香山飯店便宜而且清靜。香山別墅三天討論的成果是基本明確了龍芯3號系列CPU的可伸縮互連結(jié)構(gòu)以及基于目錄的Cache一致性協(xié)議。龍芯3號的互連結(jié)構(gòu)中,每個結(jié)點四個處理器核通過交*開關(guān)進(jìn)行全相連,結(jié)點間(不論片上還是片間)通過可伸縮的mesh網(wǎng)絡(luò)相連;多核的Cache一致性采用基于目錄的一致性協(xié)議,目錄設(shè)置在片上共享的最后一級Cache(LLC)上。上述結(jié)構(gòu)有別于當(dāng)時主流的環(huán)狀多核互連以及基于偵聽的Cache一致性協(xié)議?,F(xiàn)在看來,該結(jié)構(gòu)是成功的,目前商用主流處理器隨著核數(shù)的增加也越來越多采用可伸縮的互連結(jié)構(gòu)以及基于目錄的Cache一致性協(xié)議。

            在香山別墅的討論中還明確了龍芯3號片內(nèi)集成內(nèi)存控制器以及HyperTransport(簡稱HT)接口。HT是AMD主推的系統(tǒng)總線接口。當(dāng)時計算所高性能中心與AMD合作緊密,希望我們使用HT接口。此外HT接口比較開放,只要每年交5000美元就可以用于商業(yè)應(yīng)用,但AMD開放的HT接口不支持多片互連的Cache一致性協(xié)議,我們自己進(jìn)行了擴(kuò)充。曾經(jīng)有一段時間,我后悔選擇了HT總線,覺得HT總線不如PCIE總線普及,一是HT總線沒有現(xiàn)成的PHY(片內(nèi)高速接口模塊)可以買到,每次工藝升級都需要定制HT的PHY,而PCIE的PHY有很多;二是PCIE接口的外圍器件很多,而HT接口的橋片只有AMD有。但現(xiàn)在覺得選用HT是對的。HT是系統(tǒng)總線,協(xié)議簡單高效,相當(dāng)于Intel的QPI系統(tǒng)總線,而PCIE是IO總線,通過HT總線可以方便地把多片龍芯3號直連起來形成多路。雖然每次工藝升級都要定制HTPHY,但可以使龍芯CPU不依賴別人的IP,自主性強。龍芯3號所有CPU中,沒有一款CPU需要到廠家merge第三方IP。尤其是龍芯3A2000和3A3000,除了廠家提供的標(biāo)準(zhǔn)單元庫、單/雙端口RAM以及低速IO單元,每一行代碼(包括CPU核、內(nèi)存控制器、HT控制器、互連網(wǎng)絡(luò)等)以及每一個定制模塊(包括多端口寄存器堆、鎖相環(huán)、HTPHY、DDR2/3PHY等)都自主設(shè)計。至于外圍橋片,龍芯已經(jīng)開始研制并提供外圍橋片,橋片上支持足夠多的PCIE接口。以后不論AMD是否繼續(xù)發(fā)展HT接口,龍芯都能自成體系往前走了。

            香山別墅會議的另外一個成果是明確了龍芯抗輻照CPU的發(fā)展。有一天晚上8點左右,我們正在會議室熱烈地討論龍芯3號的結(jié)構(gòu),當(dāng)時在計算所科研處工作的夏洪流和傅信國給我打電話說是要來跟我談一個項目的事。他們到香山別墅已是晚上9點多,我們就坐在香山別墅的走廊盡頭談,他們說科學(xué)院有一個抗輻照CPU的預(yù)研項目,希望龍芯課題組來承擔(dān)。我剛開始不愿意做,結(jié)果他們好說歹說地讓我勉強答應(yīng)了,當(dāng)時的一個理由是領(lǐng)導(dǎo)每年對他們爭取的項目經(jīng)費有要求,我如果不做這個抗輻照CPU項目,他們的任務(wù)就完不成了,我頭腦一熱就答應(yīng)了。現(xiàn)在龍芯抗輻照CPU已經(jīng)隨著以北斗為代表的多顆衛(wèi)星在天空翱翔,每年還為龍芯公司帶來較可觀的收入,成為龍芯公司的戰(zhàn)略產(chǎn)品并開始走向系列化。真是非常感謝夏洪流和傅信國那天晚上的苦口婆心。

            在龍芯3號結(jié)構(gòu)基本確定后就展開了龍芯3號CPU的研發(fā)。但當(dāng)時“十五”863課題結(jié)束了,“十一五”“核高基”(即“核心電子器件、高端通用芯片和基礎(chǔ)軟件產(chǎn)品”重大專項)課題遲遲啟動不了。為此,科學(xué)院對龍芯3號的研制給了500萬元的前期經(jīng)費支持(執(zhí)行期限2007年1月到2007年12月)??萍疾扛咝滤抉T記春司長得知龍芯3號的第一款芯片龍芯3A1000已經(jīng)基本完成設(shè)計,但缺少流片費時,在863計劃內(nèi)緊急安排了2000萬的經(jīng)費支持龍芯3號的研制(執(zhí)行期限2008年1月到2010年12月)。原計算所所長李國杰院士曾經(jīng)在計算所中層干部會上當(dāng)眾點我的名說,“胡偉武,你不能以任何經(jīng)費的理由放緩龍芯3號的研制,計算所就是砸鍋賣鐵也要支持龍芯的研發(fā)”,并在所內(nèi)設(shè)立了一個經(jīng)費沒有封頂?shù)恼n題,到2010年龍芯第一筆“核高基”課題經(jīng)費到賬時,龍芯課題組已經(jīng)預(yù)支了計算所七、八千萬元經(jīng)費。

            在龍芯3號研制過程中,作為中法兩國在IT領(lǐng)域戰(zhàn)略合作的一部分,科技部安排龍芯CPU在意法半導(dǎo)體流片。2006年10月26日,在胡錦濤總書記和希拉克總統(tǒng)共同見證下,中國科學(xué)院與意法半導(dǎo)體在人民大會堂簽署了關(guān)于龍芯CPU戰(zhàn)略合作的文件?;邶埿?E的成功,意法半導(dǎo)體還花三百多萬美元授權(quán)費購買了龍芯2號系列產(chǎn)品的授權(quán),其中龍芯的第一個產(chǎn)品芯片龍芯2F于2007年7月31日流片成功,目前仍在大量應(yīng)用中。后來意法半導(dǎo)體由于自身業(yè)務(wù)的原因終止了購買龍芯2號系列的產(chǎn)品授權(quán),計算所收回了龍芯2號的產(chǎn)品權(quán)利并同意不再收取剩余的三分之一左右授權(quán)費,但我們從龍芯2F的研制中學(xué)會了意法半導(dǎo)體的芯片質(zhì)量管理,學(xué)會如何把一個樣品變成產(chǎn)品。龍芯CPU在意法半導(dǎo)體的流片一直延續(xù)了下來,龍芯3A1000即使用意法半導(dǎo)體的65nm工藝流片。

            不記得經(jīng)歷了多少加班加點,龍芯3A1000于2008年底交付流片。只記得流片前的幾個月每天晚上十點開例會安排工作。晚上十點例會是非常高效的一種工作方法,會后大家把有關(guān)設(shè)計在EDA服務(wù)器上跑起來再回家,第二天早上上班時剛好跑出結(jié)果來;如果是早上上班后開始在EDA服務(wù)器上跑,基本上大半天就在等待服務(wù)器運行出結(jié)果中度過。在此后龍芯CPU問題的攻關(guān)中,一直沿襲了晚上例會安排工作的方法。

            2009年5月20日龍芯3A1000晶圓生產(chǎn)下線,9月28日樣片回來,成功啟動操作系統(tǒng),主頻800MHz-1GHz。這是龍芯CPU第一次啟動多核操作系統(tǒng),免不了調(diào)一通。印象最深刻的是10月2日晚上熬了個通宵,一起的有王劍等人,剛開始是挨個核跑單核操作系統(tǒng),把每個核都跑一遍,再把多核操作系統(tǒng)搞穩(wěn)定,一直到第二天早上才弄完。

            中國科學(xué)技術(shù)大學(xué)的陳國良院士曾經(jīng)在2007年用三百多顆龍芯2F搭建了峰值性能達(dá)到1TetaFLOPS的高性能計算機KD50。在龍芯3A1000出來以后又用80顆龍芯3A1000搭建了KD60高性能計算機。在KD60運行LINPACK過程中,總是出現(xiàn)偶發(fā)性錯誤。這個錯誤如果單個芯片跑一個月也碰不上一次,只有像KD60這樣80多片一起跑才會一天碰到一次。有三個多月的時間,我們一直進(jìn)行各種嘗試,試圖定位該錯誤并明確其機理。現(xiàn)在只記得2010年春節(jié)的大年三十晚上還在跟當(dāng)時負(fù)責(zé)軟件的高翔商量進(jìn)行各種嘗試,縮小搜索范圍。一直到春節(jié)后才定位了這個錯誤,錯誤的原因是當(dāng)訪問Cache失效,從內(nèi)存回填(Refill)數(shù)據(jù)時,同時回填一級和二級Cache,通常為了提高性能,這是應(yīng)該的。但在某種極端情況下出現(xiàn)了錯誤,即二級Cache的回填由于二級Cache忙需要等待,而處理器核得到一級Cache回填數(shù)據(jù)后繼續(xù)運行,該數(shù)據(jù)被修改后再從一級Cache中替換出來寫回二級Cache,替換回來的新數(shù)據(jù)寫到二級Cache后,從內(nèi)存回來的老數(shù)據(jù)再回填二級Cache把新數(shù)據(jù)沖掉了,從而引起錯誤。這個問題以及其它的小問題導(dǎo)致龍芯3A1000進(jìn)行了第一次改版并于2010年5月中旬流片,10月底第一次改版流片成功,然后開始了小批量生產(chǎn)。

            龍芯3A1000在2012年又進(jìn)行了第二次改版。第二次改版主要是雙路直連時在特定訪問序列下導(dǎo)致兩片間的互連網(wǎng)絡(luò)死鎖。大致機理是HT協(xié)議的虛通道只有三個,分別是POST、NONPOST、RESPONSE,而龍芯的片上網(wǎng)絡(luò)協(xié)議AXI有五個實通道,分別是讀請求、寫請求、寫數(shù)據(jù)、讀響應(yīng)、寫響應(yīng)。于是在通過HT傳輸Cache一致性協(xié)議時,就將寫請求與寫數(shù)據(jù)合并一個通道,讀響應(yīng)與寫響應(yīng)合并一個通道傳輸。Cache一致性協(xié)議要求寫響應(yīng)不能被堵,而讀響應(yīng)通道發(fā)出的二級Cache給一級Cache的一致性請求有時會因為一級Cache處理不過來而被堵住,這時就會順帶堵死寫響應(yīng)通道,導(dǎo)致死鎖。當(dāng)時解決的辦法是在HT原有三個虛通道的基礎(chǔ)上增加了第四個虛通道并且允許寫命令與寫數(shù)據(jù)之間插入寫響應(yīng)包。3A1000的第二次改版還解決了HT互連時一個異步握手的問題。3A1000的第二次改版于2012年2月下旬流片,2012年8月中旬流片成功。至此龍芯3A1000就很穩(wěn)定了,至今還是龍芯銷售的一款重要芯片,尤其是在工控領(lǐng)域。

            現(xiàn)在回頭看,龍芯3A1000的研制是成功的。3A1000是我國第一個四核CPU芯片。在3A1000的研制過程中,我們掌握了多核CPU的片內(nèi)互連及Cache一致性技術(shù),以及片間多路互連技術(shù)。直到今日,龍芯仍然是唯一能支持多路服務(wù)器的自主CPU。在最近國外CPU企業(yè)對中國企業(yè)的CPU技術(shù)授權(quán)中,支持多路服務(wù)器的技術(shù)受美國政府限制還是不能給中國的。龍芯3A1000的處理器核沿襲了龍芯2E和龍芯2F的處理器核結(jié)構(gòu),雖然在MIPS64兼容性方面有較大改進(jìn),性能只進(jìn)行了局部優(yōu)化。龍芯3A1000處理器核的性能略高于PentiumIII的水平,在2006年龍芯2E剛出來時這個性能還說得過去。龍芯3A1000仍沿用該處理器核有點慢了,但在應(yīng)用比較固定的很多領(lǐng)域還能用,按理說龍芯的下一款CPU應(yīng)該致力于處理器核的性能優(yōu)化,大幅度提高通用處理性能,但在學(xué)院派的思想主導(dǎo)下,隨后的龍芯3B走了彎路,使龍芯遭受了挫折。

            龍芯3B的研發(fā)得到“核高基”重大專項的支持,是在龍芯團(tuán)隊轉(zhuǎn)型成立公司(龍芯中科技術(shù)有限公司)以及有關(guān)部門大力展開自主基礎(chǔ)軟硬件應(yīng)用試點的背景下展開研制的。2010年把龍芯課題組轉(zhuǎn)型成立公司是下了很大決心的,當(dāng)時已認(rèn)識到不能腳踩兩只船,辦企業(yè)和做研究不一樣,即使嘔心瀝血,也是九死一生,因此一定要專心,要求絕大多數(shù)技術(shù)骨干都從計算所辭職。像張戈25歲就已經(jīng)是副高職稱,是學(xué)術(shù)上很有前途的苗子,也毅然從計算所辭職。下這么大決心,與我當(dāng)時擔(dān)任全國人大代表,對中央以企業(yè)作為創(chuàng)新主體,科技創(chuàng)新要為經(jīng)濟(jì)社會發(fā)展服務(wù)的精神非常了解有很大關(guān)系。尤其是在“十七大”報告中,傳統(tǒng)的“科教文衛(wèi)”不再單獨作為一個板塊,科技創(chuàng)新直接在經(jīng)濟(jì)發(fā)展的第一部分來描述,對我觸動很大。龍芯公司的成立得到很多領(lǐng)導(dǎo)專家的支持。除了李國杰所長的大力支持外,路甬祥院長專門批示,要求科學(xué)院有關(guān)部門落實龍芯團(tuán)隊的股權(quán)激勵。原國家外專局局長馬俊如從2006年起就曾多次對我說,龍芯在科學(xué)院里面已經(jīng)做得很好了,不能再好了,要想更好,就必須下海辦企業(yè);在成立企業(yè)后馬局長又給了我很多指導(dǎo)。工信部的電子司司長丁文武也給了我很多鼓勵。

            龍芯3B的研發(fā)工作在2008年底龍芯3A交付流片后開始全面展開。首款龍芯3B1000繼續(xù)基于65nm工藝,目標(biāo)主頻800MHz-1GHz,八核結(jié)構(gòu),每個核包含兩個256位向量部件,峰值浮點性能達(dá)到128GFLOPS,這在當(dāng)時處于世界領(lǐng)先行列。龍芯3B1000于2010年6月20日左右流片,2010年11月底回來第一批芯片。但第一批芯片回來測試并不順利,連操作系統(tǒng)都啟動不了。很快就找到了原因:由于芯片可測性設(shè)計部分的邏輯設(shè)計錯誤,在功能模式下誤把內(nèi)存引腳置為測試狀態(tài),導(dǎo)致芯片訪問不了內(nèi)存,通過FIB(用離子束改變硅片上的連線)修復(fù)后功能正常。

            這是一個重大的打擊,龍芯歷史上從來沒有犯過這樣簡單的錯誤,而且在同一時期流片的龍芯1A、龍芯2I等芯片也出現(xiàn)了由于簡單工作失誤引起的錯誤。究其原因,是龍芯團(tuán)隊在2010年初從課題組管理機制轉(zhuǎn)向公司管理機制的過程中,原來“作坊式”的設(shè)計流程被打破了,“工業(yè)化”的設(shè)計流程沒有建立起來。在課題組階段,我作為課題組長,每顆芯片從結(jié)構(gòu)設(shè)計、邏輯設(shè)計、功能驗證、可測性設(shè)計、定制設(shè)計、物理設(shè)計各個環(huán)節(jié)從頭盯到尾,及時協(xié)調(diào)各組的配合,關(guān)注每一個細(xì)節(jié),因此沒有出現(xiàn)管理上的錯誤。而在3B1000的研制過程中,龍芯課題組轉(zhuǎn)型成立了龍芯公司,我的主要精力轉(zhuǎn)向公司,芯片研發(fā)的總協(xié)調(diào)人缺位,導(dǎo)致頻頻失誤。痛定思痛,從此我著手芯片研制的質(zhì)量體系建設(shè),建立了“五步法”(立項、方案、簽核、測試、結(jié)項)研制過程,并詳細(xì)規(guī)定了每個階段的研發(fā)和審核內(nèi)容。在此后龍芯公司進(jìn)行的幾十次流片中,沒有出現(xiàn)過嚴(yán)重的質(zhì)量問題,而且比我作為課題組長天天盯著效率高很多。

            龍芯3B1000首款流片不成功促使我們馬上進(jìn)行改版,好在只要改一層金屬,時間和費用上都比較省。3B1000的第一次改版2011年2月初流片,7月初回來,調(diào)試比較順利。但在壓力測試時又出現(xiàn)死機現(xiàn)象,經(jīng)過幾個月的攻關(guān)發(fā)現(xiàn)又是死鎖問題。大致機理是一個處理器核訪問其它結(jié)點的內(nèi)存時,寫地址和寫數(shù)據(jù)是分開發(fā)出的,結(jié)果在另外一個結(jié)點的處理器核也過來訪問內(nèi)存,而且同時有幾十個這樣的互相訪問時,寫地址過去了但寫數(shù)據(jù)互相堵住,導(dǎo)致死鎖。避免死鎖的辦法是要求寫地址和寫數(shù)據(jù)保持原子性,即必須一起發(fā)出和傳輸。為此龍芯3B1000進(jìn)行了第二次改版,于2011年12月初流片,2012年4月底回來。從此達(dá)到穩(wěn)定狀態(tài)。

            在掌握65nm工藝的基礎(chǔ)上,我們于2009年11月開始評估32/28nm工藝,并準(zhǔn)備把它作為龍芯CPU的下一個工藝結(jié)點。2010年12月選定意法半導(dǎo)體與三星合作的32nm工藝并開始八核3B1500的設(shè)計。3B1500基于3B1000的設(shè)計,主要通過工藝升級提高性能,同時做了局部的性能優(yōu)化,尤其是在處理器核中增加了私有二級Cache。2012年1月中旬完成3B1500的設(shè)計并交付流片。2012年8月底拿到樣片,初步測試正常,頻率從3B1000的900MHz提高到1.25GHz(最高可達(dá)1.5GHz)。在經(jīng)過測試后對該芯片進(jìn)行了萬片規(guī)模的小批量生產(chǎn)。在應(yīng)用驗證過程中,出現(xiàn)了在很大的應(yīng)用壓力下個別芯片不穩(wěn)定現(xiàn)象。剛開始覺得是個體問題,后來出現(xiàn)的次數(shù)多了,開始于2013年1月31日組織人員攻關(guān)定位問題,查找機理。也是每天晚上召開例會討論,安排各種嘗試,在這個過程中發(fā)現(xiàn)了幾個軟硬件磨合的問題并通過軟件調(diào)整后,出問題的概率小了很多,但問題如幽靈般還在。直到2013年4月12日,才抓到了該問題。這個問題是從3B1000到3B1500改版過程中引進(jìn)的,為了提高性能,處理器核收到多個維護(hù)Cache一致性的無效請求時,原來每兩拍才能處理一個,改成可以連續(xù)處理,導(dǎo)致清除LL/SC同步指令的同步位llbit時錯了一拍,誤把IODMA引起的Cache無效請求當(dāng)作0號處理器核的Cache無效請求(IODMA的編號剛好為0,與0號處理器核區(qū)分不開),通過軟件調(diào)整可以規(guī)避此問題。經(jīng)過批量測試,原不穩(wěn)定現(xiàn)象消失。

            為了從根本上消除該問題和其它一些小問題,我們對3B1500進(jìn)行改版。改版時根據(jù)生產(chǎn)廠家的建議,工藝從32nm遷移到28nm,于2013年4月底流片,10月底收到樣片,功能正常,但成品率極低,與廠家確認(rèn)后明確是廠家生產(chǎn)問題。廠家又建議我們恢復(fù)到32nm工藝流片,并以某種方式補償此次流片費用,于是又再次改版,于2015年1月底流片,2015年6月下旬收到樣片,測試后功能正常,而且成品率正常,目前已經(jīng)量產(chǎn)。

            龍芯3B的研制過程真是一波三折。出現(xiàn)過龍芯從課題組向公司轉(zhuǎn)型過程中的管理問題,生產(chǎn)廠家引起的問題,多核互相訪問引起的死鎖問題,處理器核Cache一致性引起的問題。在解決了一個個問題后總算取得了成功。

            但龍芯3B的主要問題不在研制過程中,而是剛開始定方向就出了很大偏差。主要問題在于雖然龍芯團(tuán)隊從課題組轉(zhuǎn)型成為了公司,但龍芯3B的研發(fā)還保持著學(xué)院派導(dǎo)向,過度追求多核以及浮點峰值性能的單一指標(biāo),通用處理性能不足,滿足不了在“十一五”期間展開的自主CPU應(yīng)用和試點對性能的要求。

            龍芯3B在學(xué)術(shù)上是成功的,3B1500峰值浮點運算速度達(dá)到160GFLOPS,現(xiàn)在拿出來也不丟人,當(dāng)時在國際上算高的。論文分別被國際頂級會議Hotchips和ISSCC錄用,龍芯3B的報告引起了很大反響,美國ITTimes對此專門進(jìn)行了報道,MIT也發(fā)表評論,認(rèn)為龍芯3B的浮點性能超過了同期的Intel處理器。但3B1500的通用處理能力比3A1000提高得不多,通過每個處理器核增加128KB的私有二級Cache以及主頻及內(nèi)存頻率的提高,3B1500的單核通用處理性能比3A1000提高了30%-50%,但與國外主流產(chǎn)品的性能差距還很大。

            SPECCPU是一組國際上公認(rèn)的測試通用處理器性能的測試程序。2006年SPECCPU2006剛出來時,廠家公布的SUN的blade服務(wù)器單核性能為2-4分左右,高端PentiumIV的分值是10來分。2006-2013年是國外主流處理器通用處理性能高速增長期,在主頻不怎么提高的基礎(chǔ)上,通過微結(jié)構(gòu)優(yōu)化,廠家公布的SPECCPU2006單核分值提高到50分左右,平均提高了5倍以上。當(dāng)然廠家公布的分值都是經(jīng)過精雕細(xì)刻編譯優(yōu)化(包括使用向量和多核加速)的,一般我們使用gcc編譯出來的單核分值需要把這些廠家自己公布的分值打7折左右,大致是20-40分。2013年以后,國際單核性能的提高趨緩,每代提升5%就不錯,已經(jīng)到了天花板。SPECCPU先后發(fā)展了1989、1992、1995、2000、2006五個版本,開始時每三年更新一版,后來五、六年更新一版,到2006年后就沒有更新。從中也可以看出,CPU的通用處理性能到2010年前后已經(jīng)到了天花板,運行SPECCPU2006的時間就夠長了。

            “十一五”期間,多核CPU成為國際學(xué)術(shù)界的熱點研究方向。因此,學(xué)院派思想主導(dǎo)的國內(nèi)CPU在“十一五”期間都放松了單核性能的提高,而是轉(zhuǎn)做多核,而且核數(shù)做得比國外還多。2006年研制成功的龍芯2E的通用處理性能與市場上主流X86處理器差1-2倍(與龍芯2E微結(jié)構(gòu)相同的龍芯3A1000在900MHz時SPECCPU2006單核分值為定點2.4分,浮點2.3分),但龍芯CPU的單核性能從2006年的龍芯2E到2013年的龍芯3B1500只提高了50%左右;而在此期間市場主流X86處理器的單核通用處理性能提高了5倍以上。也就是說,“十一五”期間我國CPU通用處理性能被國外大幅度拉開了距離,從相差1-2倍到相差一個數(shù)量級。

            技術(shù)上的差距體現(xiàn)在市場上就是不好用。“十一五”期間,國家有關(guān)部門在涉及國家安全的領(lǐng)域開始了自主CPU應(yīng)用試點,大量的應(yīng)用往基于自主CPU和操作系統(tǒng)的計算機上移植。在2011-2013年的三年中,以嵌入式計算機為代表的裝備類應(yīng)用取得了不少成功;而以通用PC和服務(wù)器為代表的信息化類應(yīng)用雖然通過基礎(chǔ)軟硬件的磨合優(yōu)化取得了較大進(jìn)展,但由于自主CPU的性能基礎(chǔ)與國外產(chǎn)品有數(shù)量級差距,在很多應(yīng)用中遭遇性能瓶頸。

            由于自主CPU的通用處理性能不夠,2013年起,“核高基”基本上放棄了CPU自主研發(fā)路線,轉(zhuǎn)而支持引進(jìn)國外CPU技術(shù)的路線。以IBM、AMD、威盛、ARM為代表的國外/境外CPU趁虛而入,紛紛尋求與國內(nèi)企業(yè)合資或開放技術(shù)授權(quán)的方式,把原來的產(chǎn)品搖身一變成為自主CPU(操作系統(tǒng)和數(shù)據(jù)庫也有類似情況)。這使得主要靠國家支持進(jìn)行研發(fā)的龍芯CPU陷入了巨大困境。

            雖然當(dāng)時對“核高基”支持引進(jìn)CPU不滿,但究其原因,還是我們自己在“十一五”“核高基”支持的龍芯3B上沒有擺脫學(xué)院派的慣性,走了彎路,滿足不了當(dāng)時迫切的自主信息化市場需求。問題還是出在我們自己身上。“十五”期間負(fù)責(zé)863計劃的科技部高新司領(lǐng)導(dǎo)在龍芯2C沒有達(dá)到預(yù)期技術(shù)指標(biāo),龍芯2E立項專家提出19條反對意見的情況下作為非共識項目支持龍芯2E的研發(fā),給了我們一次改進(jìn)的機會。而這次,機會沒有了,需要我們自己想辦法。

            痛定思痛,知恥后勇。2013年5月,龍芯公司結(jié)合市場需求對CPU的研發(fā)路線進(jìn)行了認(rèn)真調(diào)整。一是龍芯3號系列多核CPU不追求核的個數(shù)而是大幅度提高單核性能,放棄高性能機專用CPU的研制,暫停16核處理器研制,重點把雙核、四核處理器做精做透。二是龍芯2號系列SOC芯片不追求“大而全”的復(fù)雜度,而是重視結(jié)合用戶需求定義芯片,以及SOC片內(nèi)互連的通暢性。三是龍芯1號系列結(jié)合特定應(yīng)用,如宇航、石油、流量表等研制專用芯片,專用芯片產(chǎn)業(yè)鏈短,容易形成技術(shù)優(yōu)勢并快速形成銷售(如面向宇航應(yīng)用的龍芯1E和1F已經(jīng)為龍芯公司帶來持續(xù)穩(wěn)定的銷售收入)。種瓜得瓜、種豆得豆。從2014年下半年開始,龍芯研發(fā)和市場結(jié)合的作用開始顯現(xiàn),2014年龍芯公司銷售收入比2013年增長51%;2015年在2014年基礎(chǔ)上再增長57%,為龍芯公司的可持續(xù)發(fā)展奠定了良好的基礎(chǔ)。龍芯公司逐漸擺脫國家項目的支持,能夠主要通過市場銷售養(yǎng)活團(tuán)隊和產(chǎn)品研發(fā)。


          上一頁 1 2 下一頁

          關(guān)鍵詞: 龍芯 3A3000

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();