SoC原型驗證技術(shù)的研究
SoC原型驗證技術(shù)的研究
北京清華大學(xué)微電子所(100084) 馬鳳翔 孫義和
摘 要:快速系統(tǒng)原型技術(shù)已成為SoC(片上系統(tǒng))驗證的主要手段之一,但大多數(shù)的原型描述仍使用Verilog/VHDL語言,描述效率低。以軟件編譯式系統(tǒng)設(shè)計(SCSD)為基礎(chǔ),提出了SoC的原型驗證流程,用Handel-C語言描述SoC原型,并直接實現(xiàn)在原型驗證硬件上;用SCSD的軟件工具、RC1000和RC200硬件平臺搭建了一個SoC原型驗證系統(tǒng)的樣機,并在樣機上完成了Lena圖像處理SoC的原型驗證;在反復(fù)試驗的基礎(chǔ)上,改進了SoC原型驗證流程,并設(shè)計出了新的原型電路板。
關(guān)鍵詞:原型 SoC 驗證 軟件編譯式系統(tǒng)設(shè)計 Handel-C
由于SoC設(shè)計復(fù)雜度不斷增加,使得縮短面市時間的壓力越來越重。雖然充分利用IP核大大減少了SoC的設(shè)計時間,但SoC驗證仍然非常復(fù)雜耗時。SoC和ASIC的最大不同之處在于它的系統(tǒng)特性,除了大量硬件模塊之外,SoC還需要大量的固件和軟件,如操作系統(tǒng)、驅(qū)動程序、通訊協(xié)議以及應(yīng)用程序等。SoC硬件模塊數(shù)目眾多、內(nèi)嵌軟件復(fù)雜,傳統(tǒng)的基于邏輯模擬的驗證方式已不再可行。尤其是軟硬協(xié)同驗證時,模擬時間之長令人難以忍受。為了縮短SoC驗證時間,快速系統(tǒng)原型(Rapid System Prototype)驗證,即硬件原型和軟件原型結(jié)合驗證,已經(jīng)成為SoC設(shè)計流程前期階段的常用手段[1]。
快速系統(tǒng)原型驗證的本質(zhì)在于快速地實現(xiàn)SoC設(shè)計中的硬件模塊,讓軟件模塊在真正的硬件上高速運行,實現(xiàn)SoC設(shè)計的軟硬件協(xié)同驗證。該技術(shù)實現(xiàn)的基礎(chǔ)是強大的FPGA和有力的設(shè)計描述及編譯工具。原型驗證系統(tǒng)由三個部分組成:系統(tǒng)硬件、軟件編譯器和運行程序。系統(tǒng)硬件設(shè)計的核心部分是定制的FPGA并行系統(tǒng),用來實現(xiàn)SoC設(shè)計中的關(guān)鍵模塊如Mpeg編碼器,系統(tǒng)硬件的常規(guī)模塊可由商用芯片實現(xiàn)。軟件編譯器則把寄存器級或門級設(shè)計及其驗證環(huán)境扁平化,映射到系統(tǒng)硬件。運行程序控制原型系統(tǒng)的運行、設(shè)計調(diào)試,一般采用C-API編程,并且有開放的軟件結(jié)構(gòu),便于后期緊密集成。
快速系統(tǒng)原型驗證采用商用芯片實現(xiàn)設(shè)計中的常用模塊,只有核心模塊才用FPGA實現(xiàn),因此提高了原型系統(tǒng)的速度,減少了原型描述及其實現(xiàn)的工作量,降低了原型驗證系統(tǒng)的成本,更適合于開發(fā)出針對某個領(lǐng)域的驗證平臺。但目前的SoC原型的描述主要使用Verilog或者VHDL,描述的級別低、復(fù)雜度高、容易出錯,因此不能很快地實現(xiàn)SoC的原型。本文的目的就是找出一種方法,用高級語言(如C語言)來描述SoC的原型,并實現(xiàn)在設(shè)計的原型驗證硬件上。
1 SoC原型的Handel-C描述及其實現(xiàn)流程
Celoxica公司提出的軟件編譯式系統(tǒng)設(shè)計(Software-Compiled System Design,SCSD)把軟件設(shè)計技術(shù)引入硬件設(shè)計,直接用Handel-C語言描述硬件設(shè)計,大大改善了硬件設(shè)計效率。SCSD的軟件工具包括集成開發(fā)環(huán)境(DK)、平臺開發(fā)工具(PDK)以及系統(tǒng)級硬件描述語言Handel-C等。DK可以編輯、模擬、調(diào)試并編譯Handel-C源代碼,生成EDIF、Verilog或VHDL代碼,并能夠與ModelSim一起協(xié)同模擬Handel-C和Verilog設(shè)計[2]。PDK由數(shù)據(jù)流管理器(DSM)、平臺抽象層(PAL)和平臺支持庫(PSL)三個層面構(gòu)成[3]。通過DSM,可以很方便地在軟件和硬件之間實現(xiàn)轉(zhuǎn)移設(shè)計的功能,便于快速地劃分設(shè)計,找到最優(yōu)的劃分方案;PAL提供與API方式訪問原型電路板一致的硬件資源,實現(xiàn)Handel-C設(shè)計的可移植性;PSL為DK和Handel-C設(shè)計提供與電路板、可編程器件或開發(fā)工具有關(guān)的支持,更接近驅(qū)動程序的概念。
SCSD的整套軟件工具能夠把Handel-C描述的設(shè)計直接實現(xiàn)到FPGA上,因此非常適合SoC原型的描述及其實現(xiàn)。本文以SCSD為基礎(chǔ),提出了SoC/IP的原型驗證流程,如圖1所示。
圖1 SoC/IP原型實現(xiàn)的基本流程及其EDA工具
在SoC原型驗證中,不同的硬件模塊用不同的方式實現(xiàn)。處理器用主機CPU或者原型硬件中的嵌入式處理器實現(xiàn);存儲器用原型硬件中與FPGA直接相連的存儲器排實現(xiàn);Verilog描述的核心模塊在FPGA中實現(xiàn);各種外設(shè)模塊用原型硬件中的外設(shè)資源實現(xiàn);模塊之間的互連實現(xiàn)在FPGA和原型硬件的互連總線上。IP原型驗證需要確定它的外圍邏輯環(huán)境、驗證向量生成機制和驗證結(jié)果分析檢查策略。本文把SoC和IP驗證中所有需要描述的模塊及其互連與原型硬件的映射關(guān)系以及原型驗證的硬件支持統(tǒng)稱為設(shè)計的驗證環(huán)境。被驗證的設(shè)計用Verilog/VHDL語言描述,驗證環(huán)境用Handel-C語言描述。
Handel-C描述完成后,用模擬器ModelSim和Handel-C開發(fā)工具DK協(xié)同模擬、調(diào)試設(shè)計和驗證環(huán)境,這樣可用較少的驗證向量檢查驗證環(huán)境的正確性。模擬成功后,DK把驗證環(huán)境的Handel-C描述編譯為Verilog描述。然后調(diào)用綜合工具(Synplify)對設(shè)計及其驗證環(huán)境的Verilog描述進行編譯優(yōu)化。接著調(diào)用Xilinx的布局布線工具(ISE),把優(yōu)化的Verilog描述轉(zhuǎn)換為原型系統(tǒng)硬件的配置數(shù)據(jù)。原型系統(tǒng)配置完畢后,就可以啟動系統(tǒng)執(zhí)行原型驗證了。如果模塊設(shè)計的RTL優(yōu)化已經(jīng)完成,就無需調(diào)用Synplify進行優(yōu)化,直接輸入ISE即可。
在SoC軟硬件協(xié)同驗證中,首先通過DK,協(xié)同模擬C/C++描述的軟件、Handel-C描述的驗證環(huán)境和Verilog描述的模塊;然后把軟件編譯成SoC處理器的目標代碼,讓軟件在原型系統(tǒng)中高速運行,執(zhí)行驗證。主機PC上運行的診斷軟件與SoC的軟件模塊的描述實現(xiàn)流程基本一致,只是最終實現(xiàn)運行在主機的處理器上。
2 SoC原型驗證系統(tǒng)樣機
本文利用可配置計算電路板RC1000和SoC設(shè)計展示評估平臺RC200搭建了一個原型驗證系統(tǒng)的樣機,以充分體驗SCSD的優(yōu)缺點,為以后SoC原型驗證系統(tǒng)的設(shè)計做一些基礎(chǔ)性研究工作。
原型驗證系統(tǒng)的樣機由PC主機、RC1000和RC200構(gòu)成,如圖2所示。在功能定位上,PC主機是主控子系統(tǒng),RC1000和RC200共同組成原型子系統(tǒng)。RC1000插在PC主機的PCI插槽中。RC200和PC主機之間用并口總線連接。RC1000和RC200之間用自制的34位總線連接。
圖2 RC1000的功能框圖
PC主機與原型子系統(tǒng)之間通信的方式有三種:單數(shù)位、字節(jié)和DMA。單數(shù)位方式使用GPI和GPO兩根信號線進行一位的數(shù)據(jù)通信,可用來傳遞一個狀態(tài)。字節(jié)方式使用RC1000控制/狀態(tài)端口進行單字節(jié)數(shù)據(jù)傳輸,可用來傳遞控制命令或狀態(tài)信息;兩者采用握手協(xié)議,只有在操作完成之后才能返回。前兩種方式一般用來對存儲器所有權(quán)的交換進行同步,DMA方式一般用于大量數(shù)據(jù)的傳輸。首先主機以DMA方式在SRAM中寫入數(shù)據(jù);然后FPGA獲得SRAM所有權(quán)后,讀取數(shù)據(jù)并進行處理,將結(jié)果寫入SRAM;最后主機又以DMA方式取回結(jié)果。
RC1000的FPGA外接四排SRAM,其中任何一排都可以賦給FPGA或者主機。SRAM是主機和原型子系統(tǒng)交換數(shù)據(jù)的緩沖區(qū)。
把RC1000和RC200連接起來,共同構(gòu)成原型子系統(tǒng)彌補了兩者的缺點:首先,為RC1000提供多種接口標準支持,如音視頻輸入輸出、Internet和Bluetooth、觸摸屏、串/并口等;其次,增強RC200的調(diào)試診斷能力,運行過程中的數(shù)據(jù)可以通過RC1000傳輸?shù)街鳈C,因此可以和模擬環(huán)境中一樣觀察分析信號;另外,還擴展了系統(tǒng)的邏輯容量:RC1000的FPGA有2.5M系統(tǒng)門,RC200的FPGA有1M系統(tǒng)門,所以整個子系統(tǒng)的邏輯容量為3.5M系統(tǒng)門,可以實現(xiàn)更大設(shè)計的原型驗證。
并口總線是PC主機和RC200之間唯一的通信渠道。PC主機只能通過并口總線下載RC200配置數(shù)據(jù),或者讀寫RC200上SmartMedia卡中內(nèi)容。而RC1000配置可通過PCI總線實現(xiàn),有多種靈活的配置方式[4]。
RC1000的可編程時鐘可以提供400kHz~100MHz的時鐘頻率[5]。它的輸出時鐘從"OUT"端口輸出,經(jīng)由連接總線驅(qū)動RC200,實現(xiàn)RC1000和RC200的時鐘同步。
3 Lena圖像處理SoC的原型驗證
為了檢驗系統(tǒng)樣機進行原型驗證的有效性,試驗了一個實例:Lena圖像處理SoC原型驗證,如圖3所示。主機處理器代表SoC處理器的原型;RC1000實現(xiàn)圖像扭曲算法,是專用圖像處理模塊;RC200是顯示驅(qū)動模塊及顯示裝置。
圖3 SoC原型示意圖
Lena圖像數(shù)據(jù)以靜態(tài)庫文件的方式嵌入程序源代碼。主機程序啟動后,首先對原型子系統(tǒng)進行配置,然后用DMA方式把圖像數(shù)據(jù)送入RC1000的存儲器中。數(shù)據(jù)傳輸結(jié)束后,主機用控制端口通知RC1000進行處理。RC1000對Lena圖像進行扭曲處理,處理完一幀后,用狀態(tài)端口通知主機取回結(jié)果,并在主機顯示器上顯示。主機拿到結(jié)果后,通知RC1000繼續(xù)處理。如此反復(fù)。也就是說,主機以DMA方式傳輸一幀靜態(tài)圖像,然后再以DMA方式逐幀取回處理結(jié)果,在主機顯示器上得到扭曲變幻的動態(tài)圖像。
在RC1000對每幀圖像的處理過程中,是以像素為單位把圖像數(shù)據(jù)傳遞給RC200的。像素數(shù)據(jù)的傳送使用三條信號線,分別是Data、Write和RC200Rdy。Data是16位的數(shù)據(jù)總線,用來發(fā)送像素數(shù)據(jù)。Write是RC1000發(fā)送數(shù)據(jù)的標志信號線。RC200Rdy表明RC200是否準備好接收像素數(shù)據(jù)Data。像素數(shù)據(jù)的發(fā)送協(xié)議與握手協(xié)議類似。在RC1000處理像素的過程中,Write為0,像素處理完成后,如果RC200Rdy為1,則開始發(fā)送數(shù)據(jù)Data,同時把Write置為1通知RC200接收數(shù)據(jù);如果RC200Rdy為0,RC1000就進入等待狀態(tài),直至RC200Rdy跳變?yōu)?。在RC200接收、處理數(shù)據(jù)的過程中,RC200Rdy被置為0。
RC200接收到的數(shù)據(jù)是16位的,但它只支持24位或者30位的顯示數(shù)據(jù)。因此,對16位的像素數(shù)據(jù)應(yīng)加以處理,把它擴展到24位。動態(tài)圖像的顯示借助FrameBufferdb實現(xiàn),這是Celoxica的視頻顯示核。它用兩個存儲器排作為視頻緩沖器,交替接收數(shù)據(jù)和驅(qū)動顯示。
4 實驗結(jié)果及系統(tǒng)原型的性能分析
Lena圖像處理及其試驗表明:SCSD能夠有效、快速地實現(xiàn)SoC的原型驗證和IP的仿真驗證。但用于SoC原型驗證,尚有不足之處。首先,它只支持設(shè)計的可配置邏輯實現(xiàn),不支持診斷能力的實現(xiàn);其次,它只能在單個FPGA上實現(xiàn)設(shè)計,不能把Handel-C設(shè)計劃分在多個FPGA上實現(xiàn)。而這兩點對于原型驗證來說卻非常重要。
診斷就是在原型運行過程中如何實現(xiàn)重要信號的收集和分析。診斷涉及到監(jiān)測點的指定及其實現(xiàn),以及監(jiān)測點數(shù)據(jù)的處理分析。在Verilog中指定監(jiān)測點相對簡單,因為有現(xiàn)成的工具—Synplicity的Identify。在Handel-C中還沒有現(xiàn)成辦法指定監(jiān)測點,其指定和實現(xiàn)機制需要進一步的研究??尚械霓k法就是,先用DK把Handel-C描述的驗證環(huán)境或設(shè)計編譯成Verilog描述,然后再在Identify中指定監(jiān)測點。實現(xiàn)就是在硬件上獲得并表現(xiàn)這些監(jiān)測點的信號,如把這些信號直接或者經(jīng)過某種處理后輸出到邏輯分析儀或PC主機。但這需要圓形硬件的支持。
大規(guī)模設(shè)計需要多個FPGA實現(xiàn)。因此對于原型驗證,需要把設(shè)計劃分到多個FPGA上實現(xiàn)。比較快捷的方法是:先用DK把Handel-C設(shè)計編譯為Verilog描述,然后用Synplicity的設(shè)計劃分工具Certify劃分,最后用Xilinx公司的布局布線工具生成配置數(shù)據(jù)。也可以進一步研究如何劃分Handel-C設(shè)計。改進的SoC/IP原型驗證流程及所用的軟件工具如圖4所示。
圖4 改進的SoC原型驗證流程
圖5 原型電路板上總線結(jié)構(gòu)及主要資源
為了支持原型驗證的診斷能力、實現(xiàn)大規(guī)模SoC設(shè)計的原型驗證,設(shè)計了一款全新的原型電路板,其功能示意圖如圖5所示。電路板使用三個FPGA,采用環(huán)形互連結(jié)構(gòu)。原型FPGA之間的互連便于設(shè)計在兩者之間劃分。而接口FPGA與兩者之間的連接則用于對設(shè)計內(nèi)部接點實現(xiàn)監(jiān)督,對配置數(shù)據(jù)進行下載。接口FPGA外接六排存儲器(32位SRAM),因此每周期最多可以并行監(jiān)督192個內(nèi)部信號。運行過程中,監(jiān)測點的信號值直接存入SRAM。主機以DMA方式讀取SRAM中的信號值,從而實現(xiàn)軟件讀取原型硬件運行過程中的數(shù)據(jù),開發(fā)工程師可以像在模擬環(huán)境中一樣觀察分析自己感興趣的信號。這就部分解決了長久以來困擾硬件仿真或原型的問題(診斷能力很差)。如果監(jiān)測點的信號數(shù)據(jù)量很大,無法通過PCI總線實時傳送到PC主機或分析困難時,可在接口FPGA中進行處理,數(shù)據(jù)處理之后再傳送過去。但有時用邏輯分析儀分析信號更適合也更方便,因此電路板上還設(shè)計了一個邏輯分析儀與接口FPGA連接的插槽。該原型電路板支持兩種擴展方式:電路板擴展和插件擴展。電路板擴展就是在系統(tǒng)的PCI總線中加入更多原型電路板,以驗證更大規(guī)模的電路。此時,電路板之間可采用速度可高至射頻的高速連接總線,PCI總線只是用來實現(xiàn)控制和診斷。擴展插槽中可以插入不同的小尺寸外設(shè)以及數(shù)模/模數(shù)電路板,以擴展原型系統(tǒng)的原型能力。Rocket I/O接口支持射頻模塊的接入。原型驗證系統(tǒng)的設(shè)計細節(jié)可參見參考文獻[6]。
SCSD可以加快SoC原型驗證的描述和實現(xiàn),但無法實現(xiàn)診斷和設(shè)計的劃分。本文在數(shù)次試驗的基礎(chǔ)上,提出了改進的原型實現(xiàn)流程,并重新設(shè)計原型電路板。然而,這只是為SoC原型驗證系統(tǒng)的開發(fā)找到了一個很好的方向,并作了一些基礎(chǔ)性的研究工作。要實現(xiàn)它,還有很多工作要做。
參考文獻
1 Natalino Bus
評論