<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 電源與新能源 > 設(shè)計(jì)應(yīng)用 > 32位高性能嵌入式CPU中Load Aligner 模塊的設(shè)計(jì)與實(shí)現(xiàn)

          32位高性能嵌入式CPU中Load Aligner 模塊的設(shè)計(jì)與實(shí)現(xiàn)

          ——
          作者:同濟(jì)大學(xué)微電子中心 張書 王穎 林正浩 時(shí)間:2007-01-26 來源:《今日電子》 收藏

          引言

          一般的,在cpu中,訪問寄存器比訪問主存速度要快。所以為了減少訪問存儲器而花的時(shí)間或延遲,mips4kc處理器采用了load/store設(shè)計(jì)。在cpu芯片上有許多寄存器,所有的操作都由存儲在寄存器里的操作數(shù)來完成,而主存只有通過load和store指令來訪問。這樣做不僅可以減少訪問主存的次數(shù),有利于降低對主存儲器容量的要求,而且可以精簡指令集,有利于編譯人員優(yōu)化寄存器分配。load aligner就是數(shù)據(jù)存儲器(dcache)和數(shù)據(jù)通道之間的接口。所以設(shè)計(jì)出性能優(yōu)良的load aligner對提高cpu的整體性能是非常重要的。本文介紹了在一款32位cpu中l(wèi)oad aligner的設(shè)計(jì)與實(shí)現(xiàn),其中主要是數(shù)據(jù)通道部分的設(shè)計(jì)和實(shí)現(xiàn)。

          設(shè)計(jì)目標(biāo)

          本設(shè)計(jì)中,load aligner要實(shí)現(xiàn)的指令有l(wèi)b、lbu、lh、lhu、lw、lwl、lwr。cpu通過這些指令把從數(shù)據(jù)存儲器中取出來的數(shù)據(jù)重新排序,然后放進(jìn)寄存器堆rf中,進(jìn)入cpu的數(shù)據(jù)通道。表1是對這些指令的介紹。

          本文引用地址:http://www.ex-cimer.com/article/20719.htm

          如果把從dcache中取出的一個(gè)32位的字表示成4字節(jié):a、b、c、d,如表2所示。

          31-24/ 23-16/ 15-18/ 7-0

          a / b / c / d
          那么經(jīng)過上述指令操作后,這個(gè)字被重新排列的結(jié)果(即load aligner的輸出,也用4字節(jié)來表示)見表3。

          表3中,s表示符號擴(kuò)展,*表示這個(gè)字節(jié)上的寄存器中的數(shù)保持不變。不過在load aligner模塊,先將這些字節(jié)置0,在寄存器堆模塊再控制這些字節(jié)是否直接寫進(jìn)寄存器。

          以上是load aligner模塊要實(shí)現(xiàn)的指令目標(biāo),另外由于此模塊是cpu關(guān)鍵路徑的一部分,因此數(shù)據(jù)通道部分最長時(shí)延不能超過0.7ns。

          邏輯設(shè)計(jì)

          分析比較經(jīng)過上述指令后load aligner模塊的輸入輸出變化可以看出:輸入字的每一字節(jié)經(jīng)過load aligner模塊后可以在輸出字的任意字節(jié)位置上。換言之,輸出字的每一字節(jié)都可以有a、b、c、d四種情況。所以需要一個(gè)8位的控制信號bit<7:0>來控制四個(gè)四選一的數(shù)據(jù)選擇器,稱為字節(jié)組合模塊,來獲得所需要的字節(jié)組合。不過,經(jīng)過這個(gè)字節(jié)組合模塊選出來的4字節(jié)并不全是所需要的,還需要去掉冗余的字節(jié)或者進(jìn)行符號擴(kuò)展。因此需要有能夠產(chǎn)生符號擴(kuò)展或者0擴(kuò)展的模塊稱為符號產(chǎn)生模塊,然后把它的輸出和一個(gè)4位的控制信號mask<3:0>一起控制一組二選一數(shù)據(jù)選擇器,稱為輸出模塊,來獲得最后的排序結(jié)果。邏輯實(shí)現(xiàn)流程圖見圖1。

          以上是load aligner模塊數(shù)據(jù)通道部分的設(shè)計(jì)。它還需要有控制模塊來產(chǎn)生上述控制信號,此外由于任何一個(gè)控制信號都要驅(qū)動(dòng)數(shù)據(jù)通道子模塊中的32個(gè)cell,所以還要有一個(gè)驅(qū)動(dòng)模塊來使控制信號有足夠的驅(qū)動(dòng)能力。由以上分析,整個(gè)load aligner模塊的框圖如圖2所示。其中,控制模塊采用自動(dòng)布局布線生成,而驅(qū)動(dòng)模塊和數(shù)據(jù)通道模塊均采用全定制設(shè)計(jì)。

          功能驗(yàn)證

          對此模塊的rtl代碼和所設(shè)計(jì)的電路分別進(jìn)行了功能驗(yàn)證。設(shè)從dcache取出的32位數(shù)據(jù)用十六進(jìn)制表示為aabbccdd,對表3中的所有指令進(jìn)行測試。圖3所示的波形圖就是依次測試指令lw、lh00、lhu00、lh10、lhu10、lb00、lbu00、lb01、lbu01、lb10等的結(jié)果。可以看出,結(jié)果與表3完全吻合。說明所設(shè)計(jì)的電路滿足設(shè)計(jì)目標(biāo),可以實(shí)現(xiàn)所要求的所有指令。

          電路仿真

          根據(jù)圖1可以看出,從符號選擇信號sandz<4:0>到輸出的路徑為最長路徑,我們選取這條路徑進(jìn)行仿真,并考慮在0.18μm時(shí)線電阻電容對時(shí)延的影響,用hspice確定了所需器件的尺寸。仿真結(jié)果如圖4所示。上升時(shí)時(shí)延為0.52ns,下降時(shí)時(shí)延為0.47ns,均滿足小于0.7ns 的要求。

          結(jié)論

          在cpu中,load aligner模塊是dcache和數(shù)據(jù)通道之間的接口。從dcache中取出的數(shù)據(jù)只有通過load aligner模塊重新排序,才能進(jìn)入cpu的數(shù)據(jù)通道。在設(shè)計(jì)中應(yīng)用了自上而下的設(shè)計(jì)方法,所設(shè)計(jì)的電路實(shí)現(xiàn)了所有的指令,在時(shí)延上也達(dá)到了設(shè)計(jì)目標(biāo)。



          關(guān)鍵詞: 模塊

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();