<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 模擬技術 > 設計應用 > 一種改進的Wallace樹型乘法器的設計

一種改進的Wallace樹型乘法器的設計

作者：時間：2006-11-02 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

收藏

摘要：對Booth算法產(chǎn)生的部分積重新合理分組，采用CSA和4-2壓縮器的混合電路結構，對傳統(tǒng)的Wallace樹型乘法器進行改進，提出一種高速的樹型乘法器。該結構與傳統(tǒng)Wallace樹型乘法器相比，具有更小的延時，更規(guī)整的布局和更規(guī)則的布線，使其易于VLSI實現(xiàn)。
關鍵詞：Booth算法；Wallace樹；CSA；4-2壓縮器；樹型乘法器

引言
在微處理器芯片中，乘法器是進行數(shù)字信號處理的核心，同時也是微處理器中進行數(shù)據(jù)處理的關鍵部件。乘法器完成一次操作的周期基本上決定了微處理器的主頻。乘法器的速度和面積優(yōu)化對于整個CPU的性能來說是非常重要的。為了加快乘法器的執(zhí)行速度，減少乘法器的面積，有必要對乘法器的算法、結構及電路的具體實現(xiàn)做深入的研究。

基４Booth算法與乘法器的一般結構

乘法器工作的基本原理是首先生成部分積，再將這些部分積相加得到乘積。在目前的乘法器設計中，基４Booth算法是部分積生成過程中普遍采用的算法。對于N位有符號數(shù)乘法AB來說，常規(guī)的乘法運算會產(chǎn)生N個部分積。如果對乘數(shù)B進行基４Booth編碼，每次需考慮3位：相鄰高位、本位和相鄰低位，編碼后產(chǎn)生部分積的個數(shù)可以減少到[(N+1)/2] （[X]取值為不大于X的整數(shù)），確定運算量0、1A、2A。對于2A的實現(xiàn)，只需要將A左移一位。因此，對于符號數(shù)乘法而言，基4 Booth算法既方便又快捷。而對于無符號數(shù)來說，只需對其高位作0擴展，而其他處理方法相同。雖然擴展后可能導致部分積的個數(shù)比有符號數(shù)乘法多1，但是這種算法很好地保證了硬件上的一致性，有利于實現(xiàn)。對于32位乘法來說，結合指令集的設計，通常情況下需要相加的部分積不超過18個。

對部分積相加，可以采用不同的加法器陣列結構。而不同的陣列結構將直接影響完成一次乘法所需要的時間，因此，加法器陣列結構是決定乘法器性能的重要因素。重復陣列（Iterative Array，簡稱IA）和Wallace樹型結構是最為典型的兩種加法器陣列結構。IA結構規(guī)整，易于版圖實現(xiàn)，但速度最慢且面積大；理論上，Wallace樹型結構是進行乘法操作最快的加法器陣列結構，但傳統(tǒng)的Wallace樹型結構電路互連復雜，版圖實現(xiàn)困難。為了解決這個問題，人們推出了一些連接關系較為簡單的樹型結構，例如ZM樹和OS樹。它們都是將IA樹分為幾段，每段稱之為子樹，子樹內(nèi)部連接采用IA結構，而子樹間采用樹型連接，以此來降低連接復雜度，但是這種方法降低了部分積相加的速度。

在對樹型結構進行改進的同時，設計者們也嘗試了對加法陣列中基本加法單元的改進。Wallace最早提出的方案中，是以CSA（進位保留加法器）作為基本單元構建加法陣列的。其基本方法是：通過CSA部件，以3∶2的壓縮比對部分積進行逐級壓縮，直到最后只產(chǎn)生兩個輸出為止，再通過進位傳遞加法器對產(chǎn)生的這兩個偽和與局部進位相加得出真正的結果。此后，Dadda提出了一種新的加法單元，稱為“（j，k）計數(shù)器”，它有j個輸入和k個輸出，其中jQ2k。經(jīng)過研究和實踐，人們發(fā)現(xiàn)4-2壓縮器（實際上是5-3計數(shù)器）具有較好的平衡性和對稱性，用其作為基本加法單元構成的乘法器在總體性能上具有一定的優(yōu)勢，因此4-2壓縮器也就成為了目前乘法器中較多采用的加法單元。

圖1中列舉了乘法器中幾種加法器陣列的結構，它們都采用4-2壓縮器作為基本加法單元來完成對18個部分積的加和。圖中每個矩形代表一組4-2壓縮器，帶箭頭的線段表示部分積與中間結果。

（a）IA陣列（b）Wallace樹

（c）一階OS樹（d）參考文獻[5]中的樹型結構

圖1 對18個部分積相加所采用的加法陣列結構

如前所述，圖1（a）中的IA陣列，結構最為規(guī)整，但很明顯，其延時級數(shù)大大多于其他結構。（b）是Wallace樹結構，由于采用4-2壓縮器作為唯一的加法單元，而18不能被4整除，因此在對18個部分積的求和過程中，必然要對其中的兩個部分積做額外處理。Wallace樹采取的方法是：先將16個部分積通過三級4-2壓縮器后產(chǎn)生兩個結果，然后與剩下的兩個部分積一起再進行一級4-2壓縮。（c）中的一階OS樹結構也采用了類似的方法，只是在處理的先后順序上有所改變。這兩種結構，都破壞了樹的對稱性，造成路徑的不等長，因此浪費了硬件資源，且增加了布局布線的復雜度。（d）是參考文獻[5]中提出的一種經(jīng)過改進的樹型結構，其求和過程是：將18個部分積分為3組，先對每組中的6個部分積求和，各產(chǎn)生兩個中間結果，再把這6個中間結果相加。由于對每組中的6個部分積求和，可以采用相同結構的兩組4-2壓縮器，這樣就很好地降低了布局布線的復雜度。其缺點在于：用4-2壓縮器對6個中間結果進行相加的過程中，仍不能避免路徑不平衡的問題，因此，還是使關鍵路徑的延時有不必要的增加。

CSA和4-2壓縮器的電路結構和時延分析

既然CSA和4-2壓縮器是加法陣列中主要采用的基本單元，那么，就有必要對CSA和4-2壓縮器在電路特性方面做一下分析比較。如圖2所示，CSA的電路邏輯實際上就是一位全加器，其關鍵路徑上需要經(jīng)過兩級異或門邏輯的延時。對于4-2壓縮器，可以把它看作是兩個CSA按照圖3形式相連而構成。

圖2 CSA電路結構

圖3 由兩個CSA連接而成的4-2壓縮器電路結構

通過圖3所示的連接方式能夠很容易地實現(xiàn)4-2壓縮器。但這種未經(jīng)過優(yōu)化的電路結構很可能造成關鍵路徑不必要的延長。上文已提到，4-2壓縮器實際上是由5個權1的輸入，產(chǎn)生2個權2的輸出（Cout，C）和1個權1的輸出（S）。而本文之所以稱其為4-2壓縮器而非5-3計數(shù)器，是基于這樣一個事實：將此單元作橫向排列后，加數(shù)數(shù)目可以實現(xiàn)的壓縮比為4:2。基于真值表，可以設計出較為理想的4-2電路結構，如圖4所示，其中采用了基于2選1多路選擇器的異或門電路結構代替?zhèn)鹘y(tǒng)的異或門。

圖4 基于多路選擇器的4-2壓縮器電路結構

此外，通過平衡路徑，該結構使橫向進位鏈不對關鍵路徑的延遲造成影響，也就是說產(chǎn)生C和S信號所需的時間不決定于Cin信號，電路關鍵路徑為3個異或門的延遲。在90nm工藝條件下，采用Mentor公司的eldoD仿真工具得到的實際電路延遲仿真數(shù)據(jù)如表1所示。由此可見，一級4-2壓縮器的最大延時約為一級CSA最大延遲的1.5倍，但完成了兩級CSA所做的相加工作。

表1 4-2壓縮器和CSA時延仿真數(shù)據(jù)

信號
延時P1P2P3P4 信號
延時ABC
S （ps）187.76201.30194.99192.77Sum（ps）134.46138.1194.492
C （ps）185.79183.98187.5195.14Carry（ps）118.97111.98100.73
（a）4-2壓縮器時延仿真數(shù)據(jù) （b）CSA時延仿真數(shù)據(jù)

改進的Wallace樹型乘法器結構及性能比較

對于32位乘法來說，符號數(shù)相乘時，基4 Booth編碼形成16個編碼項，并由此產(chǎn)生16個部分積；無符號數(shù)相乘時，編碼項與部分積各多出一個。此外，在目前CPU指令集的設計中，乘加/減（CAB）指令已被廣泛采用。所以，在一次乘法運算中，加法陣列中需要相加的部分積最多達到18個。而部分積個數(shù)對陣列結構的設計有著重大的影響，進而也就影響了布局布線的復雜度以及陣列的延遲級數(shù)。這一點在上文對圖1中各個陣列結構的分析中，可以得到很好的證明。

為了解決圖1中各結構在對部分積求和過程中存在的樹型結構對稱性不好、規(guī)整性差、布局布線復雜度高，以及關鍵路徑延時不必要增加等問題，本文基于傳統(tǒng)的Wallace樹型結構，對其做出了改進，提出如圖5所示的樹型陣列結構。

圖5 CSA與4-2壓縮器相結合的樹型陣列結構

此結構中，采用CSA和4-2壓縮器共同作為基本加法單元，對18個部分積進行壓縮。其具體過程為：先采用CSA對18個部分積做第一次壓縮，產(chǎn)生12個中間結果，再采用4-2壓縮器進行第二次壓縮，然后再分別采用CSA和4-2壓縮器對第二次壓縮產(chǎn)生的6個中間結果和隨后產(chǎn)生的4個中間結果做壓縮，得到最終的兩個偽和，送入進位傳播加法器得到最終結果。該結構通過在第一次和第三次壓縮中采用CSA，使得最初的18個部分積和用4-2壓縮器進行第二次壓縮產(chǎn)生的6個中間結果能夠同時得到處理，使各條路徑在時延上達到平衡，相比于只采用4-2壓縮器作為基本加法單元的陣列，這就節(jié)省了不必要的等待時間。與此同時，用兩級CSA取代兩級4-2壓縮器，也使得關鍵路徑的延時有了明顯的縮短，對高速集成電路設計有著很高的實用價值。

此外，由圖5可以看出，此結構具有較好的對稱性和規(guī)整性，宏模塊數(shù)量少，有利于布局布線。同時，對于目前指令集設計中常用的乘法指令，該結構對硬件的利用率也是相當高的。概括地說，該結構保持了傳統(tǒng)Wallace樹型結構求和速度快的優(yōu)點，又較好地改進了原來那種由單一加法單元構成的陣列的不足。

為了比較該結構與圖1所示各結構陣列的面積，本文在90nm工藝下采用全定制設計方法，利用Cadence的版圖工具Virtuoso對各種情況進行了比較。另外，采用經(jīng)過4-2壓縮器級數(shù)度量關鍵路徑的時延，不考慮互連延時，再通過AT2標準做了進一步的比較，結果如表2所示。(其中由表1數(shù)據(jù)可得，1級CSA延時≈0.7級4-2壓縮器延時。

表2 各種結構的比較

陣列結構面積A（μm2）延時T（4-2級數(shù)）AT2用Wallace樹歸一化
IA陣列0.036282.31683.3
Wallace樹0.043740.69921
一階OS樹0.040240.64320.92
參考文獻[5]結構0.041440.66240.95
本文提出結構0.04183.40.48320.69

結語
采用CSA與4-2壓縮器相結合的電路，在對部分積的求和過程中對硬件達到了最為高效的利用。同時，這種結構既發(fā)揮了CSA版圖面積小的優(yōu)點，又體現(xiàn)了4-2壓縮器壓縮比高、速度快的長處，因此，與其他結構相比，本文提出的改進結構在面積和速度上都達到了相對理想的效果。雖然其在布局布線上有一定的復雜度，但與傳統(tǒng)的Wallace樹相比，已取得了頗為可觀的改進。目前，該結構乘法器的版圖設計工作已基本完成，并被用于正在進行的64位高性能嵌入式CPU設計的項目中，預計于2007年3月進行流片。

參考文獻
1Bwick G. Fast multiplication：algorithms and implementation[D]. Stanford University, 1994
2Poornaiah, D. Algorithm for designing efficient VLSI concurrent add-multiply and add-multiply-add cells for DSP applications[J]. Electronic Letters, 2000, 36(5)：399-400
3Jessani R M, Putrino M. Comparison of Single- and Dual-Pass Multiply-Add Fused Floating - Point Units[J]. IEEE Trans Comput, 1998, 47（9）：927-937
4Sousa L, Chaves R.. A universal architecture for designing ef

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： Wallace 乘法器

評論

相關推薦

一種基于存儲的乘法器查找表的近似優(yōu)化方法

201907 存儲乘法器優(yōu)化 | 2019-07-01

乘法器中的流水線設計方法

資源下載乘法器流水線設計 | 2007-04-19

交流電壓乘法器(MC1594)

設計方案交流電壓乘法器 MC1594 | 2009-07-06

基于嵌入式算法容噪技術的低功耗近似乘法器

201908 低功耗低壓乘法器算法容噪技術閾值選擇 | 2019-08-12

基于絕熱邏輯的低功耗乘法器電路設計方案

消費電子絕熱邏輯低功耗乘法器 | 2017-06-08

數(shù)字圖像倍焦系統(tǒng)設計與實現(xiàn)綜合實例之：系統(tǒng)工作原理分析

嵌入式系統(tǒng) 數(shù)字圖像倍焦系統(tǒng) 乘法器 FPGA | 2017-06-05

有負載驅動能力的乘法器(MPY600)

設計方案有負載驅動能力乘法器 MPY600 | 2009-07-06

20M,mc1596 尋找工作于20M的乘法器及mc1596的資料

jackwang | 2006-09-17

乘法器與調(diào)制器

電源與新能源調(diào)制器乘法器信號頻帶諧波基波 | 2014-08-12

使用跨導運算放大器的乘法器除法器

模擬技術跨導運算放大器乘法器除法器 | 2016-11-07

為什么不能將乘法器用作調(diào)制器或混頻器？

模擬技術乘法器調(diào)制器混頻器 | 2016-10-29

采用乘法器4214的正交振蕩器

設計方案采用乘法器正交振蕩器 | 2009-07-06

乘法器可以鑒脈沖的相位嗎

taishij | 2005-08-29

使用模擬乘法器的同步解調(diào)與基于開關的乘法器

元件/連接器乘法器 | 2023-05-08

定點乘法器

資源下載乘法器定點 | 2007-04-19

VerilogHDL編寫乘法器

資源下載 VerilogHDL 乘法器 | 2007-04-19

低功耗乘法器在信息安全中的應用設計

資源下載乘法器 RSA 橢圓曲線密碼低功耗設計 | 2007-02-16

IC 有誰知道都有哪些模擬乘法器IC？

jackwang | 2006-09-17

FPGA基礎知識及其工作原理

EDA/PCB FPGA 乘法器觸發(fā)器 DSP RAM | 2016-10-18

vhdl 請教:如何用vhdl實現(xiàn)8位乘法器啊|???

jackwang | 2006-09-17

采用乘法器的可變環(huán)寬比較器電路圖

模擬技術乘法器可變環(huán)寬比較器 | 2016-11-15

使用RAM構建乘法器應用指南(英)

資源下載 ACTEL RAM 構建乘法器 | 2007-03-30

利用乘法器MPY600組成的乘法器

設計方案利用乘法器 MPY600 組成 | 2009-09-20

線性直流電壓乘法器(ICL8048、ICL8049)

設計方案線性直流電壓乘法器 ICL8048 ICL8049 | 2009-07-06

昨天做了個加法，乘法器

kkp | 2006-03-09

焦點

推薦視頻

技術專區(qū)

關閉

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();