解決DSP設(shè)計(jì)面臨的終極挑戰(zhàn)
時(shí)鐘樹(shù)(用于實(shí)現(xiàn)同步時(shí)鐘以觸發(fā)設(shè)計(jì)的線網(wǎng)和緩沖區(qū))會(huì)在其自身的觸發(fā)運(yùn)算過(guò)程中從芯片中吸收一些能量。在對(duì)最新的高速芯片中遍布的時(shí)鐘樹(shù)(通常數(shù)量較大)進(jìn)行充電和放電的過(guò)程中,也會(huì)消耗能量。此外,有些新一代 DSP 使用了速度更快的時(shí)鐘 (1GHz 或更高),這就需要耗能更多的更大的激勵(lì)器。如果要通過(guò)芯片和相關(guān)的時(shí)滯最小化時(shí)鐘傳播延遲,則需要更大的激勵(lì)器。這又導(dǎo)致消耗更多的能量。
用于降低能耗的時(shí)鐘樹(shù)門控
An unused module can be disabled anytime using an enable signal. Associated logic and clock trees contained in a disabled module will therefore stop consuming power.
可以使用激活信號(hào)隨時(shí)禁用未使用的模塊。被禁用的模塊中包含的相關(guān)邏輯和時(shí)鐘樹(shù)會(huì)因此停止消耗能量。
module0 is enabled
module0 已激活
module1 is enabled
module1 已激活
module2 is disabled
module2 被禁用
mclk is grounded
mclk 接地
MODULE0 (array of gates and flip-flops)
MODULE0(門和觸發(fā)器陣列)
MODULE1 (array of gates and flip-flops)
MODULE1(門和觸發(fā)器陣列)
MODULE2 (array of gates and flip-flops)
MODULE2(門和觸發(fā)器陣列)
設(shè)備設(shè)計(jì)人員可以通過(guò)組合以下成熟的技術(shù)來(lái)降低時(shí)鐘樹(shù)中的能耗:
單獨(dú)啟用時(shí)鐘的觸發(fā)器,可以在需要計(jì)時(shí)時(shí)限制觸發(fā)運(yùn)算的次數(shù)。
門控時(shí)鐘樹(shù),可以在不使用時(shí)動(dòng)態(tài)阻止對(duì)整個(gè)電路段計(jì)時(shí)。
多循環(huán)路徑設(shè)計(jì),可以減少電路中的觸發(fā)次數(shù)以及觸發(fā)的頻率。
在架構(gòu)上可行的情況下組合計(jì)算線路,從而讓一系列 的MAC 運(yùn)算可以在級(jí)聯(lián)組合電路而不是同步反饋電路中實(shí)現(xiàn)。借用多循環(huán)路徑技術(shù);這種方式可以極大地減少所用的觸發(fā)次數(shù)并降低觸發(fā)頻率。
最小化觸發(fā)器和電路的使用范圍,使用物理尺寸較小的時(shí)鐘樹(shù),從而縮小所需的激勵(lì)緩沖區(qū)。
最后,消除全部時(shí)鐘樹(shù)可以在提高性能的同時(shí)極大地降低能耗。無(wú)時(shí)鐘設(shè)計(jì)技術(shù)可以用在耗能最多的邏輯電路部分。思想超前的設(shè)計(jì)人員會(huì)積極地追隨上述解決方案。在解決性能和功率之間一直存在的沖突時(shí),無(wú)時(shí)鐘設(shè)計(jì)是效率最高、成本效益最好的方式。
邏輯切換優(yōu)化
邏輯切換在能耗方面發(fā)揮著重要的作用,因?yàn)檎w能耗都發(fā)生在邏輯切換狀態(tài)轉(zhuǎn)換的充電和放電過(guò)程中。可以采用以下成熟技術(shù)的組合來(lái)最大程度地減少邏輯轉(zhuǎn)換中的能耗。
優(yōu)化物理門:這種技術(shù)可以實(shí)現(xiàn)最大的能效指標(biāo)收益,對(duì)于較小的芯片尺寸技術(shù)更是如此。雖然其原理非常簡(jiǎn)單,但使用當(dāng)前的布局工具和方法來(lái)實(shí)現(xiàn)這種技術(shù)卻有一定難度;因?yàn)檫@些工具和方法原來(lái)的開(kāi)發(fā)目的是加快推出產(chǎn)品,犧牲性能來(lái)提高設(shè)計(jì)的水平和復(fù)雜度。
最終發(fā)明了物理門,可以使用某種抽象語(yǔ)言 (如 VHDL)來(lái)根據(jù)設(shè)計(jì)人員的功能目標(biāo)來(lái)創(chuàng)建芯片。這種技術(shù)既有優(yōu)點(diǎn)也有缺點(diǎn)。目前的標(biāo)準(zhǔn)方法是讓設(shè)計(jì)人員避開(kāi)物理實(shí)現(xiàn)方式的細(xì)節(jié),從而加快產(chǎn)品推出的速度。
這種技術(shù)的缺點(diǎn)是復(fù)雜芯片的設(shè)計(jì)人員無(wú)法控制其設(shè)計(jì),包括無(wú)法控制線路的長(zhǎng)度,從而可能極大地增加電路的總電容。在找出最佳的線路和電路設(shè)計(jì)方面,設(shè)計(jì)人員仍然優(yōu)于設(shè)計(jì)工具。如果使用成熟的技術(shù)并深入了解設(shè)計(jì)細(xì)節(jié),人腦的判斷仍然具有優(yōu)勢(shì)。設(shè)計(jì)人員還可以立即發(fā)現(xiàn)集成電路的細(xì)微變化可能成倍減少互連線路長(zhǎng)度的情況。事實(shí)上,記錄的信息顯示,有人干預(yù)的物理門技術(shù)可以將電路線路的平均長(zhǎng)度最高縮減一半(與傳統(tǒng)的最佳自動(dòng)后端工具中實(shí)現(xiàn)的相同設(shè)計(jì)相比)。而且,由于戰(zhàn)略性布線實(shí)現(xiàn)的電路集成度可以輕松地將硅使用率提高到 90% 以上。這意味著,與使用自動(dòng)后端工具的結(jié)果相比,硅使用率提高了大約 20%。
此外,與自動(dòng)布線和路由的設(shè)計(jì)相比,激勵(lì)這些極短線路的門通常尺寸較小,能耗也更低。因此,與自動(dòng)布線的同類設(shè)計(jì)相比,整個(gè)電路的尺寸更小,運(yùn)算速度更快,能耗也大幅降低。在 90 納米技術(shù)中僅使用低 HVT 邏輯元素時(shí),這種電路集成技術(shù)允許整個(gè)數(shù)據(jù)路徑引擎以 1.5-2GHz 的速度運(yùn)行,而其能耗與傳統(tǒng)設(shè)計(jì)的同類電路相比最多可降低 4 倍。
Design placed by conventional back-end tools: 70-80% silicon usage efficiencey
傳統(tǒng)后端工具布線的設(shè)計(jì):70-80% 的硅使用效率。
Designer Optimized circuit placement: 90% silicon usaged efficiency
經(jīng)過(guò)設(shè)計(jì)人員優(yōu)化的電路布線:90% 的硅使用效率。
Advantages of Optimized Placement: Circuit Compaction and Power Reduction.
優(yōu)化布線的優(yōu)勢(shì):電路集成度高,能耗降低。
The gates are illustrated in yellow, unused silicon is shown in purple.
門用黃色表示,未使用的硅用紫色表示。
優(yōu)化長(zhǎng)信號(hào)的線路:與其它高功率高速度的電路元素結(jié)合使用時(shí),長(zhǎng)信號(hào)線路可以顯著地提高性能。例如,數(shù)據(jù)總線可以使用長(zhǎng)路由并頻繁改變狀態(tài)。降低此類線路的整體電容可以極大地降低能耗,加快速度,并減少緩沖需求。但是,設(shè)計(jì)人員面臨的難題是:要通過(guò)加大間距布置長(zhǎng)信號(hào)來(lái)降低電容,同時(shí)仍要允許線路器關(guān)閉設(shè)計(jì)中密度極高的部分。其中的部分工具和方法包括:
消除對(duì)狀態(tài)進(jìn)行無(wú)益更改的電路:禁用其更改后的輸出不會(huì)被使用的任何電路。這可以通過(guò)使用時(shí)鐘門控實(shí)現(xiàn)。
減少高頻門的數(shù)量:PC 處理器芯片(如 Pentium™ 和其它處理器)已經(jīng)證明,提高功能要以增加能耗為代價(jià)。能耗的指數(shù)級(jí)增長(zhǎng)源于利用以下一種或多種技術(shù)提高電路的性能:
使用復(fù)雜度更高的電路(即使用超前加法器而不是并行加法器),則會(huì)占用更大的面積,消耗更多的能量;
使用較大的門、緩沖區(qū)和激勵(lì)器來(lái)加快切換速度,致使回報(bào)的逐漸減小。
通常,同等的性能可以通過(guò)使用更簡(jiǎn)單、速度更慢的電路實(shí)現(xiàn);這些電路以并行方式運(yùn)算,或者采用慢速的多循環(huán)路徑,這可以極大地降低能耗。但是,與人們預(yù)料的情形相反,此類電路通常占用的總體面積較小。事實(shí)上,即使以并行方式使用,它們的總布線量通常較少。這是因?yàn)?,從個(gè)體上看,與更快、更大、更耗能的大型電路相比,它們?cè)诿總€(gè)實(shí)例上所需的門數(shù)更少,門更小。
評(píng)論