<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計應(yīng)用 > 浮點矩陣相乘IP核并行改進(jìn)的設(shè)計與實現(xiàn)

          浮點矩陣相乘IP核并行改進(jìn)的設(shè)計與實現(xiàn)

          作者: 時間:2017-06-05 來源:網(wǎng)絡(luò) 收藏

          嵌入式計算作為新一代計算系統(tǒng)的高效運行方式,應(yīng)用于多個高性能領(lǐng)域,如陣列信號處理、核武器模擬、計算流體動力學(xué)等。在這些科學(xué)計算中,需要大量的。而目前已實現(xiàn)的是直接使用VHDL語言編寫的浮點矩陣相乘處理單元[1],其關(guān)鍵技術(shù)是乘累加單元的設(shè)計,這樣設(shè)計的硬件,其性能依賴于設(shè)計者的編程水平。此外,F(xiàn)PGA廠商也推出了一定規(guī)模的[2],雖然此應(yīng)用了本廠家的器件,并經(jīng)過專業(yè)調(diào)試和硬件實測,性能穩(wěn)定且優(yōu)于手寫代碼,但仍可對其進(jìn)行改進(jìn),以進(jìn)一步提高運算速度。

          1 Altera浮點矩陣相乘原理

          Altera公司推出的浮點矩陣相乘IP核ALTFP_MATRIX_MULT,是在Quartus軟件9.1版本以上的環(huán)境中使用,能夠進(jìn)行一定規(guī)模的浮點矩陣相乘運算,包含A、B矩陣數(shù)據(jù)輸入,數(shù)據(jù)浮點乘加,數(shù)據(jù)緩存及相加輸出四大部分。其中最能體現(xiàn)浮點計算性能的是浮點乘加部分,而周圍的控制電路及輸出則影響到系統(tǒng)的最高時鐘頻率,間接地影響系統(tǒng)整體性能。

          整個矩陣相乘電路原理是將輸入的單路數(shù)據(jù)(A、B矩陣共用數(shù)據(jù)線),通過控制器產(chǎn)生A、B矩陣地址信號,控制著A矩陣數(shù)據(jù)輸出和B矩陣數(shù)據(jù)輸出,并將數(shù)據(jù)并行分段輸出到浮點乘加模塊進(jìn)行乘加運算,之后串行輸出到一個緩存器模塊中,再以并行方式輸出到浮點相加模塊,最后獲得計算結(jié)果。從其原理可以看出,在數(shù)據(jù)輸入輸出方面仍有許多可改進(jìn)的地方。

          2 IP核存在的缺陷及改進(jìn)

          2.1 存在缺陷

          (1)輸入數(shù)據(jù)帶寬的不均衡性。在矩陣A、B的數(shù)據(jù)輸入時,Altera的IP核將A矩陣數(shù)據(jù)存于M144K的Block RAM中,而將B矩陣數(shù)據(jù)存于M9K的Block RAM中,導(dǎo)致IP核中A矩陣數(shù)據(jù)的帶寬小于B矩陣數(shù)據(jù)的帶寬,并需要一定數(shù)量的寄存器組使A矩陣數(shù)據(jù)帶寬能夠匹配于B矩陣數(shù)據(jù)帶寬。由此可見,A、B矩陣數(shù)據(jù)的存儲受到器件限制和存儲約束,同時由于在浮點乘加模塊的輸入端(A、B矩陣數(shù)據(jù))帶寬不同,造成A矩陣數(shù)據(jù)的輸入需要額外的處理時間。

          (2)加載數(shù)據(jù)的不連貫性。在矩陣數(shù)據(jù)加載時,IP核通過將數(shù)據(jù)分段成等分的幾部分,用于向量相乘。由于矩陣A存儲帶寬窄需要4步寄存(由Blocks決定),在第3個周期時才加載數(shù)據(jù)B用于計算,送到一個FIFO中存儲;在第6個時鐘周期時加載矩陣A分段的第二部分進(jìn)行各自的第二部分計算,最后當(dāng)計算到第15個周期時,才可通過浮點相加,計算出矩陣C的第一個值,之后計算出矩陣C的其他值C11。從上述結(jié)構(gòu)可見,在分段相乘之后,采用先對一個FIFO進(jìn)行存儲,存滿后再對下一個數(shù)據(jù)FIFO進(jìn)行存儲,造成時間上浪費過多。

          2.2 設(shè)計改進(jìn)

          鑒于上述缺陷,在輸入A、B矩陣的上,進(jìn)行串行輸入到并行輸入的改進(jìn),使得兩個矩陣能同步輸入到浮點乘加模塊。在數(shù)據(jù)加載方式上,將A矩陣用3個周期加載完畢,再處理相乘運算;將分段相乘結(jié)果進(jìn)行直接存儲相加,獲得C矩陣的第一個值,縮減運算時間。設(shè)計的改進(jìn)框圖如圖1所示。

          浮點矩陣相乘IP核并行改進(jìn)的設(shè)計與實現(xiàn).pdf

          本文引用地址:http://www.ex-cimer.com/article/201706/348878.htm


          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();