移動處理器發(fā)展新方向,整合更多的GPU將成為主流?
高階行動裝置對多媒體等視覺體驗的要求愈來愈高,促使行動處理器開發(fā)商大舉整合更多GPU核心,期借助平行運算能力,分散CPU運算負擔(dān),進而強化繪圖與視覺表現(xiàn)。
本文引用地址:http://www.ex-cimer.com/article/241702.htm在全球消費性市場中,智慧手機與平板裝置無疑是最熱門的產(chǎn)品,根據(jù)顧能(Gartner)所發(fā)布的最新預(yù)測指出,2013年手機出貨量將超過十八億支,較2012年成長3.7%;平板的出貨量將上看一億八千四百萬臺,成長42.7%,呈現(xiàn)高速增長態(tài)勢。
尤其值得關(guān)注的是高階行動裝置產(chǎn)品更不斷推陳出新,給用戶的視覺性應(yīng)用體驗已接近個人電腦(PC)、電視等級,即可提供豐富、流暢的二維(2D)或三維(3D)使用者繪圖介面(GUI)、視網(wǎng)膜(Retina)級的高畫質(zhì)、快速的網(wǎng)頁呈現(xiàn)及攝影功能,以及更逼真的3D游戲等。
在一臺小小的行動裝置上要達到這些使用體驗,對于開發(fā)者而言,設(shè)計門檻已愈來愈高。以3D游戲為例,要讓行動裝置達到與PC、電視同級的游戲體驗,須提升的視覺效果包括實體表現(xiàn)、動態(tài)照明、高動態(tài)范圍材質(zhì)(HDR Texture)、先進陰影效果、幾何細節(jié)、次表面散射(Subsurface Scattering),以及動態(tài)反射(Dynamic Reflection)等。
所幸,最關(guān)鍵的行動處理器架構(gòu)不斷升級,除出現(xiàn)整合中央處理器(CPU)和繪圖處理器(GPU)的異質(zhì)多核心架構(gòu)外,GPU的數(shù)量及處理能力也大幅提升,成為實現(xiàn)流暢、長時效視覺體驗的最大功臣。以下將剖析先進GPU在架構(gòu)上的變化與最新進展。
實現(xiàn)更酷炫繪圖功能 異質(zhì)多核心SoC勢不可當(dāng)
愈來愈多中高階行動裝置配置四核心CPU的行動處理器,以輝達(NVIDIA)的Tegra系列來說,自Tegra 3開始,就已進入4+1的多核心架構(gòu),即四顆效能核心加一顆省電核心,而最新一代的Tegra 4,同樣采用4+1的多核心架構(gòu),但處理器核心從前代的Cortex-A9提升為Cortex-A15;至于Tegra 4i則仍采用Cortex-A9(r4)CPU。
雖然CPU的數(shù)目愈多,意味著處理效能也跟著提升,但因CPU的序列處理特性,愈多核心意味著應(yīng)用程式撰寫亦愈困難;相較之下,由于GPU具備平行處理特性,能以近線性化來擴充效能,因此增加GPU數(shù)目所提升的效益,會比CPU顯著許多。
在此情況下,整合CPU與GPU的異質(zhì)多核心架構(gòu),就成了必然之勢。而當(dāng)GPU核心更多,也讓開發(fā)者有更大空間和彈性去做出更酷的繪圖效果、更細膩的細節(jié)表現(xiàn)及更生動的情境塑造,讓行動視覺與游戲的體驗大幅提升。
Tegra 4的GPU子系統(tǒng)就是很好的例子,它從前代的十二顆GeForce GPU核心,一舉提高到七十二顆,六倍的核心數(shù)也帶來六倍于Tegra 3的繪圖效能。Tegra 4及Tegra 3在GPU效能表現(xiàn)上的差異,請參考表1。在系統(tǒng)配置上,其架構(gòu)中有所謂的頂點著色器(Vertex Shader)和畫素著色器(Pixel Shader);前者讓工程師可自訂場景(Scene)中頂點的轉(zhuǎn)換過程,后者則是用來控制畫面上每個畫素的著色計算。
更進一步來看,Tegra 4的作法是將七十二顆GeForce核心拆分為二十四顆Vertex Shader與四十八顆Pixel Shader。其中每四顆Vertex Shader組成一組頂點處理引擎(Vertex Processing Engine, VPE),所以有六顆VPE,分別具有16KB、96-entry快取記憶體,能夠有效降低向外部晶片存取資料的需求。在相同時脈下,新的GeForce核心可以帶來1.5倍于Tegra 3的效能,而前后代Vertex Shader數(shù)量相差六倍,相乘之下差距達九倍之多。 此外,Tegar 4總共具有四組畫素管線(Pixel Fragment Shader Pipeline),每組畫素管線可細分為三組算術(shù)邏輯單元(ALU),每個ALU則是由四顆GeForce核心(即Pixel Shader)組成。在實際運作時,會以ALU做為最小層級的單元,并稱為多功能處理單元(Multi-Function Unit, MFU),因此Tegar 4總共具有十二組MFU,MFU可執(zhí)行函數(shù)、三角函數(shù)、對數(shù)、倒數(shù)、平方根及MOV等指令(組合語言中的復(fù)制)(圖1、2)。
圖1 Tegra4的邏輯性繪圖處理管線流程圖
圖2 Tegra 4的GPU架構(gòu)方塊圖 降低多核心SoC耗電量 架構(gòu)設(shè)計擔(dān)當(dāng)重任
對于行動裝置而言,電池的使用壽命與效能/功能表現(xiàn)占有同樣重要的地位。同樣是四核心行動晶片,因個別架構(gòu)不同,往往也有不同的效能與功耗表現(xiàn)。以Tegra 4來說,除采用安謀國際(ARM)最先進的CPU核心外,透過可變對稱式多重處理(vSMP)架構(gòu),可依照使用需求進行調(diào)配,讓四顆效能核心發(fā)揮最大處理能力,并可視工作量,分別自動啟用及停用各顆核心,以大幅節(jié)省電力。
為了提升續(xù)航力,Tegra 4延續(xù)Tegra 3的省電概念,在晶片中加入第五顆處理器核心,不過名稱從協(xié)同核心(Companion Core)改為省電核心(Battery Saver Core)。當(dāng)裝置處于背景處理郵件、社交軟體同步,或是播放影片、音樂等低效能需求情境時,系統(tǒng)將關(guān)閉效能核心,并使用省電核心負責(zé)執(zhí)行程式。
就晶片設(shè)計觀之,多核心處理器必定會面臨記憶體頻寬和整體系統(tǒng)功率的重大瓶頸,為了因應(yīng)此議題,Tegra 4提出雙通道(2x32位元)的記憶體子系統(tǒng)作法。此外,為減少對晶片外記憶體的存取使用需求,Tegra 4的GPU架構(gòu)中規(guī)畫頂點、畫素、材質(zhì)(Texture)專用的快取記憶體,讓運算任務(wù)盡量在晶片內(nèi)部完成,以提升處理效益和降低功耗。
另一個降低系統(tǒng)單晶片(SoC)功耗的重要策略,就是采用先進的電源管理技術(shù)。以Tegra 4來說,即采用多層級時脈閘控(Multiple Levels of Clock Gating)、顯示要求群組(Display Request Groupig)、動態(tài)電壓與頻率調(diào)節(jié)(DVFS)等多種電源管理技術(shù),針對不同使用情境將電源需求降至最低。
運算型攝影架構(gòu)助力 行動裝置影像效能升級
再從應(yīng)用端來看GPU架構(gòu)的發(fā)展,今日的使用者非常仰賴行動裝置來進行照相和和錄影功能,且希望達到專業(yè)級的效果。不過,相較于相機,手機或平板裝置在先天性上就難以配置太大的鏡頭,這時想得到高品質(zhì)的影像,就得靠更先進的影像處理技術(shù),甚至是運用電腦演算法來創(chuàng)造影像。
評論