<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 嵌入式系統(tǒng) > 設計應用 > 在基于 Arm Neoverse 的 AWS Graviton3 CPU 上實現(xiàn)出色性能

在基于 Arm Neoverse 的 AWS Graviton3 CPU 上實現(xiàn)出色性能

作者：時間：2024-08-13 來源：Arm

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

收藏

作者：Arm 基礎設施事業(yè)部數(shù)據(jù)中心解決方案架構師 Ravi Malhotra

本文引用地址：http://www.ex-cimer.com/article/202408/461975.htm

在過去一年里，生成式人工智能 (AI) 吸引了科技行業(yè)的目光，大家都在想方設法地將大語言模型 (LLM) 部署到其位于云端和邊緣側服務器上的應用中。雖然 GPU 和加速器憑借優(yōu)異的性能，一直是這些部署任務的默認首選平臺。但在推理領域，除了 GPU 和加速器之外，還有其他可行的選擇。長期以來，CPU 一直被用于傳統(tǒng)的 AI 和機器學習 (ML) 用例，由于 CPU 能夠處理廣泛多樣的任務且部署起來更加靈活，因此當企業(yè)和開發(fā)者尋求將 LLM 集成到產(chǎn)品和服務中時，CPU 成了熱門選擇。

本文將介紹基于 Arm Neoverse 的 AWS Graviton3 CPU 在規(guī)?；`活運行 Llama 3 ^[1]和 Phi-3 ^[2]等業(yè)內標準 LLM 方面的能力，并展示與其他基于 CPU 的服務器平臺相比的主要優(yōu)勢。

AWS Graviton3 上的 LLM 性能

為了展示基于 Arm 平臺的服務器 CPU 在 LLM 推理方面的能力，Arm 軟件團隊和我們的合作伙伴對 llama.cpp 中實現(xiàn)的 int4 和 int8 內核進行了優(yōu)化，以利用這些較新的指令 ^[3]。我們在 AWS Graviton3 平臺上進行了多次實驗，以測量不同場景下對性能的影響，并將影響因素隔離開。

所有實驗均在 AWS r7g.16xlarge 實例上進行，該實例帶有 64 個虛擬 CPU (vCPU) 和 512 GB 的內存。所用的模型是經(jīng)過 int4 量化的 Llama3-8B。

提示詞處理

提示詞詞元 (Token) 通常是并行處理的，即使對于單次操作 (batch=1)，也會使用所有可用核心。在這方面，經(jīng)過 Arm 優(yōu)化，每秒處理的詞元數(shù)提升了 2.5 倍；在處理更大的批次大小時，性能小幅提升。

圖：提示詞處理經(jīng)優(yōu)化得到提升

詞元生成

詞元生成以自回歸的方式進行，對于所需生成的輸出長度高度敏感。在這方面，經(jīng)過 Arm 優(yōu)化，吞吐量最多可提高兩倍，有助于處理更大的批次大小。

圖：詞元生成經(jīng)優(yōu)化得到提升

延遲

詞元生成的延遲對 LLM 的交互式部署非常重要。對于下個詞元響應時間 (time-to-next-token)，100ms 的延遲是關鍵的目標指標，這是基于人們每秒 5-10 個單詞的典型閱讀速度計算得出的。在下方圖表中，我們看到在單次操作和批量處理的場景下，AWS Graviton3 都能滿足 100ms 的延遲要求，因此適合于作為 LLM 的部署目標。

我們使用了兩組不同的模型 Llama3-8B 和 Phi-3-mini (3.8B)，以展示不同規(guī)模的 LLM 的延遲情況。

圖：AWS Graviton3 的下個詞元響應時間延遲情況

即使是在 2019 年推出的 AWS Graviton2 這樣的上一代 Arm 服務器平臺上，也能運行多達 80 億參數(shù)的新 LLM，并且在單次操作和批量處理的場景下，均能滿足 100ms 的延遲要求。

圖：AWS Graviton2 的下個詞元響應時間延遲情況

性能比較

此外，我們使用經(jīng)過 int4 量化的 Llama3-8B 模型，比較了它在 AWS Graviton3 與在 AWS 上其他新一代服務器 CPU 的性能。

AWS Graviton3：r7g.16xlarge，64 個 vCPU，512 GB 內存，3.43 美元/小時

第四代 Intel Xeon：r7i.16xlarge，64 個 vCPU，512 GB 內存，4.23 美元/小時

第四代 AMD EPYC：r7a.16xlarge，64 個 vCPU（SMT 關閉），512 GB 內存，4.87 美元/小時

我們發(fā)現(xiàn)，相較于其他兩款 CPU，在提示詞處理和詞元生成方面，AWS Graviton3 的性能高出三倍。

圖：提示詞處理比較

圖：詞元生成比較

同樣值得注意的是，AWS Graviton3 CPU 比第四代 x86 CPU 更具成本效益，這在 Graviton3 實例相對較低的定價中就有所體現(xiàn)。鑒于 LLM 對算力的要求已經(jīng)非常高，以單位價格詞元數(shù)量來計算總體擁有成本 (TCO)，是推動 LLM 在數(shù)據(jù)中心內廣泛采用的關鍵。

在這一點上，AWS Graviton3 擁有顯著優(yōu)勢，每美元詞元數(shù)量最高多了三倍，不僅在 CPU 中處于領先，也為希望在采用 LLM 的過程中逐步擴大規(guī)模的用戶提供了令人信服的優(yōu)勢。

圖：LLM 推理的 TCO 比較

結論

當開發(fā)者想要在其應用中部署專用 LLM 時，服務器 CPU 為開發(fā)者提供了靈活、經(jīng)濟和簡化的起點。Arm 新增了幾項關鍵特性，有助于顯著提升 LLM 的性能。得益于此，基于 Arm Neoverse 的服務器處理器（如 AWS Graviton3）不僅能提供優(yōu)于其他服務器 CPU 的 LLM 性能，還能為更多應用開發(fā)者降低采用 LLM 的門檻。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關鍵詞： Arm AWS

評論

相關推薦

最新ARM技術和嵌入式技術發(fā)展動態(tài) 中

視頻 ARM 嵌入式 | 2009-10-22

Armv9 技術講堂 | SME 指令介紹

嵌入式系統(tǒng) Arm SME | 2024-08-13

在基于 Arm Neoverse 的 AWS Graviton3 CPU 上實現(xiàn)出色性能

嵌入式系統(tǒng) Arm AWS | 2024-08-13

KEA: Kinetis KEA - 面向工業(yè)控制和運輸行業(yè)的超可靠5V MCU

設計方案汽車 ARM | 2015-01-09

今日上傳e-ARM全部文檔至本站下載區(qū)

Gao | 2002-07-05

ARM開發(fā)詳解

資源下載 ARM 開發(fā)資料 ADS仿真 | 2007-12-02

基于ARM/DSP 的高性能驅動方案

設計方案變頻控制 ARM/DSP | 2014-12-26

Arm 旗下熱門開源嵌入式操作系統(tǒng) Mbed OS 將于 2026 年 7 月結束官方維護

嵌入式系統(tǒng) Arm Mbed OS 操作系統(tǒng) | 2024-07-17

“當TDC-GP22遇到ARM CortexM3” ——世強專家解讀智能超聲波水表的技術創(chuàng)新趨勢

設計方案超低功耗超聲波水表 TDC-GP22 ARM | 2014-12-22

ARM嵌入式系統(tǒng)開發(fā)：軟件設計與優(yōu)化

資源下載 ARM 軟件設計優(yōu)化 ARM處理器 | 2007-12-03

本站成立e-ARM開發(fā)工作室！

Gao | 2002-06-26

RTL8201L缺貨，xiaohua，E-ARM你們買得到嗎？

★被水淹死的魚★ | 2002-08-01

arm學習資料

資源下載 ARM 基礎編程調試開發(fā) ARM7 | 2007-12-03

咱們的e-Arm進行的咋樣了？板子畫了嗎？

seasoblue | 2002-07-09

Arm 推出精銳超級分辨率技術

消費電子 Arm 超級分辨率 | 2024-07-17

e-ARM的PCB板已經(jīng)做好，s3c4510b很快買到

Gao | 2002-07-25

ARM嵌入式系統(tǒng)開發(fā)

資源下載 ARM ARM 嵌入式系統(tǒng)開發(fā) | 2007-12-03

Helium 技術講堂 | 循環(huán)緩沖區(qū)的使用

嵌入式系統(tǒng) Arm 循環(huán)緩沖區(qū) | 2024-08-13

通過 Arm Total Access 方案構建基于 Arm 技術的智能未來

嵌入式系統(tǒng) Arm | 2024-08-13

大咖觀點 | 在大模型時代推動智能視覺技術的發(fā)展

智能計算 Arm 大模型智能視覺 | 2024-08-13

X86架構與Arm架構區(qū)別

嵌入式系統(tǒng) Arm x86 CISC RISC | 2024-08-08

WinCE+ARM開發(fā)及關鍵技術上

視頻嵌入式 ARM WinCE | 2009-10-22

大咖觀點 | AI 大模型邁向多模態(tài)，助力具身智能與機器人實現(xiàn)創(chuàng)新

Arm AI 機器人 | 2024-07-17

基于ARM-Linux的MiniGUI的仿真與移植

設計方案基于 ARM-Linux MiniGUI 仿真移植 | 2011-07-13

WinCE+ARM開發(fā)及關鍵技術下

視頻嵌入式 ARM WinCE | 2009-10-22

基于 Arm Cortex-R82AE 簡化高性能區(qū)域控制器的軟件開發(fā)

嵌入式系統(tǒng) Arm Cortex-R82AE | 2024-08-13

最新ARM技術和嵌入式技術發(fā)展動態(tài) 下

視頻 ARM 嵌入式 | 2009-10-22

Cyclone V SoC開發(fā)套件和SoC嵌入式設計套裝

設計方案 Altera FPGA ARM 嵌入式 Cyclone | 2014-05-20

ARM嵌入式軟件編程經(jīng)驗談

資源下載 ARM 編程經(jīng)驗 ARM嵌入式軟件 | 2007-11-29

ARM 展示小型低功耗上網(wǎng)本樣品

視頻 ARM netbook | 2009-03-16

焦點

推薦視頻

技術專區(qū)

關閉

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();