四篇技術論文,英特爾在Hot Chips 2024大會上展示AI架構新進展
近日,在2024年Hot Chips大會上,英特爾展示了其技術的全面與深度,涵蓋了從數(shù)據(jù)中心、云、網(wǎng)絡和邊緣到PC的各個領域AI用例,并介紹了其業(yè)界領先且完全集成的OCI(光學計算互連)芯粒,可用于高速AI數(shù)據(jù)處理。此外,英特爾還披露了關于英特爾? 至強? 6系統(tǒng)集成芯片(代號Granite Rapids-D)的最新細節(jié),該產(chǎn)品預計將于2025年上半年發(fā)布。
本文引用地址:http://www.ex-cimer.com/article/202408/462423.htm英特爾網(wǎng)絡與邊緣事業(yè)部首席技術官Pere Monclus表示:“針對各種消費和企業(yè)級AI的應用場景,英特爾不斷提供其創(chuàng)新所需的平臺、系統(tǒng)和技術。隨著AI工作負載不斷增長,英特爾廣泛的行業(yè)經(jīng)驗使我們能夠了解客戶的真正需求,以此推動創(chuàng)新、創(chuàng)意和理想商業(yè)成果落地。盡管性能更高的芯片和更高的平臺帶寬至關重要,但英特爾深知每種工作負載都有其獨特的挑戰(zhàn)。因此,為數(shù)據(jù)中心設計的系統(tǒng)不能簡單地被重新應用于邊緣。英特爾在所有計算系統(tǒng)架構方面所擁有的經(jīng)過驗證的專業(yè)知識,將更好地為下一代AI創(chuàng)新提供動力。”
在Hot Chips 2024大會上,英特爾發(fā)表了四篇技術論文,重點介紹了英特爾? 至強? 6系統(tǒng)集成芯片、Lunar Lake客戶端處理器、英特爾? Gaudi 3 AI加速器以及OCI(光學計算互連)芯粒。
為邊緣而生:下一代英特爾? 至強? 6系統(tǒng)集成芯片
英特爾院士、網(wǎng)絡與邊緣芯片架構師Praveen Mosur公布了英特爾? 至強? 6系統(tǒng)集成芯片設計的最新細節(jié),以及它如何能夠解決邊緣使用場景中存在的特定挑戰(zhàn),例如網(wǎng)絡連接的不穩(wěn)定以及有限的空間和電力。得益于從全球超過9萬次1邊緣部署中獲得的經(jīng)驗,英特爾? 至強? 6系統(tǒng)集成芯片將成為英特爾迄今為止針對邊緣場景優(yōu)化程度最高的處理器。通過從邊緣設備擴展到邊緣節(jié)點使用單一系統(tǒng)架構和集成AI加速能力,企業(yè)可以更輕松、高效、安全地管理從數(shù)據(jù)攝取到推理的整個AI工作流程,從而幫助改善決策、提高自動化水平,并為其客戶創(chuàng)造價值。
英特爾? 至強? 6系統(tǒng)集成芯片結(jié)合了英特爾? 至強? 6處理器的計算芯粒,以及采用了Intel 4制程工藝的針對邊緣進行了優(yōu)化的I/O芯粒,使該系統(tǒng)集成芯片在性能、能效和晶體管密度方面與前代系統(tǒng)集成芯片相比獲得了顯著提升。英特爾? 至強? 6系統(tǒng)集成芯片的其它特性還包括:
● 支持高達32條PCI Express(PCIe)5.0通道。
● 支持多達16條Compute Express Link(CXL)2.0通道。
● 擁有2x100G以太網(wǎng)。
● 在兼容的BGA封裝中提供4個或8個內(nèi)存通道。
● 擁有專為邊緣環(huán)境優(yōu)化的特性,包括更大的運行溫度范圍和工業(yè)級可靠性,使其成為高性能耐用設備的理想選擇。
英特爾? 至強? 6系統(tǒng)集成芯片還包括了用于提高邊緣和網(wǎng)絡工作負載的性能和效率的功能特性,包括:新的媒體加速功能,可增強實時OTT、點播(VOD)和廣播媒體的視頻轉(zhuǎn)碼和分析;英特爾? 高級矢量擴展和英特爾? 高級矩陣擴展(英特爾? AMX),可提高推理性能;英特爾? 快速輔助技術(英特爾?QAT),可實現(xiàn)能效更高的網(wǎng)絡和存儲性能;英特爾? vRAN Boost,可降低虛擬化RAN的功耗;以及支持英特爾?Tiber? 邊緣平臺,該平臺使用戶能夠在標準硬件上構建、部署、運行、管理和擴展邊緣和AI解決方案,具有類似云的簡潔性。
Lunar Lake:驅(qū)動下一代AI PC
英特爾客戶端CPU SoC首席架構師Arik Gihon討論了Lunar Lake客戶端處理器,以及它如何為x86架構的能效樹立新標桿,同時提供出色的核心、圖形和客戶端AI性能。新的性能核(P核)和能效核(E核)所提供的出色性能,使SoC的功耗相比上一代最多降低了40%。新的神經(jīng)網(wǎng)絡處理單元(NPU)速度提升多達4倍,與上一代相比,使生成式AI能力也獲得了相應提升。此外,與前代產(chǎn)品相比,全新的Xe2圖形處理單元核心將游戲和圖形性能提高了1.5倍。
即將于9月3日舉行的英特爾酷睿Ultra發(fā)布會將公布有關Lunar Lake的更多細節(jié)。
英特爾? Gaudi 3 AI加速器:針對生成式AI的訓練和推理而設計
AI加速器首席架構師Roman Kaplan指出,生成式AI模型的訓練與部署對算力提出了極為嚴苛的要求。隨著系統(tǒng)規(guī)模從單節(jié)點擴展至數(shù)千節(jié)點的龐大集群,這使得成本與能效也迎來巨大挑戰(zhàn)。
英特爾? Gaudi 3 AI加速器能夠有效應對上述挑戰(zhàn)。該加速器通過創(chuàng)新的架構——優(yōu)化的計算、內(nèi)存和網(wǎng)絡架構,高能效矩陣乘法引擎、兩級緩存集成,以及廣泛的RoCE網(wǎng)絡(以太網(wǎng)融合RDMA技術)等策略,使得Gaudi 3 AI加速器能夠?qū)崿F(xiàn)卓越的性能與能效,助力AI數(shù)據(jù)中心以低成本、可持續(xù)的方式運行,并解決了部署生成式AI工作負載時的擴展性問題。
英特爾將在今年9月分享Gaudi 3 AI加速器和未來英特爾至強6產(chǎn)品的更多信息。
傳輸速度高達4 Tbps的光學計算互連(OCI)芯粒,用于XPU之間的連接
英特爾硅光集成解決方案(IPS)團隊展示了業(yè)界領先、完全集成的OCI芯粒與英特爾CPU封裝在一起時,運行真實數(shù)據(jù)的情況。
硅光集成解決方案事業(yè)部光子芯片架構師Saeed Fathololoumi介紹了這一OCI芯粒及其設計。該芯粒可在最長可達100米的光纖上,單向支持64個32 Gbps通道。Fathololoumi還討論了該芯粒如何滿足AI基礎設施對更高帶寬、更低功耗和更長傳輸距離日益增長的需求。英特爾的OCI芯粒推動了高帶寬互連技術的進步,將有助于實現(xiàn)可擴展的CPU和GPU集群連接以及新型計算架構,包括新興AI基礎設施中的一致性內(nèi)存擴展及資源解耦,適用于數(shù)據(jù)中心和HPC(高性能計算)應用。
AI讓企業(yè)和消費者有機會更快地推進創(chuàng)新。例如,消費者現(xiàn)在可以選擇AI PC,通過智能化功能提高效率、創(chuàng)造力、游戲和娛樂體驗以及安全性,而企業(yè)則可以利用強大的邊緣計算和AI來改善決策,提高自動化水平,并從專有數(shù)據(jù)中獲取價值。
在Hot Chips 2024的深度技術研討會上,英特爾的不同產(chǎn)品團隊還展現(xiàn)了獨到的技術洞見,以共同推動下一代AI技術的市場化進程。
免責聲明:
性能因使用方式、配置和其他細節(jié)而異。
1 英特爾內(nèi)部數(shù)據(jù)。
評論