行業大牛開啟新征程,芯片架構創新迎來新局面
本周,全球 IT 業最大的新聞非 OpenAI 聯合創始人山姆·奧特曼(Sam Altman)離開原公司、加入微軟莫屬。當然,這并不是終點。
本文引用地址:http://www.ex-cimer.com/article/202312/453557.htmSam Altman 被 OpenAI 董事會驅逐,被認為是技術派的勝利,因為另一名聯合創始人薩斯克維爾認為 Altman 商業化行動過于激進,存在很多安全隱患,因此,聯合其他三名外部董事驅逐了 Altman。
本文不關注 OpenAI 的「宮斗」大戲,無論 Altman 最終留在微軟,還是回歸 OpenAI,都不會影響他開創 AI 軟硬件新技術和市場的意愿,區別只是在哪里做而已。
據悉,在被解職之前,Altman 就在探尋新業務,曾試圖在中東籌集數十億美元用于人工智能(AI)芯片項目 Tigris,還想創建一家專注于 AI 芯片研發的公司,或許,這一項目已經被微軟拿下了。另外,Altman 還一直在尋求為一款 AI 硬件設備籌集資金,該設備是他與前蘋果設計總監 Jony Ive 共同開發的。
近些年,在 AI 發展方興未艾的大背景下,不甘于已經取得的「輝煌成績」,選擇開創新業務(從新創業或加盟一家富有活力的大公司)的行業大牛不止 Altman 一人,還有多位業界知名業界人士,特別是技術大牛,都選擇了再創業,因為他們無法抵擋 AI 發展的巨大潛力,要趁當下還處于「野蠻成長」的產業發展初級階段,爭取用先進的技術和產品,掌控未來競爭的主動權。在這些人當中,典型代表是 CPU 架構大神 Jim Keller 和 GPU 架構大神 Raja Koduri。
2020 年 6 月,Jim Keller 離開了工作兩年的英特爾,2021 年初,AI 芯片初創公司 Tenstorrent 宣布任命 Jim Keller 為公司總裁兼首席技術官,以及董事會成員。Tenstorrent 創立于 2016 年,旨在通過一種新方法和體系結構,研發新型 AI 處理器,以推動 AI 和機器學習的發展。近兩年,Tenstorrent 十分看重 RISC-V 的應用前景,認為其非常適合未來低功耗 AI 應用市場需求。
2023 年 3 月,Raja Koduri 離開了工作五年的英特爾,選擇創業。據 Koduri 透露,他的新創公司 Mihira AI 要打造新的生成式人工智能工具,這些工具可以在英特爾、AMD、蘋果等公司的芯片上運行,也可以在未來的 RISC-V 架構芯片上運行。
AI 系統和芯片需要改進
當下的 AI 服務器,多采用異構形式搭建,也就是在計算系統中,使用多種不同類型的處理器(CPU、GPU、FPGA、NPU 等),這樣可以增加計算速度和效率,以滿足不同工作負載的需求,因為 AI 工作負載通常需要大量的數值計算和并行運算。
傳統 CPU 在通用計算方面表現出色,但對于深度學習等需要大量矩陣計算的任務,效能就會不足,這時,將 GPU、TPU 等處理器組合其中,可以更好地滿足 AI 任務的需求,提供更高效的運算能力。
對于 AI 系統的這種異構需求,不同處理器廠商,特別是像 AMD 和英偉達這樣的傳統大廠,以及自研 AI 芯片的互聯網大廠,都有各自的解決方案,但不同方案雖然有各自優勢,但也存在這樣或那樣的缺點。
AMD 公司推出了 APU 概念和產品,它就是 CPU +GPU 的組合,其優點是可以充分發揮兩種處理器各自的優勢,互相彌補短板,也能在一定程度上減少功耗。不過,其 AI 訓練性能并不比獨立的 GPU 好。
為了滿足自家系統的需求,Google 自研了張量處理器 TPU(Tensor Processing Unit),它是一種 ASIC 處理器,與 CPU、GPU 和 APU 等通用處理器有很大區別,TPU 的專用性很強,針對機器學習和深度學習等 AI 應用進行了優化,專門用于加速 AI 的計算任務。不過,在 Google 的整個網絡系統當中,依然需要用到大量的通用 CPU 和 GPU,TPU 雖然很好用,但可用規模還是有限的。
可見,要不斷改善 AI 服務器系統性能,單一的通用或專用處理器都無法獨自解決問題,需要多種處理器配合工作才行,這就給新的 AI 芯片技術和產品發展提供了機會。
AI 系統的訓練和推理平衡水平需要改善。
目前,英偉達的 GPU 是 AI 訓練芯片市場的領導者,但這只占整個 AI 芯片需求的 20% 左右,推理芯片市場相當大,當下的 GPU 擅長 AI 訓練,而 CPU 擅長推理,二者在對方領域的局限性都很大。
在 AI 推理市場,除了數據中心和云計算,用戶對邊緣側(如手機、PC,以及機器人、工業系統和汽車等)的推理需求在快速增長。因此,AI 推理市場不僅很大,而且相當分散。在這種情況下,邊緣側 AI 推理芯片的市場規模非常大,而且具有極大的發展潛力。
蘋果公司的 iPhone 就是一個典型的例子,它在 A 系列處理器中集成了 AI 內核,目前,AI 功能已經占據了 A 系列處理器整體功能的 20%。近些年,多家公司也在采用類似于蘋果的 SoC AI 策略。
粗略計算,AI 芯片市場包括約 15% 的訓練,45% 的數據中心推理,以及 40% 的邊緣側推理。在這樣的市場背景下,一方面,各大處理器廠商正在提升 AI 訓練和推理能力的融合水平,另一方面,邊緣側推理市場的巨大發展空間給很多移動處理器廠商提供了拓展機會。
AI 系統和芯片的功耗也需要改善。
如上文所述,邊緣側推理市場巨大,而這些應用對低功耗要求很高。同時,數據中心和云計算系統的功耗高的嚇人,不可能無止境地增加下去,解決這一大應用領域的功耗問題也被越來越多的芯片和系統廠商所重視。
問題如何解決?
從上文介紹中可以看出,AI 系統和相關芯片還處于成長期,有很多問題需要解決,特別是 AI 訓練和推理芯片的功能融合、邊緣側 AI 推理,以及功耗問題,是各大廠商,以及初創企業共同關注的。
最近,英偉達推出的新 GPU 在 AI 訓練和推理融合能力方面就有很大進步,該公司表示,H100 芯片的升級產品 H200 集成了 141GB 的 HBM3e 內存,更加擅長推理,在用于推理或生成問題答案時,性能較 H100 提高了 60%-90%。英偉達表示,與 H100 相比,H200 在 Llama 2 這樣擁有 700 億參數大語言模型上的推理速度提升了近一倍。
在邊緣側推理方面,以蘋果為學習對象,傳統手機處理器廠商也在增加新產品的 AI 推理能力。以聯發科為例,該公司推出的天璣 8300 可支持生成式 AI,最高支持 100 億參數 AI 大語言模型。該芯片集成了生成式 AI 引擎,整數運算和浮點運算的性能是上一代的兩倍,支持 Transformer 算子加速和混合精度 INT4 量化技術,AI 綜合性能是上一代的 3.3 倍,可流暢運行終端側生成式 AI 的各種新應用。
在降低 AI 服務器功耗方面,初創企業和各大知名廠商投入的力度更大。
以上文提到的 Jim Keller 加入的 Tenstorrent 為例,該公司正在開發數據中心解決方案,核心產品是基于 RISC-V 架構的 AI/ML 加速器和通用處理器。之所以采用 RISC-V 指令集,很重要的一個原因就是其功耗低。
據悉,Tenstorrent 正在與日本新創晶圓廠 Rapidus 合作,開發基于 2nm 制程工藝的邊緣側 AI 處理器及相關 IP。從目前的 AI 系統市場需求,以及未來該領域對低功耗(數據中心、云和邊緣側都要求降低功耗)的要求來看,先進制程的未來發展前景依然值得期待,因為 3nm、2nm,甚至是 1nm 這樣的先進制程技術,就是要在不斷提升性能的同時,持續降低功耗。未來,先進制程工藝幾乎就是為 AI 芯片而生的。
對于開發 RISC-V 芯片和系統,半導體大國政府都很重視。美國政府已經下達了使用 RISC-V 處理器來模擬下一代稀疏性超級計算機的指示,歐盟也建立了一個基于 RISC-V 架構的本土加速器項目,稱為 EPAC。
除了新創企業,傳統大廠也在發展低功耗 AI 芯片方面不遺余力。
以微軟為例,該公司于近期推出了用于云端軟件服務的處理器 Cobalt,該芯片是基于 Arm 架構的通用處理器,同時,微軟還推出了另一款專用 AI 加速器 Maia 100,用于云端訓練和推理。這兩款芯片將于 2024 年導入該公司的 Azure 數據中心。微軟基于 Arm 架構研發芯片,很重要的一個原因就是其功耗比較低。
除了將 AI 訓練和推理融合,以及低功耗之外,現有架構芯片,特別是 CPU、GPU,在 AI 計算方面都存在局限性,因此,一些初創公司,以及傳統知名廠商還在探索新型架構的 AI 芯片,特別是在打破處理單元與內存之間的「通信墻「方面,下了很多功夫。
近些年,以 Groq、Cerebras、SambaNova、NextSilicon 等為代表的創業公司都在開發各自的新型 AI 加速器,目標是替代英偉達的 GPU。這些公司的產品多為 ASIC,也就是 AI 專用處理器,目前來看,這些新型處理器正在被美國能源部實驗室所采用,用于科學研究。同時,美國多家大學也對試用這些芯片持開放態度,例如,NCSA 正在與 SambaNova 合作開發芯片,Cerebras 的處理器已經用于 AI 訓練。
在創新架構處理器研發方面,大廠 IBM 一直都是業界的典型代表,AI 專用芯片方面同樣如此。最近,IBM 推出了一種新的原型芯片架構 NorthPole,可以使 AI 計算更快、更節能。NorthPole 是一款基于人腦計算通路進行神經推理的數字 AI 芯片,它采用了一種截然不同的設計方法,將所有內存都集成在了處理器芯片上,無需外掛 RAM,這使得該處理器能夠進行快速的 AI 推理。該芯片專為 AI 推理而設計,不需要復雜的冷卻系統。據悉,小巧靈活的 NorthPole 非常適合邊緣側 AI 應用。
以上介紹的都是各種 AI 處理器,是硬件。要使整個 AI 系統充分發揮效能,軟件工具的作用也很重要。如前文所述,GPU 架構大神 Raja Koduri 離開英特爾后,創建了新公司 Mihira AI,該公司研發的就是 AI 軟件工具。
據 Koduri 介紹,Mihira AI 的最底層是一個異構數據中心架構,涵蓋三類工作負載,分別是:用于渲染通用 CPU 計算;用于 AI 的異構加速器;用于游戲 GPU 工作負載。他說,未來的第四個集群可以針對低功耗 AI 推理進行優化。
從未來發展來看,Mihira AI 的目標很可能是替代英偉達的 CUDA,以及 AMD 的 ROCm 軟件生態系統。不過,目前它還處于發展初期,未來的道路十分艱辛。
結語
AI 系統、芯片和軟件市場發展潛力巨大,各種傳統和創新產品同臺競爭,隨著應用和市場的發展,未來具有很大的想象和操作空間。
正是看到了各種 AI 技術、產品和商業的發展可能性,越來越多的行業大牛依托創業公司,或依托各大知名廠商,開始了各種創新工作。
在本文截稿時,報道稱 Sam Altman 又回到了 OpenAI,繼續擔任 CEO。經過這一波操作,Altman 有望在 OpenAI 獲得更多的施展空間,其 AI 技術和商業拓展之路很可能會加速。
評論