存力與算力,AI時(shí)代誰(shuí)主沉???
在 2024 年的今天,人工智能已經(jīng)滲透到各個(gè)領(lǐng)域,從醫(yī)療診斷到智能交通,從金融分析到智能家居,AI 技術(shù)的發(fā)展正以前所未有的速度改變著我們的生活和工作方式。
本文引用地址:http://www.ex-cimer.com/article/202410/463418.htm這一背景下,算力和存力成為了支撐人工智能發(fā)展的兩大關(guān)鍵要素。究竟算力與存力誰(shuí)更重要,成為了一個(gè)備受關(guān)注的問題。
何為算力與存力?
算力,顧名思義,是指計(jì)算能力。
算力是數(shù)字時(shí)代的核心驅(qū)動(dòng)力之一。隨著人工智能、大數(shù)據(jù)等技術(shù)的不斷進(jìn)步,算力的需求呈現(xiàn)出爆炸式增長(zhǎng)。從云端的大規(guī)模數(shù)據(jù)處理到邊緣設(shè)備的實(shí)時(shí)計(jì)算,算力的提升使得我們能夠更快地處理數(shù)據(jù)、更準(zhǔn)確地模擬復(fù)雜現(xiàn)象。
存力即數(shù)據(jù)存儲(chǔ)能力。海量的數(shù)據(jù)需要安全、可靠的存儲(chǔ)空間,而存力就是提供這一空間的關(guān)鍵。大數(shù)據(jù)、云存儲(chǔ)、區(qū)塊鏈等技術(shù)的發(fā)展,使得數(shù)據(jù)的存儲(chǔ)和管理變得更加高效。同時(shí),隨著數(shù)據(jù)價(jià)值的不斷提升,存力的重要性也日益凸顯。強(qiáng)大的存力不僅可以保證數(shù)據(jù)的安全性和可靠性,還能夠?yàn)閿?shù)據(jù)分析和挖掘提供堅(jiān)實(shí)的基礎(chǔ)。
除了算力與存力,還有「一力」與這二者并稱為「數(shù)據(jù)時(shí)代的三把利劍」,即運(yùn)載力,簡(jiǎn)稱運(yùn)力。
運(yùn)力是信息傳遞的關(guān)鍵。在數(shù)字世界中,數(shù)據(jù)的快速傳輸和高效共享至關(guān)重要。高速的網(wǎng)絡(luò)連接、穩(wěn)定的帶寬以及低延遲的通信,這些都是運(yùn)力的體現(xiàn)。
去年,工信部等六部門聯(lián)合印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》,提出到 2025 年,計(jì)算力方面,算力規(guī)模超過 300EFLOPS,智能算力占比達(dá)到 35%,東西部算力平衡協(xié)調(diào)發(fā)展。運(yùn)載力方面,國(guó)家樞紐節(jié)點(diǎn)數(shù)據(jù)中心集群間基本實(shí)現(xiàn)不高于理論時(shí)延 1.5 倍的直連網(wǎng)絡(luò)傳輸,重點(diǎn)應(yīng)用場(chǎng)所光傳送網(wǎng)(OTN)覆蓋率達(dá)到 80%,骨干網(wǎng)、城域網(wǎng)全面支持 IPv6,SRv6 等創(chuàng)新技術(shù)使用占比達(dá)到 40%。存儲(chǔ)力方面,存儲(chǔ)總量超過 1800EB,先進(jìn)存儲(chǔ)容量占比達(dá)到 30% 以上,重點(diǎn)行業(yè)核心數(shù)據(jù)、重要數(shù)據(jù)災(zāi)備覆蓋率達(dá)到 100%。
算力、存力與運(yùn)力皆舉足輕重,而要論誰(shuí)最重要,恐怕多數(shù)人都會(huì)覺得是算力。
畢竟,「算力緊缺」的氣氛常常被渲染起來。
爭(zhēng)搶 GPU,以期獲得更多算力
那么,如何獲取更多的算力呢?當(dāng)下,主流的途徑是通過堆積算力芯片來實(shí)現(xiàn),包括 CPU、GPU、FPGA、ASIC 等,其中 GPU 的應(yīng)用最為廣泛。
在 AI 大火之際,科技巨頭們紛紛投身于一場(chǎng)激烈的 GPU 爭(zhēng)奪戰(zhàn)中。值得注意的是,由于單卡算力相對(duì)有限,為了縮短訓(xùn)練時(shí)間,通常采用分布式訓(xùn)練技術(shù),通過多臺(tái)節(jié)點(diǎn)構(gòu)建出一個(gè)計(jì)算能力和顯存能力超大的集群。從建設(shè)進(jìn)度上看海外頭部廠商在 2022 年、2023 年已經(jīng)完成萬(wàn)卡集群搭建,國(guó)內(nèi)頭部互聯(lián)網(wǎng)廠商和電信運(yùn)營(yíng)商也加速萬(wàn)卡集群建設(shè)布局。
2023 年 5 月,谷歌推出的 AI 超級(jí)計(jì)算機(jī) A3,搭載了約 26000 塊英偉達(dá) H100 GPU。
在 2022 年,META宣布了一個(gè)由 1.6 萬(wàn)塊英偉達(dá) A100 GPU 組成的集群。到了 2024 年初,META 進(jìn)一步擴(kuò)大規(guī)模,建成了兩個(gè)各含 24576 塊 GPU 的集群,并設(shè)定了宏偉目標(biāo):到 2024 年底,構(gòu)建一個(gè)包含 35 萬(wàn)塊英偉達(dá) H100 GPU 的龐大基礎(chǔ)設(shè)施。
2023 年 8 月,特斯拉上線了一個(gè)集成 1 萬(wàn)塊英偉達(dá) H100 GPU 的集群。
亞馬遜的 Amazon EC2 Ultra 集群采用了 2 萬(wàn)個(gè) H100 TensorCore GPU。
騰訊推出的星脈高性能網(wǎng)絡(luò),能夠支持高達(dá) 10 萬(wàn)卡 GPU 的超大規(guī)模計(jì)算,網(wǎng)絡(luò)帶寬高達(dá) 3.2T。
字節(jié)跳動(dòng)提出的 MegaScale 生產(chǎn)系統(tǒng),支撐 12288 卡 Ampere 架構(gòu)訓(xùn)練集群。中國(guó)移動(dòng)計(jì)劃今年商用哈爾濱、呼和浩特、貴陽(yáng)三個(gè)自主可控的萬(wàn)卡集群,總規(guī)模接近 6 萬(wàn)張 GPU 卡。
中國(guó)電信計(jì)劃在 2024 年上半年在上海規(guī)劃建設(shè)一個(gè)達(dá)到 15000 卡、總計(jì)算力超過 4500P 的國(guó)產(chǎn)萬(wàn)卡算力池,這將是國(guó)內(nèi)首個(gè)超大規(guī)模國(guó)產(chǎn)算力液冷集群。2024 年 3 月,天翼云上海臨港國(guó)產(chǎn)萬(wàn)卡算力池已正式啟用。
中國(guó)聯(lián)通計(jì)劃在今年內(nèi),在上海臨港國(guó)際云數(shù)據(jù)中心建成中國(guó)聯(lián)通首個(gè)萬(wàn)卡集群,這一集群的建成,將為中國(guó)聯(lián)通在數(shù)據(jù)中心和云計(jì)算市場(chǎng)提供新的競(jìng)爭(zhēng)優(yōu)勢(shì)??梢钥吹?,萬(wàn)卡集群的建設(shè)正如火如荼地進(jìn)行著。然而,當(dāng)擁有如此眾多的算力芯片時(shí),它們是否已充分發(fā)揮出最大潛力呢?
就目前狀況而言,答案似乎是否定的。
因?yàn)樗懔Φ尼尫挪⒎莾H僅關(guān)乎 GPU 等算力芯片,而是需要全面考慮數(shù)據(jù)存儲(chǔ)、處理速度、網(wǎng)絡(luò)傳輸?shù)榷鄠€(gè)環(huán)節(jié)的協(xié)同作用。
在此背景下,存力作為算力釋放過程中的重要一環(huán),其潛力和價(jià)值逐漸受到重視。
這時(shí)候,或許會(huì)有讀者發(fā)問:存力是否能成為提升算力水平、優(yōu)化算力利用的關(guān)鍵因素?存力究竟能在哪些方面為算力提供助力?以及,為了更有效地支持算力的提升,存力又該如何發(fā)展?
存力,如何助力算力?
如今隨著大模型進(jìn)一步演進(jìn),不同要素的資源配置情況逐步發(fā)生了改變。其中,數(shù)據(jù)的重要性正提到了前所未有的高度,由此也正在帶來對(duì)存儲(chǔ)越來越嚴(yán)苛的要求。
在一個(gè)全新的視角下,數(shù)據(jù)與其背后的「存力」,正在成為影響大模型創(chuàng)新整體過程的關(guān)鍵因素。
存力給算力帶來的助力主要有以下幾點(diǎn):
首先,高效的存儲(chǔ)能力直接促進(jìn)了數(shù)據(jù)處理速度的飛躍。隨著大模型訓(xùn)練過程中數(shù)據(jù)量的爆炸性增長(zhǎng),快速、穩(wěn)定的數(shù)據(jù)讀取與寫入成為提升模型訓(xùn)練效率的關(guān)鍵。存力通過優(yōu)化存儲(chǔ)架構(gòu)、采用高性能存儲(chǔ)介質(zhì)以及智能數(shù)據(jù)管理技術(shù),實(shí)現(xiàn)了數(shù)據(jù)訪問的低延遲與高并發(fā),極大地縮短了數(shù)據(jù)處理周期,使得模型能夠更快地從海量數(shù)據(jù)中汲取知識(shí),加速迭代與優(yōu)化。
其次,存力增強(qiáng)了數(shù)據(jù)的安全性與可靠性。在大數(shù)據(jù)時(shí)代,數(shù)據(jù)泄露與丟失的風(fēng)險(xiǎn)日益增加,而強(qiáng)大的存力體系通過加密存儲(chǔ)、多副本冗余、容災(zāi)備份等機(jī)制,確保了數(shù)據(jù)的完整性和安全性,為模型的持續(xù)運(yùn)行提供了堅(jiān)實(shí)后盾。
再者,存力還促進(jìn)了數(shù)據(jù)的高效共享與協(xié)同。在大模型研發(fā)過程中,跨團(tuán)隊(duì)、跨領(lǐng)域的數(shù)據(jù)合作日益頻繁,高效的存力系統(tǒng)能夠支持?jǐn)?shù)據(jù)的快速傳輸與無(wú)縫對(duì)接,打破信息孤島,促進(jìn)知識(shí)融合與創(chuàng)新。通過構(gòu)建統(tǒng)一的數(shù)據(jù)管理平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的集中管理、按需分配與權(quán)限控制,不僅提高了數(shù)據(jù)資源的利用效率,也加速了科研成果的轉(zhuǎn)化與應(yīng)用。
最后,存力的發(fā)展還推動(dòng)了智能化存儲(chǔ)解決方案的誕生,為大模型提供了更加靈活、智能的數(shù)據(jù)支撐。借助 AI 算法與機(jī)器學(xué)習(xí)技術(shù),智能存儲(chǔ)系統(tǒng)能夠自動(dòng)識(shí)別數(shù)據(jù)特征、優(yōu)化存儲(chǔ)布局、預(yù)測(cè)并滿足數(shù)據(jù)訪問需求,從而進(jìn)一步提升數(shù)據(jù)處理的智能化水平。這種智能化存儲(chǔ)與大模型的深度融合,將為未來的科技創(chuàng)新帶來無(wú)限可能。
通俗來講,在人工智能的蓬勃發(fā)展進(jìn)程中,僅僅擁有強(qiáng)大的 GPU 還遠(yuǎn)遠(yuǎn)不夠。畢竟數(shù)據(jù)在處理之前,需要先「搬過來」。有數(shù)據(jù)顯示,一個(gè)規(guī)模達(dá) 20 億的數(shù)據(jù)集,拷貝準(zhǔn)備大約整整 30 天。這就意味著倘若沒有出色的存儲(chǔ)系統(tǒng)作為支撐,GPU 也「巧婦難為無(wú)米之炊」。再者,在后續(xù)的加密存儲(chǔ)以及數(shù)據(jù)共享等方面,存力皆為算力帶來諸多強(qiáng)大助力。
倘若用建造高樓大廈舉例子,算力便是高聳入云的建筑主體,而存力則是堅(jiān)實(shí)的地基,只有地基穩(wěn)固,大廈才能拔地而起。
因此,倪光南院士也曾表示,算力中心的計(jì)算能力由存力、算力、運(yùn)力三個(gè)因素決定。倪光南院士認(rèn)為,用廣義算力去定義一個(gè)算力中心,才更準(zhǔn)確。
需要什么樣的存儲(chǔ)?
從存儲(chǔ)方式來看,近些年中國(guó)數(shù)據(jù)量的發(fā)展十分迅猛,每年的復(fù)合增長(zhǎng)率約是 30% 左右。主要采用機(jī)械硬盤 HDD,先進(jìn)半導(dǎo)體存儲(chǔ)技術(shù)滯后。閃存和 SSD 都屬于半導(dǎo)體存儲(chǔ)范疇,前者指存儲(chǔ)介質(zhì) (閃存顆粒) 后者指存儲(chǔ)設(shè)備 (固態(tài)硬盤)。
從存儲(chǔ)領(lǐng)域的閃存市場(chǎng)占比情況來審視,在全球范圍內(nèi),閃存平均水平達(dá)到了 41.3%。而美國(guó)在這一領(lǐng)域表現(xiàn)突出,閃存占比高達(dá) 56.4%。相比之下,中國(guó)的閃存市場(chǎng)占比僅為 20.3%,與全球平均水平和美國(guó)相比仍存在一定差距。
海量數(shù)據(jù)的增長(zhǎng),對(duì)我國(guó)存儲(chǔ)提出了更高的需求,先進(jìn)存力成為了存力的重要發(fā)展方向。先進(jìn)存力主要是指企業(yè)級(jí)存儲(chǔ)中更加先進(jìn)的存力,其以「大容量、高性能」為基礎(chǔ),以「先進(jìn)介質(zhì)、高效架構(gòu)」為支撐,以「開放生態(tài)、綠色低碳、安全可靠」為關(guān)鍵,可應(yīng)用于更廣泛的關(guān)鍵場(chǎng)景的存儲(chǔ)能力。
針對(duì)這一現(xiàn)象,中國(guó)存儲(chǔ)可以做出的改進(jìn)之一便是利用 SSD 來取代 HDD。
當(dāng)前 SSD 的演進(jìn)主要通過兩方面:一方面是容量,另一方面是性能和功耗。
在容量方面,AI 時(shí)代對(duì)于高容量的 SSD 需求正在快速上升。需要 SSD 不僅有更大的存儲(chǔ)容量,還要能夠在不犧牲性能的前提下,通過技術(shù)的改進(jìn)等提高 NAND 密度。另外,隨著 TLC 閃存架構(gòu)開始達(dá)到原始存儲(chǔ)容量的極限,QLC 代表了希望不斷突破主流消費(fèi) SSD 容量極限的 SSD 制造商的未來。目前,諸多存儲(chǔ)廠商都已經(jīng)發(fā)布 QLC 閃存。
在性能和功耗方面,隨著數(shù)據(jù)中心對(duì)于存儲(chǔ)設(shè)備速度要求的不斷提升,SSD 需要提供更高的 IOPS(每秒輸入輸出操作次數(shù))和帶寬(GBPS),在保證高性能的同時(shí)必須有效控制功率消耗,實(shí)現(xiàn)單位性能所需的能耗降低。
可喜的是,中國(guó)已經(jīng)有一些主流的存儲(chǔ)芯片公司可以提供達(dá)到一線的水平和生產(chǎn)能力的存儲(chǔ)產(chǎn)品,在 SSD 主控芯片方面,國(guó)內(nèi)也已經(jīng)有十幾家廠商的產(chǎn)品得到商用。隨著 SSD 成本的不斷下探,有望為存力市場(chǎng)作出更大貢獻(xiàn)。
采用先進(jìn)的存儲(chǔ)介質(zhì)和技術(shù)
一些先進(jìn)的存儲(chǔ)介質(zhì)和技術(shù)也可給算力帶來一些助力,比如通過研究和開發(fā)如相變存儲(chǔ)器(PCM)、阻變存儲(chǔ)器(RRAM)和磁性存儲(chǔ)器(MRAM)等新型 NVM 技術(shù)。這些存儲(chǔ)器具有高速讀寫、低功耗、高耐用性和非易失性等優(yōu)點(diǎn),可以作為傳統(tǒng)存儲(chǔ)設(shè)備的補(bǔ)充或替代,提高存力和算力。
探索基于新型材料的存儲(chǔ)技術(shù),如二維材料(如石墨烯)。這些材料具有獨(dú)特的物理和電子特性,有望實(shí)現(xiàn)更高的存儲(chǔ)密度和性能,為未來的存力和算力提升提供新的途徑。
發(fā)展大容量的光存儲(chǔ)技術(shù)也是一個(gè)不錯(cuò)的想法,光存儲(chǔ)具有長(zhǎng)期保存數(shù)據(jù)、高容量和低成本等優(yōu)點(diǎn),可以作為離線存儲(chǔ)或歸檔存儲(chǔ)的選擇,釋放其他存儲(chǔ)設(shè)備的空間,提高存力并為算力提供更多的可用存儲(chǔ)資源。
通過以上多種方法的綜合應(yīng)用,可以有效地提升存力,進(jìn)而為算力的提升提供堅(jiān)實(shí)的基礎(chǔ)和強(qiáng)大的支持。
存力中心建設(shè),如火如荼
眼下算力中心興起的同時(shí),還要建設(shè)先進(jìn)的存力中心。
數(shù)與算、存與算存在失衡現(xiàn)象,也導(dǎo)致了數(shù)據(jù)割裂在不同數(shù)據(jù)中心中,數(shù)據(jù)歸集難、融合匯聚難、有效治理難、使用加工難、共享流通難,導(dǎo)致算力和應(yīng)用缺乏有效的高質(zhì)量數(shù)據(jù)供給,算力的潛能被抑制,對(duì)算力和產(chǎn)業(yè)的賦能價(jià)值沒有充分發(fā)揮,數(shù)據(jù)中心的商業(yè)和產(chǎn)業(yè)持續(xù)正向閉環(huán)存在巨大挑戰(zhàn)。
基于此,華為作為全球領(lǐng)先的信息與通信技術(shù)(ICT)解決方案供應(yīng)商,致力于建設(shè)高性能、高可靠的存力中心,以滿足企業(yè)數(shù)字化轉(zhuǎn)型和智能世界建設(shè)的需求。華為通過整合自身在存儲(chǔ)技術(shù)、云計(jì)算、人工智能等領(lǐng)域的優(yōu)勢(shì),為客戶提供全方位的存力解決方案,包括數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、數(shù)據(jù)保護(hù)等服務(wù)。
隨著云計(jì)算業(yè)務(wù)的不斷發(fā)展,阿里巴巴也在積極建設(shè)大規(guī)模的存力中心。通過采用先進(jìn)的存儲(chǔ)技術(shù)和架構(gòu),如分布式存儲(chǔ)、軟件定義存儲(chǔ)等,阿里巴巴能夠?yàn)榭蛻籼峁└呖捎谩⒏呖煽?、高擴(kuò)展性的存儲(chǔ)服務(wù)。同時(shí),阿里巴巴還在不斷探索新的存儲(chǔ)技術(shù)和應(yīng)用場(chǎng)景,如邊緣存儲(chǔ)、云原生存儲(chǔ)等,以滿足不同客戶的需求。
騰訊在云計(jì)算、大數(shù)據(jù)、人工智能等領(lǐng)域擁有強(qiáng)大的技術(shù)實(shí)力和豐富的經(jīng)驗(yàn),也在積極建設(shè)存力中心。騰訊通過優(yōu)化存儲(chǔ)架構(gòu)、提高存儲(chǔ)效率、加強(qiáng)數(shù)據(jù)安全等措施,為客戶提供高效、穩(wěn)定、安全的存儲(chǔ)服務(wù)。同時(shí),騰訊還在積極探索新的存儲(chǔ)技術(shù)和應(yīng)用模式,如智能存儲(chǔ)、區(qū)塊鏈存儲(chǔ)等,以推動(dòng)存儲(chǔ)行業(yè)的創(chuàng)新發(fā)展。
中國(guó)科學(xué)院計(jì)算技術(shù)研究所作為國(guó)內(nèi)頂尖的科研機(jī)構(gòu),其在存儲(chǔ)技術(shù)領(lǐng)域擁有深厚的技術(shù)積累和強(qiáng)大的研發(fā)實(shí)力。該研究所致力于建設(shè)先進(jìn)的存力中心,開展存儲(chǔ)技術(shù)的研究和開發(fā),包括新型存儲(chǔ)介質(zhì)、存儲(chǔ)系統(tǒng)架構(gòu)、存儲(chǔ)算法等方面的研究。通過與企業(yè)合作,將科研成果轉(zhuǎn)化為實(shí)際應(yīng)用,為我國(guó)存儲(chǔ)產(chǎn)業(yè)的發(fā)展提供技術(shù)支持。
清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系在存儲(chǔ)技術(shù)領(lǐng)域也有著卓越的研究成果和豐富的教學(xué)經(jīng)驗(yàn)。該系積極參與存力中心的建設(shè),開展存儲(chǔ)技術(shù)的研究和教學(xué)工作,培養(yǎng)存儲(chǔ)技術(shù)領(lǐng)域的專業(yè)人才。同時(shí),清華大學(xué)還與企業(yè)合作,開展產(chǎn)學(xué)研合作項(xiàng)目,推動(dòng)存儲(chǔ)技術(shù)的創(chuàng)新和應(yīng)用。
算、存、運(yùn)在數(shù)據(jù)時(shí)代至關(guān)重要。如果說存力已經(jīng)開始逐漸受到重視,那么國(guó)產(chǎn)運(yùn)力相對(duì)來說可能還是一個(gè)「小透明」。在大力發(fā)展算力、支持存力的過程中,請(qǐng)同步關(guān)注「運(yùn)力」的重要性。
評(píng)論