探索 AI 新未來,移動端 CPU 運行生成式 AI 實例解析
作者:Arm 終端事業(yè)部產(chǎn)品管理總監(jiān) Ronan Naughton
本文引用地址:http://www.ex-cimer.com/article/202410/463732.htm2022 年,首個云端文生圖的生成式人工智能 (AI) 用例誕生。通過“一張宇航員騎馬的照片”文字提示,生成了一張 AI 圖像,雖然圖像還存在瑕疵,但展示了生成式 AI 令人驚嘆的能力和潛力。
當時我并未在云端運行這個用例,而是在想: “這很棒,但它能在移動設備上實現(xiàn)嗎?”
生成式 AI 是當今智能手機體驗的一部分
時至今日,答案已顯而易見。事實上,許多生成式 AI 工作負載,如圖像生成和文本摘要,已無縫融入現(xiàn)代智能手機體驗之中,且這些任務均能在端側(cè)進行高效處理。這得益于旗艦 AI 智能手機卓越的計算能力,以及生成式 AI 所依賴的大語言模型 (LLM) 不斷向更小、更高效的方向發(fā)展。這些趨勢將繼續(xù)演進,意味著在不久的將來,生成式 AI 將成為移動端應用的標配。
AI 工作負載始于 CPU
正如我們之前談到的 ,移動端 AI 始于 CPU。它為全球開發(fā)者提供了軟件靈活性和可編程性。此外,地球上每一臺數(shù)字消費電子設備都搭載 CPU,CPU 的無處不在意味著開發(fā)者創(chuàng)建應用時,可以“一次編寫,即可隨處部署”,確保覆蓋更為廣泛的用戶。
今年早些時候,我們進行了 聊天機器人演示 ,它能作為科學和編程虛擬助教,并在移動端 CPU 上流暢運行。此次演示的成功,表明我們開始探索在 Arm CPU 上運行更多端側(cè)生成式 AI 用例,以更好地滿足智能手機用戶的日常使用需求。由此,我們創(chuàng)建了三款新的演示,包括 群聊總結(jié) 、 語音留言總結(jié) 和 實時語音助手 。它們和聊天機器人演示一樣,完全在端側(cè)處理和運行生成式 AI 工作負載,相比將數(shù)據(jù)發(fā)送到云端處理,這能提供更好的隱私性、降低延遲,并具備成本優(yōu)勢。
新的生成式 AI 演示
對我個人而言,群聊總結(jié)和語音留言總結(jié)在日常生活中非常實用。和大多數(shù)智能手機用戶一樣,我總會收到親朋好友的各種消息和語音,用生成式 AI 總結(jié)聊天內(nèi)容很有幫助。
群聊總結(jié)演示可以針對包含多個參與者的群聊消息快速提煉要點,并以易于理解的格式呈現(xiàn)。除群聊消息總結(jié)之外,該功能還適用于其他場景,例如電子郵件內(nèi)容總結(jié)。更令人稱道的是,該用例也支持多模態(tài),甚至可以在總結(jié)中巧妙融入圖片信息。
語音留言總結(jié)演示可以展示 LLM 和語音轉(zhuǎn)文本模型如何通過協(xié)同工作總結(jié)和轉(zhuǎn)錄用戶收到的語音留言。 先由模型將語音留言轉(zhuǎn)換為文本,再由 LLM 加以總結(jié)。 對我個人而言,這真的節(jié)省了大量時間!
和之前的聊天機器人演示一樣,實時語音助手演示的創(chuàng)新亮點在于,它完全可以在飛行模式下獨立運行,充分展示了 Arm CPU 在端側(cè)處理生成式 AI 工作負載的強大能力。
該演示先使用 whisper.cpp 自動識別語音,再進入 LLM 模塊,使用 Google AI Edge 的 MediaPipe 運行 Gemma 2B 模型。 此外,也可選擇 Llama 3 模型。 即使使用 30 億參數(shù)模型,也能實現(xiàn)實時對話,聲音逼真,且能感知語境、進行多輪對話。
為了顯著提升性能,我們在用于語音識別的 whisper 模塊和用于生成響應的 LLM 模塊中都集成了 Arm KleidiAI ——一組專為生成式 AI 工作負載而高度優(yōu)化的AI軟件內(nèi)核,能夠顯著提升性能表現(xiàn)。該用例還可用于汽車應用,駕駛員無需手動操作,僅憑語音指令即可與設備互動,例如在行車途中詢問導航方向,或與游戲角色互動對話,極大地提升了駕駛體驗。
在以上三種演示中,我們都使用了旗艦級AI 智能手機,包括 搭載 MediaTek 天璣 9300 芯片的 vivo X100 、搭載 MediaTek 天璣 9200+ 芯片的紅米 K60 至尊版 ,以及搭載 Google Tensor G3 芯片的 Google Pixel 8 和 Pixel 8 Pro,這些手機的芯片組均采用了 Armv9 CPU 技術,該技術融入了諸如 SVE2 等全新架構(gòu)特性,旨在大幅提升 AI 性能。
未來,基于 Arm CPU 打造的旗艦 AI 智能手機將利用 可伸縮矩陣擴展 (SME) 架構(gòu)特性,加速 AI 工作負載,并為 Arm CPU 上運行的 AI 應用提高性能、能效和靈活性。
展望未來
盡管生成式 AI 已經(jīng)展現(xiàn)了諸多潛力,但其未來的發(fā)展前景將更加令人期待。事實上,我認為我們在端側(cè)生成式 AI 領域,尤其是在圖像和視頻生成方面,還僅僅處于初步探索階段。
近期,OpenAI 展示了由文本生成視頻,Luna Labs 演示了由圖像生成視頻。雖然兩種生成式 AI 工作負載都在云端處理,但根據(jù)當前的趨勢發(fā)展,預計在未來兩年內(nèi),這些工作負載就有可能在移動端CPU上得以實現(xiàn),就像剛才提到的騎馬的宇航員用例一樣!
Arm 平臺是端側(cè)生成式 AI 的基石
生成式 AI 陸續(xù)實現(xiàn)了各種不同的用例和工作負載,不斷鞏固著智能手機在個人和專業(yè)計算中的核心地位。這讓我們更加期待生成式 AI 在移動領域的發(fā)展。
全球 99% 的智能手機和業(yè)界領先的移動生態(tài)系統(tǒng)都采用了普遍的 Arm CPU 技術,Arm 也將通過持續(xù)的技術賦能,實現(xiàn)這些令人贊嘆的可能性。
我們將持續(xù)優(yōu)化 Arm CPU,為其增加更多功能和架構(gòu)特性,同時通過 Arm Kleidi 為開發(fā)者釋放更多 AI 性能。作為引領未來 AI 發(fā)展的移動平臺,Arm 將持續(xù)推動該領域的革新與進步。
評論