<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>

<label id="pryje"></label>

新聞中心

EEPW首頁 > 智能計(jì)算 > 設(shè)計(jì)應(yīng)用 > 大咖觀點(diǎn) | 在大模型時代推動智能視覺技術(shù)的發(fā)展

大咖觀點(diǎn) | 在大模型時代推動智能視覺技術(shù)的發(fā)展

作者：時間：2024-08-13 來源：Arm

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

收藏

作者：Arm 物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁馬健

本文引用地址：http://www.ex-cimer.com/article/202408/461974.htm

（鳴謝 Arm 工程部計(jì)算視覺主任架構(gòu)師 Catherine Wang 對本文內(nèi)容的貢獻(xiàn)）

語言學(xué)和認(rèn)知科學(xué)的先驅(qū) Noam Chomsky 曾經(jīng)說過，人類語言在動物世界中是獨(dú)一無二的。如今，隨著諸如 GPT-3.5、GPT-4.0 和 Bert 等大語言模型 (LLM) 和生成式人工智能 (AI) 的迅猛發(fā)展，機(jī)器已經(jīng)開始能夠理解人類語言，這極大地?cái)U(kuò)展了機(jī)器可行使的功能。由此也引發(fā)了人們的思考：接下來技術(shù)會如何發(fā)展？

智能的演進(jìn)塑造全新計(jì)算范式

要預(yù)測 AI 的未來發(fā)展方向，我們只需反觀人類自身。我們通過感官、思想和行動的相互動態(tài)作用來改變世界。這個過程包括感知周圍世界、處理信息，并在深思熟慮后作出回應(yīng)。

在計(jì)算技術(shù)的發(fā)展歷程中，我們目睹了曾經(jīng)是人類獨(dú)有的感知、思考和行動等能力，逐漸被機(jī)器所掌握。每一次能力的轉(zhuǎn)移都將催生出新的范式。

20 世紀(jì)末，像 Google 這樣的大公司將信息獲取成本從邊際成本轉(zhuǎn)變?yōu)楣潭ǔ杀荆唧w點(diǎn)說就是，Google 投入資金來抓取網(wǎng)絡(luò)和索引信息，但對于我們每個搜尋信息的用戶來說，投入的成本幾乎可以忽略不計(jì)。機(jī)器開始成為我們的信息系統(tǒng)。這開啟了互聯(lián)網(wǎng)時代及其后續(xù)的移動互聯(lián)網(wǎng)時代，改變了人們獲取、傳播和分享信息的方式，并對商業(yè)、教育、娛樂、社交等多個領(lǐng)域產(chǎn)生了深遠(yuǎn)的影響。

現(xiàn)在，我們正見證技術(shù)發(fā)展的新轉(zhuǎn)折，思考、推理和模型構(gòu)建的能力正從人類轉(zhuǎn)移到機(jī)器上。OpenAI 和大模型將生產(chǎn)模型的成本從邊際成本轉(zhuǎn)變?yōu)楣潭ǔ杀尽?/p>

大模型已經(jīng)通過來自互聯(lián)網(wǎng)的大量文本、圖像和視頻進(jìn)行了訓(xùn)練，這其中包含了法律、醫(yī)學(xué)、科學(xué)、藝術(shù)等各種領(lǐng)域的信息。這種廣泛的訓(xùn)練使得這些大模型可以作為基礎(chǔ)模型，用以更輕松地構(gòu)建其他模型。

無論是認(rèn)知模型（如何觀察和表達(dá)）、行為模型（如何駕駛汽車），還是特定領(lǐng)域的模型（如何設(shè)計(jì)半導(dǎo)體芯片），這一轉(zhuǎn)折點(diǎn)必將激發(fā)各類模型的廣泛涌現(xiàn)。模型是知識的載體，這一轉(zhuǎn)折點(diǎn)將使模型和知識變得無處不在，使我們加速進(jìn)入新一輪的技術(shù)創(chuàng)新，迎來一個由自動駕駛汽車、自主移動機(jī)器人、人形機(jī)器人等多樣的機(jī)器及其在各行各業(yè)和各種部署場景中應(yīng)用的新時代。這些新范式將重新定義人機(jī)交互的方式。

多模態(tài) LLM 與視覺的關(guān)鍵作用

通過 Transformer 模型及其自注意力機(jī)制，AI 可以真正實(shí)現(xiàn)多模態(tài)，這意味著 AI 系統(tǒng)可以像人們一樣處理來自語音、圖像和文本等多種模式的輸入信息。

OpenAI 的 CLIP、DALL·E、Sora 和 GPT-4o 就是朝著多模態(tài)邁進(jìn)的一些模型。例如，CLIP 用于理解圖像與自然語言的配對數(shù)據(jù)，從而在視覺和文本信息之間架起橋梁；DALL·E 旨在根據(jù)文本描述生成圖像，而 Sora 可以根據(jù)文本生成視頻，有望在未來成為全球性的模擬器。OpenAI 則將 GPT-4o 的發(fā)展往前更進(jìn)一步，OpenAI 綜合利用文本、視覺和音頻信息來端到端訓(xùn)練單個新模型 GPT-4o，無需進(jìn)行多媒體與文本的相互轉(zhuǎn)換。所有輸入和輸出都經(jīng)同一神經(jīng)網(wǎng)絡(luò)處理，使得模型能夠跨模態(tài)綜合音頻、視覺和文本信息進(jìn)行實(shí)時推理。

多模態(tài) AI 的未來將聚焦于邊緣側(cè)

得益于邊緣側(cè)硬件的進(jìn)步（許多邊緣硬件都是基于 Arm 平臺開發(fā)設(shè)計(jì)的），同時也為了解決延遲問題、隱私和安全需求、帶寬和成本考量，并確保在網(wǎng)絡(luò)連接間斷或無連接時能夠離線使用，AI 創(chuàng)新者在不斷突破模型的運(yùn)行邊界。Sam Altman 也曾坦言 ^[1]，對于視頻（我們通過視覺感知到的內(nèi)容），要想提供理想的用戶體驗(yàn)，端側(cè)模型至關(guān)重要。

然而，資源限制、模型大小和復(fù)雜性挑戰(zhàn)阻礙了多模態(tài) AI 向邊緣側(cè)的轉(zhuǎn)移。要想解決這些問題，我們需綜合利用硬件進(jìn)步、模型優(yōu)化技術(shù)和創(chuàng)新的軟件解決方案，來促進(jìn)多模態(tài) AI 的普及。

近期的 AI 發(fā)展對計(jì)算機(jī)視覺產(chǎn)生了深遠(yuǎn)的影響，尤其令人關(guān)注。許多視覺領(lǐng)域研究人員和從業(yè)者正在使用大模型和 Transformer 來增強(qiáng)視覺能力。在大模型時代，視覺的重要性日益凸顯。原因有以下幾點(diǎn)：

機(jī)器系統(tǒng)必須通過視覺等感知能力來了解周圍環(huán)境，為自動駕駛和機(jī)器人提供關(guān)乎人身安全的必要安全性和避障能力。空間智能是被譽(yù)為“AI 教母”的李飛飛等研究人員關(guān)注的熱門領(lǐng)域。

視覺對于人機(jī)交互至關(guān)重要。AI 伴侶不僅需要高智商，還需要高情商。機(jī)器視覺可以捕捉人類的表情、手勢和動作，從而更好地理解人類的意圖和情感。

AI 模型需要視覺能力和其他傳感器來收集實(shí)際數(shù)據(jù)并適應(yīng)特定環(huán)境，隨著 AI 從輕工業(yè)延伸到數(shù)字化水平較低的重工業(yè)，收集物理世界特征數(shù)據(jù)集，建立 3D 物理世界的仿真環(huán)境或數(shù)字孿生，并使用這些技術(shù)來訓(xùn)練多模態(tài)大模型，使模型可以理解真實(shí)的物理世界，這一點(diǎn)都尤為重要。

視覺 + 基礎(chǔ)模型的示例

盡管 ChatGPT 因其出色的語言能力而廣受歡迎，但隨著主流的 LLM 逐漸演變成多模態(tài)，將它們稱作“基礎(chǔ)模型”也許更為貼切。包括視覺等多種模態(tài)在內(nèi)的基礎(chǔ)模型領(lǐng)域正在快速發(fā)展。以下是一些例子：

DINOv2

DINOv2 是由 Meta AI 開發(fā)的先進(jìn)自監(jiān)督學(xué)習(xí)模型，它基于原來的 DINO 模型打造，并已通過擁有 1.42 億張圖像的龐大數(shù)據(jù)集進(jìn)行了訓(xùn)練，這有助于提高它在不同視覺領(lǐng)域的穩(wěn)健性和通用性。DINOv2 無需專門訓(xùn)練就能分割對象。此外，它還能生成通用特征，適用于圖像級視覺任務(wù)（如圖像分類、視頻理解）和像素級視覺任務(wù)（如深度估計(jì)、語義分割），表現(xiàn)出卓越的泛化能力和多功能性。

Segment Anything 模型 (SAM)

SAM 是一種可推廣的分割系統(tǒng)，可以對不熟悉的對象和圖像進(jìn)行零樣本泛化，而無需額外訓(xùn)練。它可以使用多種輸入提示詞來識別和分割圖像中的對象，以明確要分割的目標(biāo)。因此在遇到每個新對象或場景時，它無需進(jìn)行特殊訓(xùn)練即可運(yùn)行。據(jù) Meta AI 介紹，SAM 可以在短短 50 毫秒內(nèi)生成分割結(jié)果，因此非常適合實(shí)時應(yīng)用。它具備多功能性，可應(yīng)用于從醫(yī)學(xué)成像到自動駕駛等諸多領(lǐng)域。

Stable Diffusion

文生圖和文生視頻是生成式 AI 的一個重要方面，因?yàn)樗粌H能夠助力產(chǎn)生新的創(chuàng)意，還有望構(gòu)建一個世界模擬器，用來作為訓(xùn)練模擬、教育程序或視頻游戲的基礎(chǔ)。Stable Diffusion 是一個生成式 AI 模型，能夠根據(jù)文本描述創(chuàng)建圖像。該模型使用一種稱為潛在擴(kuò)散 (latent diffusion) 的技術(shù)，在潛在空間 (latent space) 的壓縮格式中操作圖像，而不是直接在像素空間中操作，從而實(shí)現(xiàn)高效運(yùn)行。這種方法有助于減少計(jì)算負(fù)載，使模型能夠更快地生成高質(zhì)量圖像。

Stable Diffusion 已經(jīng)可以在智能移動設(shè)備的邊緣側(cè)運(yùn)行。上圖是 Stable Diffusion 優(yōu)化過程的示例：

如果采用 Stable Diffusion 的原始設(shè)置，將不適合在移動端 CPU 或 NPU 上運(yùn)行（基于 512×512 圖像分辨率）。

通過使用更小的 U-Net 架構(gòu)、更少的采樣步驟、切換到 ONNX 格式、應(yīng)用量化技術(shù)（從 FP32 到 INT8）和其他技術(shù)，它僅在 CPU 上就實(shí)現(xiàn)了超過 60 倍的速度提升。其中許多優(yōu)化技術(shù)和工具都是基于 Arm 廣泛的生態(tài)系統(tǒng)所開發(fā)的。該模型仍有進(jìn)一步優(yōu)化的空間。

借助多模態(tài) LLM 實(shí)現(xiàn)出色視覺體驗(yàn)

作為 Arm 的智能視覺合作伙伴計(jì)劃的一員，愛芯元智 (Axera) 利用其旗艦芯片組 AX650N 在邊緣側(cè)部署了 DINOv2 視覺 Transformer。該芯片采用 Arm Cortex-A55 CPU 集群進(jìn)行預(yù)處理和后處理，結(jié)合愛芯通元混合精度 NPU 和愛芯智眸 AI-ISP，其具有高性能、高精度、易于部署和出色能效等特點(diǎn)。

以下展示了在 AX650N 上運(yùn)行 DINOv2 的效果：

通過使用多樣化大型數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練之后，視覺 Transformer 可以更好地泛化到新任務(wù)和未見過的任務(wù)，從而簡化了再訓(xùn)練過程并縮短了調(diào)優(yōu)時間。它們可以應(yīng)用于圖像分類之外的多種任務(wù)，例如對象檢測和分割，而無需進(jìn)行大量的架構(gòu)更改。

迎接 AI 和人機(jī)界面的未來

得益于 AI 和 LLM 的不斷發(fā)展，我們正處于技術(shù)和人類交互轉(zhuǎn)型的交會點(diǎn)。視覺會在這一演進(jìn)中起到關(guān)鍵作用，賦予了機(jī)器理解周圍環(huán)境以及在物理世界中“生存”的能力，可確保安全并增強(qiáng)交互性。在硬件和軟件快速發(fā)展的推動下，向邊緣側(cè) AI 的轉(zhuǎn)變有望實(shí)現(xiàn)高效的實(shí)時應(yīng)用。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： Arm 大模型 智能視覺

評論

相關(guān)推薦

Helium 技術(shù)講堂 | 循環(huán)緩沖區(qū)的使用

嵌入式系統(tǒng) Arm 循環(huán)緩沖區(qū) | 2024-08-13

大咖觀點(diǎn) | 在大模型時代推動智能視覺技術(shù)的發(fā)展

智能計(jì)算 Arm 大模型智能視覺 | 2024-08-13

KEA: Kinetis KEA - 面向工業(yè)控制和運(yùn)輸行業(yè)的超可靠5V MCU

設(shè)計(jì)方案汽車 ARM | 2015-01-09

ARM 展示小型低功耗上網(wǎng)本樣品

視頻 ARM netbook | 2009-03-16

通過 Arm Total Access 方案構(gòu)建基于 Arm 技術(shù)的智能未來

嵌入式系統(tǒng) Arm | 2024-08-13

WinCE+ARM開發(fā)及關(guān)鍵技術(shù) 下

視頻嵌入式 ARM WinCE | 2009-10-22

Cyclone V SoC開發(fā)套件和SoC嵌入式設(shè)計(jì)套裝

設(shè)計(jì)方案 Altera FPGA ARM 嵌入式 Cyclone | 2014-05-20

ARM嵌入式系統(tǒng)開發(fā)

資源下載 ARM ARM 嵌入式系統(tǒng)開發(fā) | 2007-12-03

Armv9 技術(shù)講堂 | SME 指令介紹

嵌入式系統(tǒng) Arm SME | 2024-08-13

Arm 旗下熱門開源嵌入式操作系統(tǒng) Mbed OS 將于 2026 年 7 月結(jié)束官方維護(hù)

嵌入式系統(tǒng) Arm Mbed OS 操作系統(tǒng) | 2024-07-17

最新ARM技術(shù)和嵌入式技術(shù)發(fā)展動態(tài) 中

視頻 ARM 嵌入式 | 2009-10-22

咱們的e-Arm進(jìn)行的咋樣了？板子畫了嗎？

seasoblue | 2002-07-09

e-ARM的PCB板已經(jīng)做好，s3c4510b很快買到

Gao | 2002-07-25

今日上傳e-ARM全部文檔至本站下載區(qū)

Gao | 2002-07-05

RTL8201L缺貨，xiaohua，E-ARM你們買得到嗎？

★被水淹死的魚★ | 2002-08-01

WinCE+ARM開發(fā)及關(guān)鍵技術(shù) 上

視頻嵌入式 ARM WinCE | 2009-10-22

X86架構(gòu)與Arm架構(gòu)區(qū)別

嵌入式系統(tǒng) Arm x86 CISC RISC | 2024-08-08

ARM嵌入式軟件編程經(jīng)驗(yàn)談

資源下載 ARM 編程經(jīng)驗(yàn) ARM嵌入式軟件 | 2007-11-29

最新ARM技術(shù)和嵌入式技術(shù)發(fā)展動態(tài) 下

視頻 ARM 嵌入式 | 2009-10-22

馬斯克：大模型Grok 2測試版即將發(fā)布

智能計(jì)算馬斯克大模型 Grok 2 測試版人工智能 xAI | 2024-08-13

“當(dāng)TDC-GP22遇到ARM CortexM3” ——世強(qiáng)專家解讀智能超聲波水表的技術(shù)創(chuàng)新趨勢

設(shè)計(jì)方案超低功耗超聲波水表 TDC-GP22 ARM | 2014-12-22

基于 Arm Cortex-R82AE 簡化高性能區(qū)域控制器的軟件開發(fā)

嵌入式系統(tǒng) Arm Cortex-R82AE | 2024-08-13

ARM嵌入式系統(tǒng)開發(fā)：軟件設(shè)計(jì)與優(yōu)化

資源下載 ARM 軟件設(shè)計(jì)優(yōu)化 ARM處理器 | 2007-12-03

基于ARM/DSP 的高性能驅(qū)動方案

設(shè)計(jì)方案變頻控制 ARM/DSP | 2014-12-26

arm學(xué)習(xí)資料

資源下載 ARM 基礎(chǔ) 編程調(diào)試開發(fā) ARM7 | 2007-12-03

基于ARM-Linux的MiniGUI的仿真與移植

設(shè)計(jì)方案基于 ARM-Linux MiniGUI 仿真移植 | 2011-07-13

清華“太極-Ⅱ”光芯片面世：成果登 Nature，首創(chuàng)全前向智能光計(jì)算訓(xùn)練架構(gòu)

智能計(jì)算清華大學(xué) 大模型 AI 太極-II 芯片 | 2024-08-08

英偉達(dá)的挑戰(zhàn)者的來錢之道

智能計(jì)算英偉達(dá) 大模型 | 2024-07-23

ARM開發(fā)詳解

資源下載 ARM 開發(fā)資料 ADS仿真 | 2007-12-02

本站成立e-ARM開發(fā)工作室！

Gao | 2002-06-26

焦點(diǎn)

推薦視頻

技術(shù)專區(qū)

看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();