人工智能行業深度報告:AI下半場,應用落地,賦能百業
2022 年 11 月底,OpenAI 發布了人機對話模型 ChatGPT,在兩個月不到的時間內其線上活躍用戶規模超 過 1 億人,生成式大模型受到越來越廣泛的關注,人工智能行業進入到以大模型為代表的快速發展階段,巨量 參數和智能涌現是這一輪人工智能變革的典型特征。微軟、谷歌、Meta、亞馬遜等全球科技巨頭將大模型視為 重要的發展機遇,在生成式大模型領域加速布局,積極投入且成果頻頻。我國的眾多互聯網廠商和人工智能企 業也積極投身到大模型領域中,百度、訊飛、阿里、華為、騰訊、商湯等企業也在快速更迭自己的大模型,同 時高校、科研院所也積極投身大模型產業,取得了顯著成果。
本文引用地址:http://www.ex-cimer.com/article/202312/453677.htm1.1.1 國內外大模型發展情況
國外大模型起步相對較早,2021 年進入到快速發展期。2017 年 Transformer 模型的誕生可以被視為大模型 行業的開端,谷歌、OpenAI、微軟、英偉達等大型科技企業引領了早期的技術探索,在 2020-2021 年間逐步確 立了大模型的整體技術路徑,國外大模型行業開始加速發展。根據賽迪顧問數據,截止 2023 年 7 月底,國外大 模型累計發布 138 個,其中美國發布 114 個,大模型數量大幅領先。從 2020 年起,更多國家的企業和科研單位 逐步加入到大模型的研發中,韓國、日本、法國模型數量位列美國之后。國外已發布的大模型主要集中在自然 語言和多模態兩類,其中自然語言占比 68%,多模態占比 18%,其他類型大模型合計占比 14%。
在大模型產業領域,中國緊跟國際前沿。2021 年起,中國也開啟了大模型的發布熱潮,涌現出一批有代表 性且具備影響力的大模型。受 ChatGPT 影響,國內大模型在 2023 年進入到高速發展階段,一時間呈現“百模 大戰”局面。根據賽迪顧問, 截止 2023 年 7 月底,中國累計發布了 130 個大模型,其中 64 個大模型是在 2023 年年內發布。國內大模型技術分布基本與海外一致,65%的大模型集中在自然語言領域,22%的大模型集中在多 模態領域。
1.1.2 國外大模型行業發展現狀
OpenAI:模型性能一騎絕塵,引領大模型行業發展趨勢
2022 年底 ChatGPT 引爆社交網絡,人工智能行業進入到以大模型為主的快速發展階段。OpenAI 在 GPT-3.5 版本的基礎上,通過 3 個步驟實現基于人類反饋的強化學習微調(RLHF),得到人機對話模型 ChatGPT。通過 與人類答案的對齊過程,顯著提升了大模型的人機對話體驗。 GPT-4 具備卓越的文本處理能力,初步融合多模態能力,能力再度升級。2023 年 3 月 15 日,OpenAI 發布多模態預訓練大模型 GPT-4,相較于過去的 GPT 系列模型,提升包括幾個方面,GPT-4 相較于 ChatGPT 有更強 的高級推理能力,相較于過去的 GPT 系列模型,GPT-4 在更多應用領域成為專家,包括為機器學習模型評判標 準和為人類設計的專業測試,從“百科全書”逐步成為文理通吃的“專家”。 GPT-4 在可控性和真實性方面較 ChatGPT 有大幅提升。
2023 年 9 月 25 日,OpenAI 再度開放了帶視覺能力的 GPT-4V,用戶能夠指導 GPT-4 分析用戶提供的 圖像。在輸入 GPT-4V 支持格式方面,其支持處理圖像、子圖像、文本、場景文本和視覺指針(visual pointers) 等多種輸入。此外,GPT-4V 還支持 LLMs 中支持的技術,包括指令跟隨、思維鏈和上下文少樣本學習等。 GPT-4V 在處理任意交錯的多模態輸入方面具有前所未有的能力,并且其功能的通用性共同使 GPT-4V 成 為強大的多模態系統。 11 月 7 日,OpenAI 首次開發者大會發布了最新模型 GPT-4 Turbo,其作為一個標準化的 AI Agent,初 步具備了規劃和工具選擇的能力,可以自動選擇接入互聯網、進行數據分析、圖像生成等諸多功能,真正 進化為了統一智能體。除了標準化的 GPT-4 以外,定制版的 GPTs 可以為用戶在日常生活、特定任務、工 作或家庭中提供幫助,用戶無需編寫代碼就可以創建屬于自己的定制化的智能助理,諸多定制化的 GPTs 的使用體驗顯著優于 GPT-4,GPTs 開啟了一個全民定制個人智能助理的浪潮。OpenAI 同時還將推出 GPT store 和 Assistants API,不斷打造 GPTs 開發者生態。
Google:深度學習研究的引領者,AI 技術產業落地先行者
在上一輪深度學習的 AI 革命中,AI 逐步達到了與人類媲美、甚至超越人類(部分場景)的水平,逐步走 入大眾視野,而 Google 和 Deepmind 是其中的的引領者。由 Google 和 Deepmind 提出的 Word2Vec、AlphaGo 等模型以及 sequence to sequence、深度強化學習等技術是上一輪 AI 革命乃至這一輪 AI 浪潮的開創性、奠基性 工作,推動著 AI 技術的成熟與發展。在這一輪預訓練大模型的 AI 浪潮中,AI 展現出在更多具體場景中強大的 應用性能,逐步從學術研究走向商業化落地。 Google 在 2022 年 4 月推出了 PaLM 模型,其具有 5400 億參數,基于 Transformer 的 Decoder 設計,PaLM 模型在多個下游任務中具有優異性能。5 月 11 日,Google 在最新一屆 I/O 開發者大會上官宣大語言模型 PaLM 2,稱其在部分任務上超越 GPT-4。PaLM 2 在超過 100 種語言的多語言文本上進行了訓練,這使得它在語言理 解、生成和翻譯上的能力更強,并且會更加擅長常識推理、數學邏輯分析。PaLM 2 在大量公開可用的源代碼 數據集上進行了預訓練,這意味著它擅長流行的編程語言,如 Python 和 JavaScript,但也可以用 Prolog,Fortran 和 Verilog 等語言生成專門的代碼。
目前谷歌的聊天機器人 Bard 以及超過 25 個 AI 產品和功能,都由 PaLM 2 作為底層技術支持。具體的表現 之一是 Duet AI,一款類似于微軟 365 Copilot 的產品、能夠內嵌在各種辦公軟件中的 AI 助手?;?PaLM 2, 谷歌還推出了兩個專業領域大模型。一個是谷歌健康團隊打造的 Med-PaLM 2。另一個專業大模型是面向網絡安 全維護的 Sec-PaLM 2,它使用人工智能來幫助分析和解釋潛在惡意腳本的行為,并在非常短的時間內檢測哪些 腳本對個人和組織構成威脅。
META:通過開源 LLaMa 等大模型,引領大模型開源生態
LLaMA:2023 年 2 月 25 日,Meta 官網公布了一個新的大型語言模型 LLaMA(Large Language Model Meta AI),從參數規模來看,Meta 提供有 70 億、130 億、330 億和 650 億四種參數規模的 LLaMA 模型,并用 20 種 語言進行訓練。Meta 推出的 LLaMA 參數規模有 70 億(7B)、130 億(13B)、330 億(33B)和 650 億(65B) 四種。LLaMA-13B 在大多數基準測試中,參數僅為十分之一,但性能優于 OpenAI 的 GPT-3(175B),而且能 跑在單個 GPU 上。LLaMA-65B 與 DeepMind 700 億參數的 Chinchilla-70B 和谷歌 5400 億參數的 PaLM-540B 不 相上下。
LLaMA2:2023 年 7 月 19 日,Meta 發布了免費商用版開源大模型 LLaMA2,各個企業能夠以相對低廉的 價格在該模型上開發應用,為客戶提供自主的大模型。Meta 發布的 LLaMA 2 模型系列包含 70 億、130 億和 700 億三種參數變體,訓練數據采用了更新之后的混合數據,模型方面采用文本輸入與文本輸出,預訓練模型 在2萬億token上進行訓練,訓練token總數相較于LLaMA 1增加了40%。LLaMA 2學術基準測試優于LLaMA1, 專業場景中能力進一步提升。公布的測評結果顯示,LLaMA 2 在包括推理、編碼、精通性和知識測試等方面均 優于相近訓練參數下的 LLaMA 1。LLaMA 2 模型最大的變化除了性能提升,還體現在 B 端可以助力企業開發自 己的大模型,C 端可以豐富 AIGC 應用,改變了以往大模型由多家科技巨頭壟斷的格局,AI 應用實現加速落地。 目前,用戶已經能夠在 Azure 平臺上微調和部署 7B、13B 和 70B 參數的 LLaMA 2 模型。
Meta 與微軟達成合作,聯手推動 AI 應用的商業化落地。Meta 正式開源了 LLaMA 2 版本,可免費用于商 業用途,微軟宣布攜手。最新版本的模型將在微軟的 Azure 和 Windows 平臺上線并開源,用戶可以在云服務中 使用 Llama 2 作為基礎模型,快速構建適用于自身業務的專用大模型。目前,用戶已經能夠在 Azure 平臺上微 調和部署 7B、13B 和 70B 參數的 LLaMA 2 模型。未來,LLaMA 將進行優化,以在 Windows 上本地運行。
1.1.3 國內大模型發展現狀
百度
從 2010 年的百度搜索開始,百度成立了自然語言部門,初步研究互聯網機器翻譯技術,2013 年推出百度 語音助手,2014 年推出智能搜索小度機器人,2017 年推出智能客服。在長期的布局和發展中,百度構建了完整 的語言與知識技術布局,包括知識圖譜、語言理解與生成技術,以及上述技術所支持的包含智能搜索、機器翻 譯、對話系統、智能寫作、深度問答等在內的的應用系統。 2023 年 3 月 16 日,百度發布了生成式人工智能大模型“文心一言”。作為文心大模型家族的新成員,文心 一言在文心知識增強大模型 ERNIE 及對話大模型 PLATO 的基礎上研發。文心一言包含六大核心技術模塊,包 括:1)有監督精調;2)基于人類反饋的強化學習;3)提示;4)知識增強;5)檢索增強;6)對話增強,前 三類技術在目前流行的對話大模型如 ChatGPT 中都有所應用,而后三類技術則是百度基于自身技術積累的再創 新,它們共同構成了模型的技術基礎。
2023 年 5 月,百度文心大模型 3.5 版本已內測可用,在基礎模型升級、精調技術創新、知識點增強、邏輯 推理增強、插件機制等方面創新突破,取得效果和效率的提升。2023 年 8 月 31 日,文心一言率先向全社會全 面開放。9 月 13 日,百度發布文心一言插件生態平臺“靈境矩陣”。文心一言面向全社會開放至百度世界 2023 大會召開期間,40 多天的時間,文心一言用戶規模已經達到 4500 萬,開發者 5.4 萬,場景 4300 個,應用 825 個,插件超過 500 個。 2023 年 10 月 17 日,百度世界大會上正式發布文心大模型 4.0。與原有的 3.5 版本相比,具有以下優勢:1) 更強的模型能力和圖片生成能力。根據測試,文心大模型 4.0 版本在理解、生成、邏輯、記憶四大功能上都有 明顯提升,具有顯著優化的模型性能。2)支持接入豐富的 API 插件,可以實現撰寫代碼、潤色文案、設計與繪 圖等多種功能。
文心一言成為首個國內面向 C 端收費的大模型產品。文心一言專業版的分為單獨訂閱和聯合會員兩種收費 模式。單獨訂閱模式下,會員月付 59.9 元,選擇連續包月可以享受 49.9 元的優惠價格;該模式下會員可以使 用文心一言大模型 3.5 和 4.0 兩個版本,而非會員只可使用免費的文心大模型 3.5 版本。聯合模式下,用戶月 付 99 元,可以同時具有單獨訂閱模式的全部功能,并獲得文心一格白銀會員資格,享受 AI 修圖改圖等功能。
科大訊飛
隨著大語言模型爆火網絡,公司自主研發了對標 ChatGPT 的星火大模型。星火大模型是基于深度學習、 以中文為核心的自然語言大模型,在跨領域多任務上具備類人的理解和生成能力,可實現基于自然對話方式的 用戶需求理解與任務執行。 公司大模型不斷迭代進步,能力實現全方位提升。2022 年 12 月 15 日,科大訊飛啟動了“1+N 認知智能大 模型專項攻關”。2023 年 5 月 6 日,訊飛推出星火認知模型的 1.0 版本,七大核心能力發布,同時發布大模型評 測體系。6 月 9 日,星火升級至 1.5 版本,突破開放式問答、多輪對話能力和數學能力;8 月發布 2.0 版本,實 現多模態能力,同時代碼能力顯著提升。
星火 3.0 全面對標 ChatGPT。10 月 24 日,星火推出 3.0 版本,在語義理解、時效把握、代碼生成能力等 基礎功能上都有很大提升;在時空感知能力上表現突出;專業性能力基本無實時性錯誤,尤其醫療能力水平,可以給出適時的診療提醒。全面對標 chatGPT,中文能力客觀測評超過 ChatGPT,英文能力對標 ChatGPT48 項 任務結果相當。根據國務院發展研究中心經濟研究院測評報,星火大模型 3.0 綜合能力達到國際一流水平,在 醫療、法律、教育行業表現突出。訊飛同時發布十二個行業大模型,涵蓋金融、汽車交互、運營商、工業、傳 媒、法律、政務、科技文獻、住建、物業、文旅、水利十二個領域。訊飛正式啟動對標 GPT-4 的大模型訓練, 2024 年上半年對標 GPT-4。
智譜
智譜 AI 致力于打造新一代認知智能大模型,專注于做大模型的中國創新,通過認知大模型鏈接物理世界的 億級用戶?;谕暾哪P蜕鷳B和全流程技術支持,智譜 AI 一方面重視研發超大規模訓練模型,并基于此推出 對話模型 chatGLM;另一方面踐行 Model as a Service(MaaS)的市場理念,推出大模型 MaaS 開放平臺。 2023 年 3 月 14 日,ChatGLM1.0 開啟邀請制內測。ChatGLM 參考 ChatGPT 的設計思路,在千億基座模型 GLM-130B 中注入代碼預訓練,通過監督微調等技術實現人類意圖對齊,具有支持雙語、高精度、快速推理、 可復現性和跨平臺等優勢。同期開源的還有具有 62 億參數、支持中英文雙語對話的 ChatGLM-6B,雖然規模不 及千億模型,但大大降低了推理成本。 2023 年 6 月 27 日,第二代 ChatGLM 正式發布。在保留初代模型對話流暢、部署門檻低的基礎上引入更加 強大的性能、允許更多輪次的對話和更長的上下文、進行更高效的推理、允許更開放的協議。2023 年 7 月 15 日,智譜 AI 宣布 ChatGLM 允許免費商用。
商湯科技
商湯科技擁有深厚的學術積累,并長期投入于原創技術研究,不斷增強行業領先的多模態、多任務通用人 工智能能力,涵蓋感知智能、自然語言處理、決策智能、智能內容生成等關鍵技術領域。2023 年 4 月 10 日, 商湯 SenseTime 舉辦技術交流日活動,分享了以“大模型+大算力”推進 AGI(通用人工智能)發展的戰略布局, 并公布了商湯在該戰略下的“日日新 SenseNova”大模型體系,推出自然語言處理、內容生成、自動化數據標 注、自定義模型訓練等多種大模型及能力。 依托自研千億級參數自然語言模型,商湯科技 4 月 10 日發布了中文語言大模型應用平臺“商量 SenseChat”。 "商量SenseChat"是由商湯科技研發的一款基于自然語言處理技術的人工智能大語言模型,具備較強的語言理解、 生成能力,可以解決復雜問題,提供定制化建議,還能輔助創作文本,同時具備不斷學習進化的特性。 7 月 7 日,“商量 SenseChat”迭代至 2.0 版本,其基模型為商湯聯合多家國內頂級科研機構發布的書生·浦語 InternLM-123B,擁有 1230 億參數,在語言、知識、理解、推理和學科五大能力上均處于行業領先水平。
1.1.4 大模型行業整體發展評述
國外大模型發展趨勢: 美國人工智能企業引領行業發展。美國 OpenAI 的基礎大模型性能領先,目前已經在基礎大模型上開始快 速構建開發生態,Google 也在發力追趕過程中,Meta 通過開源大模型構建開源生態。美國在研發能力、人才儲 備、算力支持方面仍然占據一定優勢。我們預期,海外大模型將沿著多個維度持續演進。
更大的參數量、更多的訓練文本依舊是大模型的主要發展路徑。 OpenAI 論文《Scaling Laws for Neural Language Models》中提出著名的縮放法則,縮放法則中提到模型表 現和規模強相關,和模型的 shape 弱相關:規模包括模型參數量 N、數據集大小 D 和計算量 C,模型 shape 指模 型 depth、width、number of self-attention heads。Palm-2 technical report 中提到,訓練數據量和模型參數量大小保 持同比例增長是最優組合。 目前最先進的大模型 GPT-4 仍然高度符合縮放法則,簡而言之,模型越大性能越好,訓練的數據量越大模 型性能越好,這條法則仍然成立。通過單純的增加模型參數量和訓練數據量就可以實現更好的模型性能,可以 預期,在短期之內,不斷增加模型參數量依舊是提升模型性能的主要手段。
更多的模態到來,開啟全新的多模態時代。 文本、語音、圖片等單模態人工智能模型已經相對成熟,大模型正在朝著多模態信息融合的方向快速發展。 圖文多模態技術已經取得了顯著的進步,未來大模型不止滿足文字和圖像,開始向著音頻、視頻等領域拓展。
大模型的邏輯思維能力可能看到飛躍式提升。 大語言模型在文本的理解和生成上表現出色,但是涉及到數理邏輯推理時表現仍然有待提升。通過思維鏈、 思維樹的提示詞工程設計,大語言模型能夠將大型任務分解為較小且易于管理的子目標,內部的邏輯一致性顯 著增長,從而高效地處理復雜任務。
AI Agent 將成為我們接觸大模型的主要媒介。AI Agent 是有能力主動思考和行動的智能體,它們能夠使用傳感器感知周圍環境,做出決策,然后使用執 行器采取行動,甚至與別的 agent 合作實現任務。OpenAI 應用研究主管 LilianWeng 提出了 AI Agent 的重要組成 公式:Agent =大語言模型(LLM) + 規劃能力(Planning) + 工具(Tool) + 記憶(Memory)。AI Agent 相 比大語言模型的提升在于:與環境交互、個性化記憶、主動決策、合作機制。在生成式 AI 的不同應用等級中, AI Agent 是比聊天機器人更高層級的應用形態。
國內大模型發展趨勢: 國內大模型行整體依舊處于跟跑狀態,目前國內具備代表性的大模型在中文問答表現上已經與 ChatGPT 不 相上下,短期之內仍然是沿襲海外技術路線,模型規模的不斷增加和訓練語料的不斷擴充是當前的主要任務。 同時國內大模型的多模態能力仍處在起步發展階段,短期之內有望看到多模態能力的快速提升。受 ChatGPT 驅 動,2023 年國內大模型呈現迅猛發展局面,經歷近一年時間,國內大模型實現能力上的快速進步。根據賽迪顧 問,截至 2023 年 7 月,中國累計已經有 130 個大模型問世,其中有近一半的大模型在今年年內問世。 同時國內大模型的整體競爭格局也日益清晰,大致可以分為三類大模型:具備持續技術領先能力的閉源大 模型、具備領跑能力的開源大模型、具備垂類場景優勢的垂類大模型。大模型的每一次迭代更新都需要大量的 研發投入和算力投入,在一年時間內經歷多次的迭代更新,如未見顯著的技術領先優勢或特定場景的優秀商業 模式,或將無法維系大模型的持續投入。我們認為,目前國內大模型已經經過了高速發展的擴張階段,預期將 見到模型擴張速度的下降,競爭格局更為集中。
國內大模型格局: 具備技術持續領先能力的大模型:優秀的大模型人才、充足的算力資源、海量的優質數據、足夠的研發投 入是人工智能企業具備醞釀大模型的先決條件,在快速的迭代發展過程中,部分大模型展現出持續的技術領先 優勢,典型如百度文心一言、科大訊飛星火大模型。具備技術優勢的閉源大模型具備較強的變現能力。 開源大模型:開源大模型與頂尖的閉源大模型相比有一定的技術差距,其參數量和上下文窗口長度普遍相 對較小。但是開源模型借助社區的創新力量,實現了技術的快速迭代和應用拓展,成為大模型行業發展的重要 支撐。 具備垂類場景優勢的大模型:通用大模型可以幫助用戶解決一般性問題,而當企業需要處理其特定行業的 數據和任務時,往往需要針對其行業數據庫來對基本模型進行微調,垂直行業的特性和需求不盡相同,垂類場 景中的垂類數據是專業大模型競爭中的核心要素,專業數據驅動垂類模型百花齊放。
大模型商業模式: 大模型 C 端商業模式:1)以純軟件的形態輸出聊天機器人、包含大模型能力的各類軟件(例如 copilot)、 AI Agent(GPTs)等產品;2)融合大模型能力的各類智能硬件,例如 AI pin、智能音響、翻譯機、學習機等。 大模型 B 端商業模式:1)出售大模型 API 接口,向公司或開發者按照調用次數收費;2)直接賣大模型 開發服務,向傳統企業輸出大模型行業解決方案獲得收入;3)大模型配合 AI 服務器形成軟硬一體的產品,打 包向傳統企業輸出大模型行業解決方案;4)用大模型改造現有業務,提高產品的競爭力獲得更多商業回報,即 Model-As-A-Service (MaaS)模型即服務。
1.2 AI 前沿技術趨勢展望
1.2.1 AI Agent(AI 智能體)
AI Agent 指的是人工智能智能體,其能夠使用傳感器感知周圍環境,做出決策,并使用執行器采取行動。 OpenAI 應用研究主管 LilianWeng 提出了重要公式:Agent = LLM(大型語言模型)+ 記憶 + 規劃技能 + 工 具使用。 大型語言模型為 AI Agent 帶來了革命性進步,經過四大發展階段,逐步具備了高效推理、靈活行動、強大 的泛化以及無縫任務轉移的能力。發展歷程:AI Agent 經歷了符號智能體、反映型智能體、基于強化學習的智 能體、具有遷移學習和元學習功能的智能體四大發展階段,現在已經跨入基于大型語言模型的智能體階段。大 語言模型為 AI Agent 帶來了突破性的進展,同時具備了以上四大發展階段的優勢:1)通過思維鏈(CoT)和問 題分解等技術,基于 LLM 的智能體可以表現出與符號智能體相當的推理和規劃能力;2)通過從反饋中學習和 執行新的行動,獲得與環境互動的能力,類似于反應型智能體;3)大型語言模型在大規模語料庫中進行預訓練, 并顯示出泛化與遷移學習的能力;4)從而實現任務間的無縫轉移,而無需更新參數。 由于大模型仍存在大量的問題(如幻覺、上下文容量限制等),并且極度依賴于用戶自己給出指令,如果用 戶指令不夠清晰,就會影響整個模型的效果。能夠自己獨立思考、調用工具去逐步完成給定目標的 AI Agent 會 是從大模型通往 AGI 路上的下一個階段。
AI 智能體已經在多個下游逐步應用,包括社會科學、自然科學、工程學等領域,并表現出過去 AI 無法實 現的功能和性能。 自然科學領域中,AI Agent 主要應用在科學教育中,在實驗助理、文獻及數據管理方面也有所應用。例如 卡耐基梅隆大學的研究人員在 2023 年 8 月 14 日提出的編程教育 Agent CodeHelp,其提供了設定課程關鍵詞、 監控學生查詢以及提供反饋等功能。 工程學領域中,AI Agent 的應用最為廣泛,其中機器人&具身智能、計算機科學&軟件工程、通用 Agent 是最主要的應用場景。AutoGPT 是通用 Agent 的代表,其可以將設定好的一個或多個目標分解為相應的任務并 循環執行。自 AutoGPT 引發廣泛關注以來,相關研究持續推進,如 MiniAGI、SuperAGI、AutoGen 等。 社會科學領域中,AI Agent 應用在模擬實驗、心理學、政治與經濟學等場景中。例如著名的斯坦福小鎮 (Generative Agents),其在虛擬城鎮中構建了多個 AI Agent 來模擬人類的日常生活,大大降低了社會學實驗的 成本并避免了潛在的道德風險。 大語言模型具有強大的語言理解能力、復雜任務推理能力和知識積累,這些能力讓基于大語言模型的 AI Agent 在多個下游領域中展現出強大潛力,AI Agent 的發展也將讓大模型的“智慧”得以應用于解決更多現實 場景的問題,拓寬 AI 應用的邊界。目前 AI Agent 的技術框架已經較為清晰,后續隨各環節的技術革新以及各 場景數據收集等的持續推進,AI Agent 將加速發展,值得持續關注。
以下舉例幾個在不同領域應用的智能體實例:
1) 自然科學領域 AutoGPT&XAgent
AutoGPT 是一種開源的完全自動化智能體。AutoGPT 通過 API 結合了 GPT-3.5 和 GPT-4,允許用戶創建 使用語言模型來生成和改進文本。它可以閱讀、寫作和瀏覽網絡,它根據任務目標自己創建 prompt,然后再完 成這個任務,接下來重復這個過程直到達到最終目標。它還可以使用 GPT-4 編寫自己的代碼,并執行 Python 腳 本以遞歸調試、開發、構建和自我改進。目前已開發的應用場景包括:進行市場調研、生成博客大綱、開發應 用程序、搭建網站、為客戶提供服務、管理社交媒體賬號、成為財務顧問。 但目前 AutoGPT 的缺點也非常明顯,比如 GPT4 費用較高,對于一個小任務,如果按照平均 50 個步驟 來算的話,成本大概為 50 * 0.288 = 14.4 美元(約人民幣 98.5 元),此外 GPT 3.5 非常容易逃逸或者陷入死循 環。
2)工程學領域 MetaGPT
MetaGPT 是一個基于 GPT-4 的多智能體合作框架,該框架將人類的 SOP(標準化作業流程)編碼為 LLM 智能體,并從根本上擴展了解決復雜問題的能力。設計了一個新的元編程機制,包括角色定義、任務分解、流 程標準化和其他技術設計。這樣,MetaGPT 能夠使用 SOP 開發復雜的軟件。 核心優勢:1.引入元編程框架:在構建多智能體系統時具有極高的便利性和靈活性。2.整合人類 SOP 過程 設計:減少了基于 LLM 的多智能體協作中的錯誤,顯著提高了穩健性,使系統具備了系統化工程解決復雜任務 的能力。3.實現最先進的性能:經過對 python 游戲生成、CRUD2 代碼生成和與 AutoGPT、AgentVerse、LangChain 以及 MetaGPT 一起的簡單數據分析任務進行了全面實驗。整體結果顯示 MetaGPT 在代碼質量和預期工作流的 一致性方面都優于其對手。并且,MetaGPT 有潛力解決 LLM 中的幻覺問題,從而引導協作的 LLM 系統朝更有 效的設計方向發展。
3)自然科學領域 Humanoid Agents
以往的 Agents 會根據環境制定嚴格的計劃,但事實上這一過程與人類的思維方式并不完全相似。大多數人 不會提前制定計劃,然后在日常生活中一絲不茍地精確執行這些計劃,原因就在于 Agent 并沒有真正反映出人 類的基本需求、真實情感及人際間微妙的距離感。 為了減輕這一缺點的影響,研究者基于 ChatGPT 3.5 提出了仿人類機器人—Humanoid Agents,該模型引入 了基本需求(飽腹感、健康和能量)、情感和關系親密程度三大概念,來讓 Agent 表現得更像人類。利用這些元 素,Agents 就能調整自己的日?;顒?,以及和其他 Agent 的對話,而且也會像人一樣,遵守馬斯洛需求理論。 實驗表明 Humanoid Agents 對于活動是否增加飽腹感和能量;活動中表達的情感;對話是否拉近了參與者之間 的關系都能夠進行很好的預測,但是在分類活動是否滿足樂趣、健康和社交等基本需求方面略顯吃力。 在陪伴場景下(如虛擬戀人),更了解人類情感的 Agent 可以帶給人更優秀的情緒價值,提出更人性化的 建議,更好得滿足當代人的情感需要。
1.2.2 混合專家模型技術
混合專家模型(MoE)是一種稀疏門控制的深度學習模型,主要由一組專家模型和一個門控模型組成。MoE 的基本理念是將輸入分割成多個區域,并對每個區域分配一個或多個專家模型。每個專家模型可以專注于處理輸入的一部分,從而提高模型的整體性能。 門控模型:稀疏門網絡是混合專家模型的一部分,它接收單個數據元素作為輸入,然后輸出一個權重,這 些權重表示每個專家模型對處理輸入數據的貢獻。例如,如果模型有兩個專家,輸出的概率可能為 0.7 和 0.3, 這意味著第一個專家對處理此數據的貢獻為 70%,第二個專家為 30%。 專家模型:在訓練的過程中,輸入的數據被門控模型分配到不同的專家中進行處理,如右圖所示,不同的 專家被分配到處理不同種類的輸入數據;在推理的過程中,被門控選擇的專家會針對輸入的數據,產生相應的 輸出。 這些輸出(可以是標簽或者數值) 最后會和每個專家模型處理該特征的能力分配的權重進行加權組合, 形成最終的預測結果。 混合專家模型在訓練過程中通過門控模型實現“因材施教”,進而在推理過程中實現專家模型之間的“博 采眾長”。
混合專家模型通過僅激活少數專家模型處理輸入數據,提高訓練和推理效率。在傳統的密集模型中,對于 每一個輸入都需要在完整的模型中進行計算。在稀疏混合專家模型中,處理輸入數據時只有少數專家模型被激 活或者使用,而大部分專家模型處于未被激活狀態,這種狀態便是“稀疏”。稀疏性是混合專家模型的重要優 點,也是提升模型訓練和推理過程的效率的關鍵。 對于稀疏性的控制,主要通過調整門控網絡的設計和參數來實現。在參數選擇上,如果門控網絡單次選擇 的專家模型數量較多,則模型的稀疏性就會降低。單次選擇專家的數量越多, 模型的表現能力可能有所提升, 因為更多的專家模型處理輸入數據,所以導致稀疏性有所下降,增加計算的復雜性和耗時。因此, MoE 模型 的稀疏性在效率和表現能力之間存在權衡。根據不同的應用需求和資源限制,需要適當調整門控網絡的設計和 參數,來找到最佳的效率和表現能力之間的平衡。
在自然語言處理領域中,2017 年,谷歌首次將 MoE 引入自然語言處理領域,通過在 LSTM 層之間增加 MoE 實現了機器翻譯方面的性能提升。2020 年,Gshard 首次將 MoE 技術引入 Transformer 架構中,并提供了高效的 分布式并行計算架構。而后的 Swtich Transformer 和 GLaM 則進一步挖掘 MoE 技術在自然語言處理領域中的應 用潛力,實現了優秀的性能表現。 Switch Transformer:通過 MoE 技術對模型進行拓展,最大版本的 Switch Transformer 的參數量高達 1.6 萬 億。因其優秀的稀疏性,在計算資源相同的情況下,74 億版本的 Switch Transformer 訓練速度可以達到 T5 模型 的 7/2.5 倍(對應 T5 模型的不同版本,Large 為 7.7 億,Base 為 2.2 億)。同時在多任務的表現上也取得了相比 密集模型更為優秀的結果。 GLaM:最大的 GLaM 擁有 1.2 萬億個參數,大約是 GPT-3 的 7 倍。然而,它只消耗了訓練 GPT-3 所需能 量的 1/3,并在推理時只需要一半的計算浮點運算量, 計算效率更高。在零樣本、單樣本和少樣本學習任務上 也實現了更好的性能,在七個具體任務中分別實現了平均 10.2%、6.3%和 4.4%的性能提升。
在計算機視覺領域中,2013 年的 DMoE 便是在 MNIST 數據集上使用了密集的 MoE 層,2021 年的 V-MoE 將 MoE 架構應用在計算機視覺領域的 Transformer 架構模型中,同時通過路由算法的改進在相關任務中實現了 更高的訓練效率和更優秀的性能表現。 V-MoE 原理:V-MoE 通過將 ViT 中的一部分密集前饋層替換為稀疏的 MoE 層來實現,每個圖像塊被“路 由”到一組“專家”(MLPs)中進行處理,同時通過對圖像中重要信息的優先分析(優先級路由),使得模型可 以不需要分析所有信息便可以得到較為準確的結果,對于鴨子的圖片,通過將其中重要的 16 個 token 分配到 4 個專家處,便可以得到較為正確的分析,提升了模型運算效率。 V-MoE 性能:通過使用稀疏的 MoE 層,V-MoE 可以在保持性能的同時減少計算資源的使用,從而實現更 高效的模型訓練和推理。在兩個任務中,V-MoE 相較于 ViT 模型,達到相同性能的情況下節省了 2.5 倍的算力消耗,而在相同的算力消耗下,V-MoE 也實現了更優的性能。 同時,V-MoE 還可以用于其他計算 機視覺任務,如目標檢測和圖像生成。
在多模態領域中,2022 年的 LIMoE 是首個應用了稀疏混合專家模型技術的多模態模型,模型性能相較于 CLIP 也有所提升。 LIMoE 原理:將輸入的圖像/文本通過門控網絡分配到不同的專家模型中,鴨子(drake)的圖 片和對應的文字描述的 token 被分配到不同的專家中進行處理,每個專家處理完后通過輸出層為圖像或文本生 成一個統一的向量表示。 LIMoE 性能:在零樣本和 10 樣本的 ImageNet 分類任務中,LIMoE 的絕對平均性能相較于 CLIP 實現了 10.1 和 12.2%的提升,在 Coco T2I(文本到圖像檢索)任務上,LIMoE 也實現了較為明顯的性能提升,其中在小規 模模型上這一提升更為顯著。
1.2.3 機器人大模型
1.2.3.1 人工智能模型推動機器人控制革新
機器人控制系統相當于機器人的大腦,機器人控制算法則是其中的軟件核心。其核心功能是處理來自傳感 器的檢測信號,給出機器人下一步應該怎么做的指示。與傳統的機械系統控制算法相比,機器人控制算法是非 線性、多變量、時變的,且相較于傳統機械,機器人面臨的應用環境也更為復雜和多樣,這意味著機器人控制 算法有相當高的設計難度。 早期機器人控制算法主要采用 PID 算法,后續復雜的運動控制算法如 MPC 和 WBC 逐漸成為主流。PID 算法早在 1932 年由物理學家哈利奈奎斯特,而后便被廣泛應用在各類控制領域中,包括機器人控制領域中。但 由于 PID 方法本質上是線性控制器,因此無法處理較為復雜的任務。而后 1987 年提出的 MPC 算法和 2004 年 提出的 WBC 算法逐漸成為主流,讓更為復雜任務的處理成為可能,但同時也還存在著計算復雜度高、算力需 求高的問題。
1.2.3.2 谷歌:機器人大模型引領者
隨著各項人工智能技術的不斷發展,具備與物理世界交互的強大潛力的智能機器人成為學界和業界的重要 研究賽道。其中 Google 依托其在 AI 領域強大的研究團隊,豐厚的多領域研究成果,引領著近年來機器人模型 的發展。Google Deepmind 在 2023 年 6 月和 7 月發布了其最新研究成果,具備“自我完善”能力的“RoboCat” 和融合大語言模型能力的 VLA 模型“RT-2”,機器人智能化進一步加速,有望掀起新一輪 AI 革命。 從 Gato 到 RoboCat,更大規模的訓練數據集和創新的自我完善方法助力打造更強的機器人智能體。在 2022 年 5 月提出的 Gato 模型將智能體擴展到機器人控制領域中,但“通用性”和“智能性”仍有較大提升空間,其 模型架構和控制任務數據的序列化方式是后續模型發展的重要基礎。2023 年 7 月提出的 RoboCat 則基于 Gato 的模型基礎,將訓練數據集擴充至 400 萬個機器人相關片段,并創新性的提出“自我完善”的方式來進一步豐 富訓練數據,這兩點創新讓 RoboCat 在實現了訓練任務的性能提升并具備了一定的泛化性能,并且能夠在少量 數據微調的情況下處理未見過的任務。
1.2.3.3 Meta:持續探索在有限數據集情況下實現更優秀機器人控制的方法
近年來,Meta 一直是 AI 領域不可忽視的力量,前沿研究如 CV 領域的 SAM 模型,NLP 領域的 LLaMa均是相關領域的最前沿技術之一。在機器人模型領域,Meta 也已經展開了較為完善的布局,提出了一些卓有成 效的改進策略如數據增強、動作序列生成等,相關模型如 R3M、CACTI、ASC、MT-ACT 等,其他領域的核 心突破如 SAM 模型也應用到了其中。 從 R3M 到 MT-ACT,Meta 持續探索如何使用有限的數據集實現更優秀的機器人控制。在 2022 年 3 月推 出的 R3M 模型中,Meta 首次引入人類視頻數據作為機器人控制模型的知識來源,提升機器人模型訓練效率。 在 2022 年 12 月推出的 CACTI 模型中,使用數據增強技術實現了訓練數據規模高效擴充。2023 年 8 月推出的 MT-ACT 模型將數據增強技術(基于 SAM 視覺模型)和動作序列生成技術結合,在 7500 個原始訓練數據的情 況下,在不同難度的測試中分別實現了 81.67%、65.17%、31.33%的成功率,小規模數據表現優于其他可比模型。
二、AI 應用趨勢展望
2.1 AI+教育是人工智能落地的黃金賽道
教育行業因為其個性化學習訴求強、數據豐富度高、付費意愿強,成為人工智能的優質落地領域。不同地 區、學校和學生具備“因材施教”強個性化學習需求,教育領域的高數據豐富度為垂直大模型的訓練提供可能, 同時,教育作為剛需領域,學生、家長付費意愿普遍較強。AI 的發展使得以低成本的方式建設自適應學習系統 成為可能。具備較強理解能力的生成式人工智能可以持續為學生提供個性化教學服務,且隨著教學規模的擴大, 其人均成本逐漸下降,顯著降低了個性化學習的成本。
AI+教育主要有以下三點優勢: 一、教學環境及課程形式的靈活化。AI 技術的引入使得教學不再局限于課堂,學生可以隨時隨地獲得最新、 優質的學習資源,向 AI 助手請教。利用 AI 的高效多模態生成力,還可以呈現不同的課程形式營造更多的沉浸 感。 二、學習過程的個性化。AI 教育平臺往往具有教學、考試、批改、解答、集錯等多重功能,通過分析學生 在考試過程中的用時分配、錯題分類,發現學生薄弱環節,針對性提供學習資源、個性化的學習方案和改進方 案,即時給予反饋和評估。借助 AI 技術,針對性輔導成本大大降低,教育更好地適應每個學生的獨特需求和能 力水平。 三、教學活動的降本增效。對于教育資源有限的地區,相對較低成本的 AI 教育應用使得高質量資源更加 觸手可及,進一步促進教育公平;對于教學者,AI 軟件的批閱、評估功能大大減少了機械化勞動,使教師有更 多的精力投入到創造性的教學活動中,提高了教學效率。 隨著生成式人工智能技術的爆發,AI+教育邁向全新的發展階段。根據 Market Research 數據,生成式人工 智能在教育領域的市場規模將從 2022 年的 2.15 億美元上升至 2030 年的 27.4 億美元,CAGR 為 37.5%,其中面向學生端的市場規模大致占到全部市場規模的一半。
國家出臺 AI+教育的綱領性文件,頂層規劃驅動行業穩步發展。2018 年 4 月,教育部發布《教育信息化 2.0 行動計劃》,在行動規劃上提出不斷推動人工智能與教育深度融合,加快面向下一代網絡的高校智能學習體系建 設。2022 年 8 月,科技部發布《支持建設新一代人工智能示范應用場景》,針對青少年教育中“備、教、練、測、 管”等關鍵環節,運用學習認知狀態感知、無感知異地授課的智慧學習和智慧教室等關鍵技術,構建虛實融合與 跨平臺支撐的智能教育基礎環境。2023 年 6 月,教育部發布《基礎教育課程教學改革深化行動方案》,強調探 索利用人工智能、虛擬現實等技術手段改進和強化實驗教學以及遴選一批富有特色的高水平科學教育和人工智 能教育中小學基地。
2.1.1 AI+教育軟件
AI+教育軟件是人工智能落地的重要領域,多鄰國與可汗學院是全球市場上的領跑者。 自 2021 年起,多鄰國與 Open AI 達成戰略合作,推動了 AI 與教育的深度融合。在最新的 GPT-4 技術基礎 上,Duolingo 于 2023 年 3 月 14 日推出了家教功能,包括 Explain My Answer 和 Roleplay 兩大功能,并引入了 付費層“Duolingo Max”,旨在進一步實現“提供千人千面的個性化語言學習服務”的目標。該付費層不僅提供角色 扮演和解釋答案的功能,還新增了課堂教練,為用戶在提交答案之前提供小提示,優化學習體驗。Duolingo 接 入 GPT-4 后,月活用戶數實現大幅增長,2023Q3 月活躍用戶數(MAU)為 8310 萬人,同比增長 47.1%,其中 付費訂閱用戶為 580 萬人,同比增長為 56.8%。付費用戶數提升疊加會員費的提升帶來公司盈利能力的不斷增 強,公司 2023Q3 營業收入為 1.38 億美元,凈利潤為 281 萬美元,扭虧為盈。在財報電話會議中,多鄰國管理 層強調他們正在利用生成式 AI 技術加速 Stories 腳本的撰寫速度,使得完成任務更快、成本更低,同時質量也 不會降低。這一戰略應用使得多鄰國在 AI+教育領域具備獨特的優勢:游戲化的語言教學為其形成了差異化競 爭策略,深厚的技術積累構建了堅實的技術壁壘,同時積極將生成式 AI 技術融入產品中,優化用戶的學習體驗。 至 2023 年 11 月 30 日,公司股價累計上漲了 77.4%,凸顯了其在 AI+教育賽道上的卓越表現。進一步印證了多 鄰國在創新教育模式、提升用戶體驗方面的成功實踐。
2.1.2 教育信息化
我國教育信息化發展從 1.0 走向 2.0 時代。教育信息化 1.0:三通兩平臺是教育信息化 1.0 核心,教育信息 化 1.0 主要涉及基礎設施建設。2007 年 2 月,教育部發布《教育部關于做好國家教育考試考務管理與服務平臺 相關工作的通知》,提出在 2009 年高考前,在全國范圍內分批建立全方位發揮作用的國家教育考試指揮、管理、 監控體系,隨后一些列政策逐漸開啟教育信息化 1.0 時代。教育信息化 2.0:從基礎設施建設走向信息融合與應 用層面,核心是“三全兩高一大”。2018 年 4 月,教育部發布《教育信息化 2.0 行動計劃》,提出到 2022 年基本 實現“三全兩高一大”的發展目標,教育信息建設從注重信息裝備建設走向信息的深度融合。
財政在教育信息化領域的經費投入是中國教育信息化市場發展的主要動力,教育信息化經費占教育經費不 低于 8%,根據教育部公布的教育經費推算,2022 年教育信息化投入約 4908 億元,2014-2021 年中國教育信息 化經費投入復合增長率為 8.13%。根據《基礎教育信息化發展指數》,2019 年我國教育信息化經費投入中有 42.4% 的資金都用于硬件和相關設備的購置。海外教育信息化市場屬于后發市場,智能交互設備滲透率相對較低,整 體空間更為廣闊,市場增速相對更高。
2.1.3 教育智能硬件
智能硬件是指通過將硬件和軟件相結合對傳統設備進行智能化改造,對硬件與軟件的優勢進行了充分融合。 我國智能硬件在政策加持、技術賦能、消費升級等因素驅動下,市場規模以較高增速增長。智能硬件產品廣泛 應用于個人穿戴、養老陪伴、教育娛樂、運動健康等場景,為人民生活帶來智能化和便利化。智能學習設備服 務市場指旨在為學生提供教育服務的硬件設備市場,其最重要的特點是在提供教育服務過程中應用智能技術, 如 OCR 技術、AI 大模型應用及信息技術,以向學生及家長、教師提供更個性化的教育體驗。
從應用場景的角度來看,市場可以分類為主要服務于個人終端用戶的 To C 市場及提供數字校園教學解決方 案的 To B 市場。2021 年,中國的智能學習設備總市場規模達到 659 億元,預計到 2026 年,中國智能學習設備 的總市場規模將為 1450 億元,2021 年至 2026 年的復合年增長率為 17.1%。在政府持續支持并投入實現校園數 字化及智慧課堂升級的背景下,To B 分部于 2017 年至 2021 年經歷高速增長,2021 年我國 B 端市場規模達到 330 億,2026 年有望達到 709 億。相比而言,To C 學習市場目標人群較多,且輔助教育涵蓋從早教到成人教育, 有龐大及持續的需求。2021 年 To C 分部的市場規模為 329 億元,預計 To C 分部持續穩健增長至 2026 年的 741 億元。
從學習機市場結構來看,以步步高和讀書郎為代表的傳統主流智能教育設備廠商,仍占據市場的主要份額。 以科大訊飛和網易有道為代表的新型品牌憑借人工智能技術的支持和高科技屬性迅速擴大了市場規模。此外, 教育屬性極強的學而思和有道等轉型廠商也加入了市場競爭。根據 IDC 數據,2021 年國內市場占有率最高的步 步高學習機占比高達 28.9%,第二名讀書郎份額 6.1%,科大訊飛以 4.0%位列第五。
2.2 自動駕駛:算法架構優化,高階輔助駕駛滲透率預期提升
2.2.1 端到端模型實現算法架構優化,自動駕駛性能提升
“端到端”架構是自動駕駛發展未來主流方向。意為依靠輸入,直接輸出,所以對輸入內容要求較高。激 光雷達、雷達、照相機等都是感知系統的組成部分,其中激光雷達和雷達進行深度分析,攝像機進行探測,GPS 和里程表傳感器捕獲并繪制車輛的位置、狀態和相應的環境,進而在決策階段進一步利用。例如,以典型端到 端模型 TCP 和 UniAD 中,其都是用多種不同感知器一起使用去獲取相關信息,并生成相應的控制動作。多模 態在關鍵感知領域的性能優于單模態,結合多傳感器服務自動駕駛需求。特斯拉傳統邏輯是簡化輸入,優化局 部算法;但為了服務端到端模型需求,算法框架演變為增強輸入以優化整體算法,強化數據精準度,借助系統 冗余保證可靠性。
2021 年,端到端駕駛算法出現了重要轉折點。算法集中在多模態和 Transformer 等高級架構的結合,如 TransFuser 和其他變體?;趥鞲衅鲗Νh境的精確捕捉,閉環 CARLA 基準性能逐步提高;為了提升自動駕駛系 統的可解釋性和安全性,NEAT、NMP 和 BDD-X 等方法明確納入了多種輔助模塊。2023 年,研究強調優先生 成關鍵數據,即預先訓練一個大型策略學習基礎模型,如 UniAD,同時引入了新的 CARLA v2 和 nuPlan 基準。
特斯拉 FSD V12 在算法層面實現端到端。FSD Beta v12 完全是由神經網絡訓練而成,沒有任何一行人工寫 的規則代碼。馬斯克稱,控制是全自動駕駛最后一個難題,FSD Beta v12 使用 AI 替代傳統控制模塊使得控制代 碼減少約 2 個數量級。特斯拉原先的自動駕駛算法 HydraNets,也被成為九頭蛇網絡,是將每一個任務劃分為單 獨模塊,雖然在工程學上對每一個模塊進行優化,但卻沒法從全局提升汽車自動駕駛性能。 我們認為端到端將感知、預測與規劃集成在同一個網絡流程中,將自動駕駛建模成一個神經網絡驅動任務。 端到端使得算法中的所有模塊都直接服務于規劃,使得最終汽車做出規劃的效率提高,避免了模塊分散導致的 數據重復流轉。馬斯克表示 HW4.0 硬件目前暫時不受支持,主要原因是兩者數據不兼容,未來仍需針對 HW4.0 進行重新訓練。馬斯克稱目前制約訓練的因素不是工程師,而是訓練算力。特斯拉在 7 月份投產 Dojo,規劃到 2024 年 100E 算力(相當于 30 萬顆 A100 算力),預計 2024 年 2 月自身算力規模將進入全球前五;同時特斯拉 新到一批英偉達機器,訓練算力將大幅增強。
2.2.2 國內自動駕駛車廠勢頭依舊,高階輔助駕駛滲透率預期提升
國內自動駕駛車廠布局迅速,L3 級別及以上滲透率有望逐步提升。2023 年 1-10 月,理想、小鵬銷售量持 續走高,其中理想 10 月交付量達到 40422 輛,遠超其他兩家;蔚來自 7 月起回落幅度較大。伴隨智能化策略推 進、輔助駕駛功能強化,蔚小理三家英偉達 Orin 芯片占比將持續提升。在具體配置路線上,理想更為清晰,其 分 Pro 和 Max 兩大車型向下向上滲透市場,其中 Max 車型提供全場景智能駕駛,標配英偉達雙 Orin X 芯片滲 透率將繼續上升。2023 年交付量預測方面,理想預計全年銷售 30 萬輛,蔚來預計全年銷售 24.5 萬輛,小鵬預計全年銷售 20 萬輛。
9 月 12 日,華為正式發布問界新 M7 系列。硬件層面問界新 M7 配備 1 個頂置激光雷達、3 個毫米波雷達、 11 個高清視覺感知攝像頭及 12 個超聲波雷達等 27 個感知硬件。問界新 M7 通過搭載 ADS 2.0,汽車感知能力 有明顯提升:通過 GOD2.0 系統,對車外物體進行識別;通過 RCR 網絡,進行道路拓撲推理,擺脫高精度地圖。 問界新 M7 在安全性方面亦有較大提升。根據發布會介紹,主動安全方面,問界新 M7 首發全向防碰撞系統, 問界包攬各類主動安全評測第一名;被動安全方面,問界新 M7 車身結構匹配開模,重新改造焊裝產線,有效 提高車身剛度和碰撞安全性。ADS 2.0 自 2023 年 4 月發布以來,在 AI 訓練集群上構建了豐富的場景庫,每天 深度學習 1000 萬+km,持續優化迭代智能駕駛算法和場景策略,模型每五天迭代一次,訓練算力達到 1.8EFlops。 截至 2023 年 9 月數據,長距離 NCA 領航 MPI 高達 200km,城市高架匯入匯出成功率高達 99%+。到 23 年年底, ADS2.0 無圖城區商用計劃擴展到全國。11 月 9 日,華為宣布其問界新 M7 實現 86000 大定,其中 70%以上用戶 選擇智駕版,智能駕駛功能已成為消費者購車的重要決策因素之一。另外,11 月 15 日,小米汽車第一款車型 SU 7 申報,預計 2024 年上半年正式量產。
2.3 AI PC/Phone:端側 AI 發展,AI PC/Phone 將開啟新時代
2.3.1 技術升級帶動端側 AI 發展,推理精度提升
當前云側 AI 呈現向端側 AI 的轉型趨勢。端側智能化的核心在于數據、底層軟硬件、智能力三個方面。端 側設備搭載的傳感器、芯片、算法模型賦予其數據采集、計算、分析與推理能力,使其能夠在端側完成數據處 理閉環,形成感知、計算、推理三個智能力。 首先,大模型輕量化帶動端側 AI 發展。多個大模型均已推出“小型化”和“場景化”版本,提供了端側運 行基礎。例如,Google PaLM2 中包含 4 個大模型,按照參數規模,從小到大排列為:獨角獸(Unicorn)、野牛 (Bison)、水獺(Otter)和壁虎(Gecko)。其中,最輕量的“壁虎”可實現手機端運行,且速度足夠快,不聯 網也能正常工作。另一方面,“小型化”大模型加速生成式 AI 垂直方向發展,加速大模型商業化場景落地。
其次,支持 INT4、INT8 精度推理,端側 AI 能力進一步提升。定點表示和浮點表示是計算機中常用的數 據格式。其中,定點表示中小數點位置固定不變,常用的定點表示有 INT4 和 INT8;浮點表示中包括符號位、 階碼部分、尾數部分。符號位決定數值正負,階碼部分決定數值表示范圍,尾數部分決定數值表示精 FP64(雙 精度)、FP32 (單精度)、FP16(半精度)的數值表示范圍和表示精度依次下降,運算效率依次提升。高通產品管理 副總裁 Asghar 曾表示,如果將 32 位浮點模型轉化為 INT4 整數模型,端側 AI 能效將提升 64 倍。為滿足端側 AI 的計算需求,業內已有產品支持 AI 模型以 INT 精度推理,例如高通人工智能引擎 AI Engine 支持 INT8 的數 據格式。
部分 AI 框架已支持端側運行。在 2023 年 PyTorch 大會上,Meta AI 與 PyTorch 基金會合作的 ExecuTorch 模型被宣布可在邊緣和移動設備上實現 AI 推理。隨著 ExecuTorch 的開源,AI 應用程序將可實現本地運行,無 需連接到服務器或云。ExecuTorch 可被理解成 PyTorch 平臺,提供基礎設施來運行 PyTorch 程序,實現從 AR/VR 可穿戴設備到標準的 iOS 和 Android 設備的移動部署。目前,Meta 已將其用于最新一代的雷朋智能眼鏡,成為 Quest 3 VR 頭顯的組成部分。這一變化也預示將 PyTorch 引入了手機和可穿戴設備等邊緣計算平臺,進一步邁 入設備 AI 推理新時代。 端側 AI的核心是 AI PC/Phone。一方面,AI PC/Phone主要在于芯片升級。AI PC/Phone 相對于原有PC/Phone, 主要差別在搭載了相關的 AI 芯片。云端在深度學習的訓練階段需要極大的數據量和大運算量,為滿足運算需求, 云端 AI 芯片采用“CPU+加速芯片”的異構計算模式。不同于數據中心 GPU,手機/電腦端芯片主要要求其體積 小、功耗低等特點,往往是采用 ASIC 技術路線的芯片,這種芯片為專用目的設計,面向特定用戶需求定制, 在大規模量產的情況下具備體積更小、功耗更低等優點。
手機 AI 芯片主要由“CPU+GPU+NPU”構成,通過集成多個模塊,做到提升芯片性能的同時能支持相關 AI 應用算法。例如,以高通 AI 芯片為例,硬件方面 HEXAGON 向量處理器可以運行涉及向量數學的應用; ADRENO GPU 運行對浮點精度有要求的應用;KRYO CPU 支持相對較少向量處理、非規則性數據結構和/或復 雜流程。高通公司以近半的市場份額保持 AI 智能手機處理器出貨量領導地位,遠超蘋果和聯發科等其他公司。 高通驍龍 8 gen3 在手機芯片性能比較方面超越了蘋果 A17 Pro,其是高通首款專為生成式人工智能而精心設計 的移動平臺。該處理器最大的升級在 AI 引擎,可以在設備上運行生成式 AI 模型,上市初期即支持 20 多種 AI 模型;主打各種 AI 相機功能,例如從圖像和視頻中刪除對象、創建假背景、增強照片的某些部分、實時拍攝 HDR 照片、創建同時使用前攝和后攝拍攝的 Vlogger 視圖模式控制的應用。
2.3.2 2024 或成 AI PC/Phone 元年,AI PC/Phone 趨勢刺激行業回暖
端側 AI 核心在于手機和 PC,AI Phone 和 AI PC 將開啟新時代。從今年 2 月份舉行的世界移動通信大會, 高通展示了其手機端離線運行大模型,到 5 月份微軟開發者大會高通展示其 PC 運行 AI 大模型,再到近期英特 爾、聯想等發布 AI PC 加速計劃、發布首款 AI PC 等,可以看出,國內外廠商持續發力 AI Phone 和 AI PC, 端側 AI 將走入新的時代。 AI PC 方面,2023 聯想 Tech World 創新科技大會進行了端側大模型與云端大模型的比較。兩個模型同時進 行斯德哥爾摩音樂節的規劃,生成速度差異不大。值得注意的是,端側 AI 的規劃內容更加個性化,可以將家庭 地址、酒店偏好等考慮進去;10 月 19 日,英特爾宣布啟動 AI PC 加速計劃,該加速計劃旨在為相關軟硬件供 應商提供英特爾的資源,共同推動 AI PC 產品、方案落地,具體而言,通過利用 Intel Core Ultra 處理器的技術 和兼容硬件,圍繞相關資源,實現 AI 和機器學習(ML)應用性能最大化,進而催生全新的使用案例,推動 AI PC 解決方案連接到更廣泛的 PC 產業。英特爾預計其將于包括 Adobe 在內的 100 家獨立軟件供應商進行合作, 發展 300 多項 AI 加速功能,計劃將在音頻效果、內容創建、游戲、安全、直播、視頻協作等方面繼續強化 PC 體驗。據計劃目標,其將在 2025 年前為超過 100 萬臺 PC 帶來人工智能(AI)特性。
AI Phone 方面,10 月 4 日,谷歌發布 Pixel 8 / Pro 系列,搭載了 Tensor G3 和 Titan M2 安全芯片。Tensor G3 AI 芯片可運行更復雜的機器學習模型,強化了 Pixel 8 / Pro 系列的 AI 增強功能,使虛擬助理說話更自然,并有 攔截騷擾電話、轉錄語音和緊急服務功能。Pixel 8 Pro 號稱是第一款直接在設備上運行谷歌 AI 模型的手機,其 計算量是 Pixel 7 上最大 ML 模型的 150 倍;10 月 26 日,小米 14 系列發布,其首發搭載高通最新一代移動芯片 驍龍 8 Gen3,能效比提升顯著,AI 性能提升 98%。通過本地端運行大模型,提升了隱私性,并實現 AI 妙畫、 AI 搜圖、AI 寫真和 AI 擴圖等一系列功能。其中,AI 寫真功能可通過對多張照片的學習,創作出全新的照片 作品;在 14 系列的 WPS 上,也支持輸入主題一鍵生成 PPT 演示文稿,也能進一步細化調節,例如更改主題風 格、單頁美化、更改字體、更改配色、生成演講稿等等,解決了用戶使用 PPT 制作難度大、耗時長的辦公難題。
疫情以來,由于消費需求疲軟和庫存調整,全球智能手機出貨量下滑,2023 年前三季度為 8.4 億部,僅為 2022 年同期的 85%,但可以看出,22 年年底以來,全球智能手機銷量下降幅度開始縮窄,今年三季度,全球 智能手機銷量重回正增長;另一方面,從微軟財報可以看到,其個人電腦業務,也在 24 財年 1 季度(23Q3) 實現同比正增長,這也是從 23 財年 2 季度以來微軟個人電腦業務重新回歸正增長??梢钥吹饺蚴謾C與電腦業 務有復蘇跡象,預計 AI+Phone/PC 能進一步推動行業頹勢逆轉的同時也有助于帶動其自身起量。
伴隨 AI PC 逐漸出貨且 PC 換機周期已至,2024 或成 AI PC 元年。根據群智咨詢預測,到 2027 年,AI PC 出貨量將達到 1.5 億套,市場滲透率達到 79%,并逐步取代傳統 PC。當前,各大主要 PC 廠商都對 AI PC 業態 進行展望,AI PC 將成 PC 行業拐點成為共識。戴爾將推出帶有 Copilot 的新版 Windows,聯想首批搭載英特爾 Meteor Lake 芯片的 AI PC 也已推出。業界將逐步追加 AI PC 領域投資,重塑 PC 生產力。
我們看好由 AI PC/Phone 帶來的產業革新。將手機集成 AI,不僅可以實現語音助手、智能相機等基本功 能,還可以通過 AI 算法實現更加智能化的應用,如智能推薦、智能翻譯等,可以極大提升用戶的體驗,在智 能辦公、智能教育領域預計將有廣泛應用;AI PC 不僅可以進行高效的數據處理和計算,還可以通過機器學習 和深度學習等技術進行自我學習和優化,從而為各種行業提供更加智能化的解決方案;除此之外,AI PC、AI Phone 通過統一的大模型,實現全系統互聯,具有主動智能、全模態感知能力,在人機交互效果上有明顯提升, 將成為人們最直接的 AI 助手。
2.4 AI+工業是大勢所趨
AI 在垂直領域的落地和應用將是 2024 年的主線,我們尤其看好 AI 在工業場景的落地。一方面在國家戰略 和政策端,智能制造是大勢所趨,“AI+工業”在國家發展、技術架構中發揮重要作用。1)工業大國向工業強 國轉型,智能制造戰略是必由之路。工業與制造業緊密相連,制造業是工業的重要組成部分,工業和制造業的 發達程度將直接影響我國國際競爭力。中國是世界第一工業大國,具有優秀且深厚的工業基因。從工業大國向 工業強國的轉型之路是當下政策的熱點,也是未來重要的發展趨勢,智能制造戰略是這一路徑上的核心戰略之 一?!丁笆奈濉敝悄苤圃彀l展規劃》、《中國制造 2025》等政策進一步明確智能制造的發展目標、重點領域、重 大工程、重大項目,為智能制造的發展提供了政策支撐。2)“AI+工業”在智能制造系統與技術架構中處于核 心地位,是戰略發展的大趨勢。從系統架構層面看,智能制造系統的架構從底層數字化逐步過渡到網絡化,最 終目標為實現智能化,“AI+工業“處于系統架構頂層的“智能化”位置,工業場景下人工智能技術的應用是智 能制造戰略需要實現的核心課題。從技術結構層面看,人工智能技術與工業大數據、工業軟件、工業云、邊緣 計算等其他技術之間存在聯動效應。3)工業 4.0 時代到來,“AI+工業”技術是國際競爭焦點。工業 4.0 時代下, 利用物聯網、云計算等多元化先進技術實現實體世界與虛擬世界的交互將成為工業發展的重要環節。目前,全 球主要的工業國家在先進制造/智能制造方面均有布局,且均有涉及“AI+工業”的具體戰略。我們認為,在未 來,AI 技術與工業的深度融合仍將是國際競爭的焦點,實現 AI+工業是大勢所趨。
從需求端看,不斷增長的降本增效需求與多變的市場環境為“AI+工業”帶來廣闊的市場空間。目前,我 國工業的大部分行業仍處于勞動密集型發展階段,較低的智能化滲透率帶來包括誤差率高、生產效率低、生產 成本高等一系列痛點。1)降本增效需求驅動“AI+工業”需求:中國單位勞動產出在國際比較中處于較低水平, 2018 年美國勞動生產率為 11.3 萬美元,而中國僅為 1.4 萬美元。且國內老齡化趨勢顯著,根據國務院《國家人 口發展規劃》,2030 年,我國 14-45 歲人口占比將降至 32%,人口規模的減少將對企業生產成本帶來全新挑戰, 降本增效需求愈發成為企業競爭甚至生存的重要條件之一,在此背景下展望未來,“AI+工業”這一降本增效的 重要工具將被越來越多工業企業使用。2)市場變化大,精準化生產成為剛需:工業行業整體面對利潤率低,市 場需求變化快的壓力,智能化與精準化生產將成為未來大趨勢,而這背后離不開人工智能的強大分析能力。根 據德勤預測,2018-2025 年中國制造業人工智能市場有望實現 51%的 CAGR,并在 2025 年達到 141 億元規模。
2.4.1 工業機器視覺
2.4.1.1 機器視覺產業宏觀分析
工業機器視覺是軟硬件一體化的集成系統,它的目的是代替人眼對被測物進行觀察和判斷。從組成上,機 器視覺系統硬件設備主要包括光源、鏡頭、相機等,軟件主要包括傳統的數字圖像處理算法和基于深度學習的 圖像處理算法。
成像、算法、算力、應用接力驅動機器視覺行業,AI 算法的發展有望推動行業進入新時代。每經歷約十年, 機器視覺技術與應用都會產生一次深刻變革,近年來,AI 算法有望推動行業爆發式擴展。
此外,過去的工業機器視覺系統主要針對垂直場景的少量數據進行小模型的訓練,而大模型的發展將助力 工業機器視覺實現應用性能的提升和應用場景的拓寬。以華為盤古大模型在礦山場景的應用為例,其建立在 L0 的基礎大模型的技術上,通過導入海量無標注的礦山場景數據進行預訓練,盤古礦山大模型即可進行無監督自 主學習,僅一個大模型就能覆蓋煤礦的采、掘、機、運、通等業務流程下的 1000 多個細分場景,讓 AI 應用在 煤礦普及更容易。在準確率方面, 基于盤古礦山大模型的掘進作業序列智能監測,動作規范識別準確率超過 95%,用規范的 AI 流程來替代不確定的人工流程,讓 AI 成為礦工規范作業的好幫手,保障井下作業安全。 視覺大模型技術突破,賦能機器視覺的革新與突破。以近期 Meta 提出的 SAM 模型為例,其在切割任務的 不同具體場景中展現出了強大的泛化能力,在零樣本(zero-shot)和少量樣本(few-shot)的基礎上便能實現非 常優秀的完成不同的切割任務。同時,SAM 模型還具備高精度自動標注的能力,帶來數據標注成本的下降,相 關技術的發展與突破將從兩個方向賦能機器視覺產業變革:1)過去數據成本、訓練成本高的場景將有望實現降 本增效;2)過去因樣本數量不足而機器視覺難以應用的場景將得以拓展。
除人工智能技術的變革外,2D 到 3D 的變革同樣帶來技術能力和應用范圍的提升。相較于 2D 機器視覺, 3D 機器視覺可以提供三維信息,從而實現更廣泛、準確的檢測與分析。3D 機器視覺可以完成許多 2D 機器視 覺無法完成的任務。3D 相機可以得 到表面凹凸的深度信息,從而準確的判定劃痕和邊緣的凹陷。 3D 機器視覺覆蓋場景全面,市場空間廣闊。目前 3D 視覺技術在高精度檢測、高精度測量(例如彎管、不 規則件)、智能分揀、裝配(引導機械臂在三維空間內避障和定位)、物流車導航等更多場景中實現了相較于 2D 機器視覺更為廣泛的應用覆蓋,具有廣泛的市場空間,根據 GGII 測算,中國工業 3d 視覺 2021 年市場規模 11.51 億元。隨著我國高端制造業的發展,國內 3D 視覺的應用需求仍將持續保持高增長勢頭,預計到 2025 年達到 57.52 億的市場規模。
2.4.1.2 機器視覺產業鏈分析
機器視覺行業上游環節價值量大。關鍵零部件和軟件系統約占工業機器視覺產品總成本的 80%。工業相機、 底層軟件算法等技術壁壘高,利潤率高。對機器視覺上游環節的掌握是目前市場競爭的關鍵。同時,相機、鏡 頭、光源等核心零部件部件在機器視覺產品中的占比超過 50%。 國產低端零部件逐步實現國產替代,高端部件有待突破。技術門檻相對較低的零部件如光源,國產廠商憑 借性價比優勢及逐步體現的產能優勢在市場競爭中逐漸實現對于國外品牌的替代。技術門檻較高的零部件如光源及相機,我國企業進入較晚,目前產品仍主要布局中低端市場,高端市場仍主要被國外品牌占據。
機器視覺上游零部件廠商和中游系統/設備廠商通過產業投資/自主研發等方式逐步拓展產業鏈上下游布局, 以期進一步提升機器視覺產品性能,同時在競爭逐漸加劇的機器視覺行業中構建起更高的技術護城河。 奧普特、??禉C器人通過自主研發實現了機器視覺核心零部件、軟件算法的全覆蓋。凌云光通過產業投資 方式拓展 CMOS 傳感器芯片(長光辰芯)和工業鏡頭(長步道光電)布局,并自主開發特色相機、特種相機、 特色專屬光源和圖像采集卡;天準科技自主開發 3D 視覺傳感器(線激光傳感器),精密驅動控制器等視覺設備 上游零部件。 我們認為,在機器視覺相關的光學成像、軟件算法、自動化與精密控制等核心技術方面具有更深厚積累的 公司在競爭加劇、上下游互相滲透的發展格局中具備更強的競爭優勢,頭部的國產機器視覺廠商已經具備了和 海外龍頭相當的全產業鏈技術。
下游應用場景中,機器視覺在鋰電行業的滲透率逐步提升。隨著鋰電池制造智能化、自動化程度的提升, 機器視覺產品開始廣泛地應用于鋰電池設備生產的各個工段。從前段工藝的涂布輥壓,到中段工藝的電芯組裝, 再到后段化成分容之后的檢測以及模組 PACK 段,機器視覺應用滲透率在逐步提升。 品質管控需求明確,早期的鋰電行業擴產往往較少考慮質量管控,但隨著行業逐步從高速發展轉向高質量 發展以及用戶對于鋰電安全的更高需求,機器視覺已經成為鋰電池生產企業解決質量和效率問題的必然選擇, 據 GGII 預測,鋰電機器視覺檢測系統市場規模將保持高速增長,未來 5 年年復合增長率在 40%。 競爭格局優秀,在 3C 電子和汽車等行業中的機器視覺中海外巨頭有著更加強的技術積累和長期合作關系, 對于我國機器視覺企業的市場拓展產生一定阻礙,但鋰電池行業是近年來在我國發展起來的新興產業,因此其 中鋰電企業與我國機器視覺企業協同配合發展而來,國產化程度較高。 我們認為,鋰電行業行業整體增速較快,且鋰電中的機器視覺具備行業增速高、需求明確、競爭格局優秀 的優勢,在未來兩三年內有望維持高增速,是最具潛力的下游應用市場 。
2.4.2 工業機器人
2.4.2.1 移動機器人
AGV(Automated Guided Vehicle),即移動機器人,是工業機器人中的重要種類。AGV 可以在沒有人工干 預的情況下,按照可配置的導引路徑進行移動和定位;糅合了導航、移動、多傳感器控制、網絡交互等一系列 功能。AGV 在制造業、倉儲物流等工業場景有著廣泛的應用,可以提高生產效率、降低勞動成本、減少產品損 壞、提高安全性。其主要應用場景仍然在搬運領域。 隨著人工智能技術發展,AGV 的環境感知能力與靈活運動能力不斷提升,新一代自主移動機器人 AMR (Autonomous Mobile Robot)應運而生。相比 AGV,AMR 可以融合多重傳感器,具備深度感知能力和強大計 算能力,安全性和行駛的效率相對更高。
行業持續高速增長,發展勢頭強勁。從總量來看,2015 年到 2022 年,中國工業應用移動機器人市場規模 保持 7 年連續增長,CAGR 為 35.14%,2022 年中國工業應用機器人市場規模達到 76.8 億元。從增量來看,中 國工業應用移動機器人產量逐年增加,2022 年增量為 93000,同比增長 29.17%。
海外銷售規模不斷增長,中國 AGV/AMR 產品全球影響力進一步提升。2022 年,中國 AGV/AMR 企業在 海外市場的銷售規模進一步提升,2022 年,中國 AGV/AMR 企業海外銷售規模為 36 億,同比增長 44%,占比 19%。從 2019 年中國 AGV/AMR 海外銷售額首次突破 10 億人民幣到 2022 年的 36 億人民幣,中國企業整 體海外銷售占比取得顯著提升。
行業集中度高,大型企業占比接近九成,過億企業數逐年增長。2022 年度,中國工業應用移動機器人企業 中,年銷售規模億元以上的大型企業占據了 89.19%的市場份額,行業集中度高。行業向上的發展態勢帶動銷售 過億企業數量逐年增長,從 2018 年的 10 家增長至 2022 年的 42 家。截至 2022 年,中共工業應用移動機器人企 業中,有 4 家越過 10 億門檻,分別是新松機器人、極智嘉、??禉C器人以及海柔創新。
2.4.2.2 焊接機器人
焊接機器人是一種能夠自動執行焊接(包括切割和噴涂)任務的工業機器人。根據焊接方式、結構形式、 負載能力、工作范圍等因素的不同,焊接機器人業有不同種類。焊接機器人廣泛應用于鋼結構、航空、造船、 電子、機械等行業,可以提高焊接質量、效率和安全性,涉及的技術包括焊接電源技術、傳感器技術、離線編 程技術、智能控制技術、仿真技術等。
國內弧焊焊接機器人市場由外資主導,國產替代需求大。根據高工機器人研究所統計,2022 年外資弧焊機 器人仍占據主要份額,占比 54.97%,在汽車整車和零部件領域應用較多,主要分日系、歐系、國產三大派系。 日系品牌主要有安川、發那科、OTC、松下、川崎重工等,歐系品牌包括 KUKA、CLOOS 和 ABB 等;而國產 品牌則在程機械、二三輪車、五金家具、鋼結構等一般工業行業應用較為廣泛。 國內自主品牌弧焊工業機器人市場份額逐步提升,與外資品牌差距逐漸縮小。2022 年,國產弧焊機器人份 額已達 45.03%,同比增長 23.71%,國產替代速度加快。目前市場上尚未有成熟應用于鋼結構行業領域的智能焊 接機器人,主要潛在競爭產品為示教焊接機器人和進口智能焊接機器人。
焊接機器人銷量持續增長,鋼構行業市場較為空缺。高工機器人產業研究所(GGII)統計數據顯示,2021 年國內市場焊接機器人銷量為 4.16 萬臺,同比增長 21.99%,主要集中應用于汽車及 3C 電子領域,鋼結構領域 應用程度不高,而鋼結構行業對于自動化、智能化焊接方案的需求日益迫切。預計 2026 年焊接機器人銷量可達 到 10.3 萬臺,復合增長率達 16.38%。 海外焊接機器人進展迅速,“機器人四大家族”是行業龍頭,ABB 集團與發那科公司經營業務有亮點。1) ABB 集團:ABB 是工業機器人的先行者以及世界領先的機器人制造廠商,在 1994 年就進入了中國市場。經 過近 20 年的 發展,在中國,ABB 先進的機器人自動化解決方案和包括白 車身,沖壓自動化,動力總成和涂 裝自動化在內的四大系統 正為各大汽車整車廠和零部件供應商以及消費品、鑄造、塑 料和金屬加工工業提供 全面完善的服務。 2021 年,ABB 機器人為宇通打造一鍵式操作智能焊接工作站,基于本地自主開發免示教編 程系統,無需視覺識別即可自動生成包含有工藝參數的軌跡程序,完成不同規格的鋁框的智能化生產。2)FANUC (發那科): FANUC 公司創建于 1956 年的日本,是當今世界上數控系統 科研、設計、制造、銷售實力強大 的企業。FANUC 機器人產品系列多達 240 種,負重從 0.5 公斤到 1.35 噸,廣泛應用在裝配、搬運、焊接、 鑄造、噴涂、碼垛等不同生產環節,滿足客戶的不同需求。
智能化焊接市場需求迫切。1)鋼構產業焊接技工招工難且成本高,供給需求缺口大,對自動化、智能化 焊接方案的需求迫切。國內鋼結構產業滲透率持續提高,產品產量增加帶動鋼結構焊接市場需求。而鋼結構主 要應用于建筑、船舶、重工行業非標小批量工件多的工業場景中,焊接工序自動化程度低,基本大部分依賴大 量焊接工人完成焊接。人工焊接技術要求高、技工培訓周期長、焊接工作環境惡劣,已成為行業中最緊缺的勞 動力之一,焊接工人缺口量逐年遞增,復合增長率高達 50%。2021 年國內熟練焊工的年薪已達 18 萬元,對企 業帶來較大的成本壓力。2)智能化焊接可以保證焊接質量穩定,提高生產效率。傳統人工焊接受人為因素影響 較大,焊接質量穩定性差,生產效率低,且鋼結構加工涉及組立、矯正、裝配、打磨、拋丸、表面防腐等多道 工序,整個生產過程不透明,對生產進度、生產質量和生產異常的處理缺乏信息化管控,產品交付時常延期, 實現智能化焊接是提高生產效率和產品質量。
免示教智能焊接機器人符合鋼結構行業需求。鋼結構產業是典型非標生產行業,產品基本全為非標定制化 生產。鋼結構生產原材料基本為鋼板、 鋼管等,但由于規格、性能指標等因素的存在,原材料種類多,且受到 客戶需求、政策和設計師習慣的影響,每個部件的加工內容、方式及尺寸都有特定的要求。鋼構行業以中厚板 焊接為主,對設備精度和機器人技術要求高。大多應用弧焊機器人。 免示教機器人適合鋼構行業小批量非標柔性加工場景。傳統示教再現型機器人通過執行示教程序進行重復 性工作,對焊接工件一致性要求較高,且需要人工引導機器人進行預期動作編輯,多用于重復、標準化加工中, 如汽車、摩托車加工,對非標產品操作耗時長、效率低。免示教智能焊接機器人融合智能感知、智能規劃、智 能控制等技術,構成以知識和 推理為核心的智能焊接系統,通過與智能技術、工藝數字化技術等先進技術融合, 實現了面向不同作業場景、作業任務、作業工藝,與鋼構行業焊接需求高度契合。
2.4.3 工業軟件
2.4.3.1 工業軟件行業總覽
工業軟件是工業創新知識長期積累、沉淀并在應用中迭代進化的軟件產物。工業軟件的根基仍然是工業行 業本身,有賴于正向創新和行業創新知識的積累,是一個長期系統工程。任何工業知識都必須先形成完整的體 系,搭建出知識庫和模型庫,并在實踐中反復應用、更改,與工程緊密結合并不斷更新迭代,才有可能形成工 業軟件。因此,工業軟件是工業創新知識的載體,依靠軟件化這一關鍵過程,通過強大的軟件工程能力才得以 實現。軟件平臺與架構將直接決定工業軟件產品的生命力。 工業軟件可分為四大類,分別為研發設計軟件、生產控制軟件、信息管理軟件和嵌入式軟件,在工業生產 流程中發揮著不同的作用。1)研發設計軟件:面向各類工業品研發、設計、加工的基礎軟件,提高開發效率、 降低開發成本、縮短開發周期。2)生產控制軟件:基于工業生產的流程,負責生產的流程調度、流程控制、流 程監控,提升產品生產的自動化和智能化程度。3)信息管理軟件:服務于產品的“進銷存”環節信息以及企業 整體的業務管理信息助力企業實現數字化管理。4)嵌入式軟件:嵌入在硬件中的操作系統或開發工具軟件,提 高生產裝備智能化水平。
根據工信部、中國電子信息產業統計年鑒數據,我國工業軟件增速持續領先于全球工業軟件市場。2022 年, 我國工業軟件產品收入 2407 億元,同比增長 14.29%。2018 年至 2022 年,我國工業軟件產品收入年復合增長率 高達 16%。 目前制造業企業信息化率仍較低,未來仍有較大發展空間。從現階段看,我國制造業企業信息化率仍較低, 《2018 年中國制造業痛點分析報告》數據顯示,制造業企業的數字化設備聯網率僅為 39%、MES 普及率只有 18.1%。而《智能制造裝備產業“十三五”發展規劃》指出,到 2020 年,重點領域數字化研發設計工具普及率 達到 70%以上,關鍵工序數控化率達到 50%以上,數字化車間/智能工廠普及率達到 20%以上,我國工業軟件行 業未來仍有較大發展空間。從 ERP 的普及率來看,Gartner 的數據顯示,我國 ERP 的普及率(ERP/GDP)僅為 0.015%,遠低于美國的 0.059%。目前 3C、汽車、家電、化工、電力等行業是 IT 投入主要領域。其中,3C 行 業前五大企業連續三年 IT 投入成本最大,達到 450 億元。
2.4.3.2 工業軟件行業聚焦:CAD——計算機輔助設計
CAD 軟件是工業軟件中最關鍵、技術門檻最高的一類軟件,市場空間廣闊,增長態勢良好。CAD 軟件承接 產業鏈上游硬件設備、操作系統、開發工具等行業,服務下游發電、建材、化工、冶金、煤礦等應用領域;涉 及數學、物理、計算機及工程四大學科的專業知識,具備較高的技術壁壘。從上世紀五六十年代發展至今,CAD 從最初的機械制造逐漸拓展到建筑、電子、汽車、航天、輕工、影視、廣告等諸多行業領域。Autodesk、Dassault、 Siemens、PTC 等廠商憑借技術優勢和長期的市場積累占據主導地位,全球 CAD 市場增長趨于穩定。 全球工業軟件及 CAD 行業發展態勢向好,國內工業軟件及 CAD 行業保持增長態勢。工業軟件,特別是 CAD 軟件,具有應用廣泛、學科知識跨度廣、技術壁壘高等特點,增長態勢向好。近五年,全球工業軟件市場 規模與 CAD 市場規模保持穩定增長,其中全球 2016-2023 年 CAD 市場規模預計將實現 6.03%的 CAGR;國內 得益于數字經濟東風與國產化替代浪潮,工業軟件與 CAD 行業向上態勢明顯。
CAD 發展有賴于技術革命,關鍵技術的研發將是未來 CAD 行業競爭焦點,國產 CAD 軟件進步空間大。 CAD 行業發展史也是技術革命史,從 2-2.5D 模型到三維框線模型,從曲面造型技術到實體造型技術,從參數化 技術到變量化技術,不同時點的技術進步既帶來行業的騰飛,也造就新的行業龍頭,放眼未來,CAD 行業的發 展仍將聚焦于關鍵技術的研發上。
CAD 與 AI 結合是產業新趨勢,可以提高設計效率、優化設計質量、創造新的設計形式。第四范式的“式 說”大模型是一個基于生成式 AI 的新型開發平臺,具備文本、語音、圖像、表格、視頻等多模態交互及企業級 Copilot 能力,以生成式 AI 重構企業軟件(AI-Generated Software),提升企業軟件的體驗和開發效率。式說大模 型可以用來輔助或自動生成 CAD 3D 模型,用戶通過自然語言交互就可以調用工業軟件的功能,輔助完成設計。
回望海外 CAD 龍頭的發展史,可發現其競爭優勢各異,但核心技術的發展與對于用戶使用體驗的關注是 共同主線。海外三大 CAD 巨頭中,達索系統具有一體化+云化平臺 3DEXPERIENCE,同時具有功能各異的幾 何內核 CGM+ACIS,由此產生差異化 CAD 產品 CATIA+SOLIDWORKS,共同推動其占領不同類型市場,取得 領先地位。Autodesk 公司通過多次技術轉型構造競爭壁壘,同時不斷更新迭代產品應對需求,不斷改革定價策 略與商業模式以匹配其戰略,實現蓬勃發展。西門子密切關注云化+平臺化趨勢,開發 Xcelerator 開放式數字商 業平臺,構造開放的生態體系,創建功能完善且用戶體驗良好的 CAD 軟件。 海外 CAD 龍頭的并購史遵循三類并購邏輯。1)在技術層面進行第一類并購,針對突破核心技術的中小型 公司,獲取核心技術,提高競爭壁壘,進一步賦能產品研發。2)在市場層面進行第二類并購,針對具有垂直行 業知識或在某垂直行業取得領先地位的中小型公司,開拓垂直市場,獲取對應客群,節省落地成本。3)在生態 層面進行第三類并購,針對生態鏈條上缺失的 ERP、MSE 等類型軟件,完善生態系統,實現應用聯動。
CAD 國內領先公司發展態勢良好,包括中望軟件、浩辰軟件、華天軟件、數碼大方。1)中望軟件是領先的 All-in-One CAX 解決方案提供商,2D 領域具有自主內核產品平臺 ZWCAD。3D 領域具有自主建模內核 CAX 一 體化軟件 ZW3D,產品達到第二陣營技術指標標準,處于國內領先地位,業績發展良好,教育市場收入不斷增 加。2)浩辰軟件具有內置協同設計,致力于打造一體化國產 2D CAD 解決方案,同時發展云端,致力于建設國 內領先的云化 CAD 解決方案。2D CAD 為公司主要營收來源,未來看好云化 CAD 業務。3)華天軟件具有完全 自主產權,在模具行業處于領先地位,目前公司旗下有 CrownCAD、SINOVATION、Sview、SViewVIZ 等一系 列功能強大的軟件產品,營收年化增速達 11.2%,有望繼續增長。4)數碼大方實現深度產教融合,堅持以“企 業需求為導向,教學實訓為中心”。
三、國產算力自主可控
隨著大語言模型能力不斷升級,生成式 AI 帶來個人生產力革命,大語言模型爆發出巨大的應用潛力,模型 參數持續提升帶來更高的模型訓練算力需求,大模型的商業化落地催生了更大的推理算力和通信能力需求。從 需求端出發,我們測算了大模型帶來的 GPU 增量空間。 測算原理:從模型的(1)參數規模入手,根據(2)訓練大模型所需的 Token 數量和(3)每 Token 訓練成 本與模型參數量的關系估算總算力需求,再考慮(4)單張 GPU 算力和(5)GPU 集群的算力利用率推導得出 GPU 總需求。
(1)參數規模:過去幾年,大模型的參數量呈指數上升,GPT-3 模型參數量已達到 1750 億。GPT-4 具有 多模態能力,其參數量相比 GPT-3 會更大。我們在測算中假設 2023 年多模態大模型的平均參數量達到 10000 億個,之后每年保持 20%的增速;普通大模型的平均參數量達到 2000 億個,之后每年保持 20%的增速。 (2)訓練大模型所需的 Token 數量:參數規模在千億量級的自然語言大模型 GPT-3、Jurassic-1、Gopher、 MT-NLG,訓練所需的 Token 數量在千億量級,而一些多模態大模型在訓練過程中所需 Token 數據量也跟隨參 數量增長而增長,我們在測算中假設多模態大模型訓練所需 Token 數量達到萬億級別,并且 Token 數量與模型 參數規模保持線性增長關系。 (3)每 Token 訓練成本與模型參數量的關系:參考 OpenAI 發布的論文《Scaling Laws for Neural Language Models》中的分析,每個 token 的訓練成本通常約為 6N,其中 N 是 LLM 的參數數量,我們在測算中遵循這一 關系。 (4)單張 GPU 算力:因為在訓練大模型時,主要依賴可實現的混合精度 FP16/FP32 FLOPS,即 FP16 Tensor Core 的算力,我們在測算中選取 A100 SXM 和 H100 SXM 對應的算力 312 TFLOPS 和 990 TFLOPS 作為參數。 (5)GPU 集群的算力利用率:參考 Google Research 發布的論文《PaLM: Scaling Language Modeling with Pathways》中的分析,我們在測算中假設算力利用率約為 30%。 其他基本假設包括多模態研發廠商個數、普通大模型研發廠商個數等。根據所有假設及可以得到,2023 年 -2027 年,全球大模型訓練端峰值算力需求量的年復合增長率為 78.0%。2023 年全球大模型訓練端所需全部算 力換算成的 A100 總量超過 200 萬張,新增市場需求空前旺盛。
3.1 國產算力迎來高速發展期
2023 年 10 月 17 日美國商務部和安全局(BIS)發布一攬子規則,旨在更新對中國的先進計算芯片的出口 管制。出口管制清單 CCL 中的 ECCN 3A090 修正,該規則將于 2023 年 11 月 16 日起生效。以下條件,滿足 一個就受到出口限制: 3A090a:針對最高性能芯片(1): TPP 超過 4800(2): TPP 超過 1600,且 PD 超過 5.92。 3A090b:針對次高性能芯片(1): TPP 處于[2400,4800),且 PD 處于[1.6,5.92);(2): TPP 在[1600,+∞) 區間,且 PD 處于[3.2.5.92)區間。 其中 TPP 為總算力性能,PD 為性能密度,性能密度定義為:總處理性能/芯片面積。
2023 年 10 月 17 日的芯片出口管制禁令更為嚴格,雖然消除了之前的帶寬限制,但是算力限制更為嚴格。 主流的英偉達 H100、H800、A100、A800、L40S、RTX4090 等均在出口管制范圍內。
英偉達和 AMD 是目前全球 GPGPU 的領軍企業。英偉達的通用計算芯片具備優秀的硬件設計,通過 CUDA 架構等全棧式軟件布局,實現了 GPU 并行計算的通用化,深度挖掘芯片硬件的性能極限,在各類下游應用領域 中,均推出了高性能的軟硬件組合,逐步成為全球 AI 芯片領域的主導者。AMD 2018 年發布用于數據中心的 Radeon Instinct GPU 加速芯片,Instinct 系列基于 CDNA 架構,如 MI250X 采用 CDNA2 架構,在通用計算領域 實現計算能力和互聯能力的顯著提升,此外還推出了對標英偉達 CUDA 生態的 AMD ROCm 開源軟件開發平臺。 國內 AI 芯片廠商正逐步縮小與英偉達、AMD 的差距,出口管制下國產芯片快速發展勢在必行。英偉達憑 借其硬件產品性能的先進性和生態構建的完善性處于市場領導地位,國內廠商雖然在硬件產品性能和產業鏈生 態架構方面與前者有所差距,但正在逐步完善產品布局和生態構建,不斷縮小與行業龍頭廠商的差距。國內主 要 AI 芯片包括昇騰、寒武紀、海光信息、天數智芯等。
3.2 服務器:AI 時代全球服務器市場高速增長
3.2.1 AI 時代全球服務器市場高速增長,AI 服務器出貨量占比進一步提升
AI 服務器為算力基礎設施最重要硬件之一,與普通服務器的絕大多數空間分配給 CPU 相比,AI 服務器 采用異構形式,可根據應用的范圍采用不同的組合方式,一般采取 CPU+多顆 GPU 的架構,也有 CPU+TPU、 CPU+其他的加速卡等組合。相較普通服務器,AI 服務器更擅長并行運算,具有高帶寬、性能優越、能耗低等優點。對比 CPU 和 GPU 的內部架構,CPU 采用整塊的 ALU(運算單元),且大量空間用于控制單元和緩存,串 行計算能力強;而 GPU 采用分立的大量 ALU,很少空間分配給控制單元和緩存,并行計算能力強。而由于圖 像識別、視覺效果處理、虛擬現實、大模型訓練等任務都包含大量的簡單重復計算、矩陣計算等,更適合用搭 載 GPU 更多的異構型 AI 服務器進行處理,而隨著企業的智能化變革和通用大模型的興起,以 GPU 為核心的異 構型 AI 服務器將在算力基礎設施建設中占據愈發重要的地位。
IDC 預計,全球 AI 服務器市場將從 2022 年的 195 億美元增長到 2026 年的 347 億美元,五年年復合增長率 達 17.3%;其中,用于運行生成式人能的服務器市場規模在整體人工智能服務器市場的占比將從 2023 年的 11.9% 增長至 2026 年的 31.7%。隨著數據量的持續提升,大模型參與玩家和單個模型參數量提升,以及數字化轉型推 進等多因素影響,AI 服務器市場規模將繼續保持較快增長;2022 年中國 AI 服務器市場規模 67 億美元,同比增 長 24%。其中 GPU 服務器占據主導地位,市場份額為 89%至 60 億美元。同時,NPU、ASIC 和 FPGA 等非 GPU 加速服務器以同比 12%的增速占有了 11%的市場份額,達到 7 億美元。預計 2023 年,中國人工智能服務器市場 規模將達 91 億美元,同比增長 82.5%,2027 年將達到 134 億美元,五年年復合增長率為 21.8%。
3.2.2 AI 服務器市場集中度有望提升,國內廠商呈現一超多強格局
據 IDC 數據,2022 年上半年全球 AI 服務器市場中,浪潮信息、戴爾、惠普、聯想、新華三分別以 15.1%、 14.1%、7.7%、5.6%、4.7%的市場份額位居前五位。市場格局相對分散,龍頭廠商份額較為接近。此外,由于以 北美云廠商為主的需求方偏向于采用 ODM 模式,因此非品牌商份額占比較高,接近 50%。 據 IDC 數據,2022 年我國 AI 服務器市場按銷售額統計市場份額中,浪潮信息、新華三、寧暢位居前三位, 市場份額分別為 47%、11%、9%。市場格局呈現一超多強局面,除浪潮外其與廠商份額相對接近。由于國內頭 部廠商采用類 ODM 模式服務互聯網客戶,因此 ODM 廠商份額占比偏低。
四、大模型技術基座國產化
4.1 EDA 算法國產替代
EDA 板塊:增速穩定、高壁壘、高估值板塊。1)增速穩定:EDA 公司商業模式大多數為按年付費,一般 收費在 IC 設計公司收入的 1%-3%之間,占 IC 公司收入比重較低,并且 EDA 公司議價權較高,因此對于成熟 穩定的客戶,每年給 EDA 公司付費基本穩定或者略有增長,商業模式和高壁壘決定了 EDA 公司受下游需求波 動影響較小。EDA 行業增長一是受益于 IC 設計門檻降低,IC 公司數量越來越多,二是 IC 品類不斷拓張,比如 第三代半導體的出現,三是伴隨著先進制程迭代,產品復雜度提高帶來的單價提升。加上盜版等因素的存在, 實際上有部分需求并未體現在 EDA 公司收入中,通過盜版的不斷轉化,EDA 龍頭公司中長期均保持穩定增長。 2)高壁壘;技術壁壘本身較高,需要強大的數學物理基礎理論支撐,對算法要求很高。同時用戶協同壁壘較高, 制造、設計、EDA 廠商三方形成穩定的生態圈,新進入者極難打破。因此,高壁壘以及良好的業務穩定性和成 長性,使得 EDA 公司如新思科技、Cadence 在美股半導體板塊中估值一直相對較高。
EDA 行業保持穩定增長,國內增速更快。根據賽迪數據,2020 年全球 EDA 行業實現總銷售額 72.3 億美元, 同比增長 10.7%。預計至 2024 年,全球市場規模有望達到 105 億美元,2020-2024 年復合年均增長率為 7.8%。 2020 年國內 EDA 市場規模為 66.2 億,預計至 2024 年,我國 EDA 工具市場規模有望達到 115 億元人民幣,2020 至 2024 年的市場規模符合年均增長率近 17%。
EDA 結合人工智能是趨勢。EDA 問題具有高維度、不連續、非線性和高階交互的特性,機器學習等算法 能夠顯著提高 EDA 的自主程度,提升 IC 設計效率,縮短研發周期。人工智能賦能 EDA 主要從 Inside 和 Outside 兩方面實現,從 Inside 方面,通過機器學習對 DRC、能耗、時序等預測,在參數模型建立過程中實現參數的優 化,同時實現更高效的物理空間設計。Outside 方面,通過機器學習方式,減少人工干預,極大釋放勞動力。
EDA巨頭積極進行人工智能與芯片設計的深度融合。EDA巨頭Cadence發布了內嵌人工智能算法的Innovus, Project Virtus,Signoff Timing 等工具,實現了全流程數字化智能化。Mentor 通過機器學習 OPC 將光學鄰近效應 修正(OPC)輸出預測精度提升到納米級,同時將執行時間縮短 3 倍。Synopsys 推出業界首個用于芯片設計的自 主人工智能應用程序——DSO.aiTM。英偉達發布大語言模型 ChipNeMo,輔助工作人員完成與芯片設計相關的 任務,可以回答有關芯片設計的一般問題、總結 bug 文檔,以及為 EDA 工具編寫腳本等。 國產 EDA 產商迎來新戰略機遇期。目前全球 EDA 工具上大約有近百家,排名前三的公司分別是新思科技 (Synopsys)、鏗騰電子(cadence)和明導(Mentor),三家巨頭占據著全球近 7 成左右的市場份額,在中國的 市占率更是超過 95%。2022 年 8 月生效的《2022 芯片與科學法案》對 EDA 軟件進行了出口管制,在中美貿易 戰、科技戰持續深化的背景下,加強對卡脖子的關鍵核心技術研發的支持成為半導體領域的重點,半導體芯片的軟硬件國產化比例不斷提升,芯片核心技術自主可控勢在必行,國產 EDA 廠商迎來重要的發展機遇。
評論