微軟亞研院新作:讓大模型一口氣調用數百萬個 API
近年來,人工智能發展迅速,尤其是像 ChatGPT 這樣的基礎大模型,在對話、上下文理解和代碼生成等方面表現出色,能夠為多種任務提供解決方案。
本文引用地址:http://www.ex-cimer.com/article/202403/456948.htm但在特定領域任務上,由于專業數據的缺乏和可能的計算錯誤,它們的表現并不理想。同時,雖然已有一些專門針對特定任務的 AI 模型和系統表現良好,但它們往往不易與基礎大模型集成。
為了解決這些重要問題,TaskMatrix.AI 破繭而出、應運而生,這是由微軟(Microsoft)設計發布的新型 AI 生態系統。
其核心技術近期在《科學》合作期刊 Intelligent Computing 上發表的論文 TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs 中正式亮相,作者為微軟亞洲研究院的段楠博士團隊:
(詳見鏈接:https://spj.science.org/doi/10.34133/icomputing.0063)
TaskMatrix.AI 將基礎大模型與數以百萬計的應用程序編程接口(APIs)連接起來完成任務。
其核心思想是利用現有的基礎大模型作為類似大腦的中央系統,結合其他 AI 模型和系統的 APIs 作為各種子任務解決者,以完成數字和物理領域的多樣化任務。
▲ 圖由 DALL?E 3 生成
TaskMatrix.AI 如何工作?
TaskMatrix.AI 的整體架構由以下四個關鍵組件構成:
多模態對話基礎模型(MCFM):負責與用戶溝通,理解他們的目標和上下文(多模態),并基于 API 生成可執行代碼以完成特定任務。MCFM 能夠處理文本、圖像、視頻、音頻和代碼等多模態輸入,生成執行特定任務的代碼。它還能夠從用戶指令中提取具體任務,并提出合理的解決方案大綱,幫助選擇最合適的 API 進行代碼生成。
API 平臺:提供一個統一的 API 文檔架構,用于存儲數以百萬計具有不同功能的 API,并允許 API 開發者和所有者注冊、更新和刪除他們的 API。API 平臺通過統一的文檔架構幫助 MCFM 更好地理解和利用各種 API。
API 選擇器:根據 MCFM 對用戶指令的理解,推薦相關的 API。API 選擇器具備搜索能力,能夠在擁有大量 API 的平臺上快速定位到與任務需求和解決方案大綱相匹配的 API。
API 執行器:通過調用相關 API 執行生成的動作代碼,并返回中間和最終的執行結果。API 執行器設計用于運行各種 API,包括從簡單的 HTTP 請求到復雜的算法或需要多個輸入參數的 AI 模型。
以上四個組件協同工作,共同構建了一個高效的系統。MCFM 作為用戶交互的主要接口,負責生成解決方案。API 平臺則提供了一個標準化的 API 文檔格式,并作為一個集中存儲庫,容納了數百萬 API。API 選擇器根據 MCFM 對用戶需求的理解,從 API 平臺中選取合適的 API。
最后,API 執行器負責執行由選定 API 生成的代碼,并解決任務。
此外,TaskMatrix.AI 還提供了兩個可學習的機制,以更有效地將 MCFM 與 API 對齊:
基于人類反饋的強化學習(RLHF):這是一種基礎大模型的通用技術,它使用強化學習方法,利用人類反饋來優化機器學習模型。在 TaskMatrix.AI 中,RLHF 利用這些反饋來增強 MCFM 和 API 選擇器,從而在處理復雜任務時實現更快的收斂和更好的性能。
向 API 開發者提供反饋:TaskMatrix.AI 完成任務后,會將用戶反饋以適當的方式傳遞給 API 開發者,指示他們的 API 是否成功用于完成任務。這種包含 <用戶指令、API 調用和用戶反饋> 的三元組不僅展示特定 API 的使用情況,還可以作為 API 開發者改進 API 文檔的參考,使文檔對 MCFM 和 API 選擇器更加友好和易于理解。
因此,TaskMatrix.AI 可以被視為一個超級 AI,同時也是一個生態系統,具有以下關鍵優勢:
能夠通過使用基礎大模型作為核心系統,首先理解不同類型的多模態輸入(如文本、圖像、視頻、音頻和代碼),然后生成調用 API 完成任務的代碼,來執行各種數字和物理任務。
擁有一個 API 平臺,作為各種任務專家的存儲庫。該平臺上的所有 API 都有一致的文檔格式,這使得基礎大模型可以輕松使用它們,開發者也便于添加新的 API。
具有強大的終身學習能力,因為它的技能可以通過向 API 平臺添加具有特定功能的新 API 來擴展,以處理新任務。
能夠提供更加可解釋的響應,因為任務解決邏輯(即行動代碼)和 API 的結果都是可理解的。
TaskMatrix.AI 能完成什么任務?
TaskMatrix.AI 能完成的任務非常廣泛,小到文字、圖像信息的基本信息處理,大到控制機器人平臺、接入物聯網(IoT)等通用平臺任務,TaskMatrix 都能勝任。
圖像處理任務
TaskMatrix.AI 可以執行圖像處理任務,并且能夠接受語言和圖像作為輸入。下圖展示了 TaskMatrix.AI 的相關版本 Visual ChatGPT,它不僅能夠理解人類意圖,還能處理語言和圖像輸入,以完成包括圖像生成、問題回答和編輯在內的復雜視覺任務。
下圖展示了使用多個 API 協作生成高分辨率圖像的示例。在該例中,解決方案框架由 3 個 API 組成:圖像問答、圖像標題以及圖像對象替換。
左側框線部分展示了解決方案框架如何協助將圖像擴展至 2048×4096 分辨率。通過迭代執行框架中的預定義步驟,TaskMatrix.AI 可以生成任何所需尺寸的高分辨率圖像。
辦公自動化
TaskMatrix.AI 能夠通過語音指令理解并自動執行計算機操作系統、專業軟件以及智能手機應用的操作。利用 TaskMatrix.AI,可以快速上手復雜軟件。
此外,它還能幫助用戶在不進行搜索的情況下直接訪問所需功能。以下是一個 PowerPoint 自動化的實例,TaskMatrix.AI 能夠根據用戶指定的主題自動生成幻燈片,智能調整內容布局,插入和優化圖像,并應用相應的設計主題,從而顯著提升工作效率。
機器人和物聯網設備控制
TaskMatrix.AI 可以連接機器人和物聯網設備,實現對體力勞動和智能家居操作的自動化管理。通過集成先進的機器人技術,TaskMatrix.AI 能夠執行一系列任務,如物體的拾取與放置以及對家庭物聯網設備的智能控制。
此外,該平臺還整合了多種流行的互聯網服務,包括但不限于日歷 API、天氣 API 和新聞 API,提供了更加豐富和便捷的用戶體驗。
TaskMatrix.AI 的挑戰
盡管 TaskMatrix.AI 已經在各種任務中證明了其強大的功能和通用性,但仍面臨以下幾個挑戰:
多模態會話基礎大模型:TaskMatrix.AI 需要一個能夠處理多種輸入(文本、圖像、視頻、音頻和代碼)的強大基礎大模型。這個模型需要能夠從上下文中學習,使用常識進行推理和計劃,并生成高質量的代碼來完成任務。此外由于 TaskMatrix.AI 需要處理更多樣化的輸入模式,這要求確定一個最小模式集來訓練 MCFM。
API 平臺:構建和維護一個包含數百萬 API 的平臺需要解決文檔生成、API 質量保證和 API 創建建議等挑戰。API 文檔的清晰性和 API 的質量對于 TaskMatrix.AI 的成功至關重要。此外,平臺還需要根據用戶反饋指導 API 開發者創建新的 API 來解決特定任務。
API 調用:在處理大量 API 時,TaskMatrix.AI 需要能夠合理選擇和推薦相關的 API 來完成任務。此外還涉及到在線規劃,即在無法立即生成解決方案時,與用戶交互并嘗試不同的解決方案。
安全和隱私:在 API 能夠訪問物理和數字世界時,確保模型忠實于用戶指令并保持數據私密性是至關重要的。這要求在執行操作前驗證模型的行為,并確保數據傳輸的安全性和數據訪問的授權。
個性化:TaskMatrix.AI 需要個性化策略來幫助開發者構建定制的 AI 界面,并為用戶提供私人助理。這包括降低擴展成本和使用少量示例來學習用戶的偏好,以便生成符合用戶需求的解決方案。
關于 Intelligent Computing
Intelligent Computing 由之江實驗室和美國科學促進會(AAAS)共同創辦,是《科學》合作期刊框架中智能計算領域的第一本開放獲?。∣pen Access)國際期刊。期刊以「面向智能的計算、智能驅動的計算」以及「智能、數據與計算驅動的科學發現」為主題,主要刊載原創研究論文、綜述論文和觀點論文。
評論