<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 智能計算 > 編輯觀點 > 大模型亂斗 GPT-4迎來“雙子”星?

          大模型亂斗 GPT-4迎來“雙子”星?

          作者:陳玲麗時間:2023-12-14來源:電子產品世界收藏

          距離ChatGPT發布,已經過去一年零一周。伴隨著ChatGPT的發布,成為了人工智能領域最耀眼的公司,尤其是在領域,它也是其他所有科技公司的追趕目標,當然也包括。

          本文引用地址:http://www.ex-cimer.com/article/202312/453917.htm

          一直把「AI-first」作為公司戰略,2016年吸引了全球目光的AlphaGo便是最好的證明。事實上,才是在2017年提出Transformer模型、為今天這場游戲制定規則的先行者。毫不夸張地說,是谷歌掀起的第一波AI浪潮,改變了整個AI行業的發展。但現在,它亟需在領域證明自己。

          Gemini:谷歌重新證明自己

          12月6日,谷歌正式發布了Gemini。谷歌CEO桑達爾·皮查伊 (Sundar Pichai) 稱,這是谷歌迄今為止功能最強大、最通用的模型,也是谷歌新時代的開始。

          Gemini是Google Brain和DeepMind合并組建Google DeepMind之后的首個重要產品。而在Gemini發布之前,谷歌在生成式AI和LLM方面主推的兩款模型PaLM 2和LaMDA,在用戶當中收獲的評價一直不高,相對于業界領軍的差距很大。

          目前,谷歌計劃通過谷歌云將Gemini授權給客戶,供他們在自己的應用程序中使用。據悉,在Gemini 1.0版本中包含三個不同尺寸,分別是Nano、Pro、Ultra。

          640.gif

          · Gemini Nano:有1.8B和3.25B兩個版本,分別針對低內存和高內存設備,用于特定任務和移動設備,支持在本地部署;目標是創建一個盡可能強大的Gemini版本,但同時不會占用手機的存儲空間或使處理器過熱。

          · Gemini Pro:是性價比優化的版本,具有良好延展性,在推理、多模態等方面也有較強能力,可以在幾周內完成預訓練,在多項測試中僅次于V,強于PaLM2、Claude2、LLaMA2、GPT3.5等主流大模型;從發布會當天開始,谷歌聊天機器人Bard將使用Pro來實現高級推理、規劃、理解和其他功能。

          · Gemini Ultra:是最大、功能最強大的類別,在對應的TPU基礎設施中能夠展現出最高效率,在多項測試中Ultra版本性能超過V,被定位為GPT-4的競爭對手;谷歌稱目前正在進行信任和安全檢查,以及通過微調和基于人類反饋的強化學習(RLHF)進一步完善模型,預計明年初,谷歌將推出使用Gemini Ultra的Bard Advanced,會是Bard發布以來的最大更新。

          在性能測試上,Gemini Ultra在32個大語言模型基準測試中的30個中超過了當前最優成績,另外在MMLU(大規模多任務語言理解)中,Gemini Ultra的得分為90%,成為首個超越人類專家的大模型。

          MMLU通過結合數學、物理、歷史、法律、醫學和倫理學等57個科目,來測試大模型對世界知識和解決問題的能力。此前,GPT-4在該測試中的成績為86.4%,而人類專家的成績為89.8%。

          從自然圖像、音頻和視頻理解到數學推理,在被大型語言模型研究和開發中廣泛使用的32項學術基準中,Gemini Ultra的性能有30項都超過了目前最先進的水平;圖像理解方面,在新的MMMU(專家AGI的大規模多學科多模式理解和推理)基準測試中,Gemini Ultra的表現也更優,其得分率達59.4%,GPT-4V的得分率為56.8%。

          在對比Gemini和GPT-4的基準測試中,Gemini最明顯的優勢來自于它理解視頻和音頻并與之交互的能力,這很大程度上是設計使然:多模態在最開始就是Gemini計劃的一部分。谷歌沒有像構建DALL·E(文生圖模型)和Whisper(語音識別模型)那樣單獨訓練圖像和語音模型,而是從一開始就建立為一個多感官模型。

          640.jpeg

          最大亮點:原生多模態模型

          目前,創建多模態模型的標準方法主要是通過分別針對不同模態訓練單獨的組件,再將這些組件組合起來以模擬多模態功能的方法構建的。但這樣操作的結果是,這些模型有時在執行某些任務(如描述圖像)方面表現良好,但在處理需要更深層次概念理解和復雜推理的任務時,它們的表現往往不盡人意。

          640-2.gif

          而谷歌將Gemini設計為原生多模態,區別于其他既有的多模態模型,它從一開始就針對不同模態進行了預訓練,再通過使用額外的多模態數據進行微調,進一步提升了模型的有效性。這意味著Gemini一開始就能無縫理解和推理不同類型的信息,包括文本、代碼、音頻、圖像和視頻,遠遠優于現有的多模態模型。

          這種原生的多模態訓練方法使得Gemini在處理多種類型的數據和復雜任務時更為高效和精準,從而在多模態人工智能領域樹立了新的標準。原生多模態能力意味著模型能夠更自然、高效地處理和融合多種類型的數據,這在實現更復雜的AI應用方面具有重要意義。

          人類在理解世界時自然地融合了視覺、聽覺和語言等多種感官信息。一個具有本地多模態能力的AI模型在處理信息時也采用了類似的綜合方式,這更接近于人類的理解和認知方式。

          想要實現AGI(通用人工智能),就需要AI做到像人類一樣從容地解決不同領域、不同模式的復雜任務,在這個過程中,除了基本的計算、推理等基礎能力,相對應的文字、圖像、視頻等多模態能力也要跟上。

          · AGI-0:基本的人工智能,能夠在特定的領域和任務上表現出智能,如圖像識別、語音識別、自然語言處理等,但不能跨領域和跨模態地進行學習和推理,也不能與人類和其他AI進行有效和自然的溝通和協作,也不能感知和表達情感和價值。

          · AGI-1:初級的通用人工智能,能夠在多個領域和任務上表現出智能,如問答、摘要、翻譯、對話等,能夠跨領域和跨模態地進行學習和推理,可以與人類和其他AI進行基本的溝通和協作,能夠感知和表達簡單的情感和價值。

          Gemini的演示視頻,充分展現了它對各個模態交互的深刻理解,能看、能說、能推理、能夠感知和表達簡單的情感和價值,也讓我們看到了AGI-1的潛在可能性。

          經過訓練,Gemini可以同時識別和理解文本、圖像、音頻等,因此它能更好地理解微妙的信息,并能回答涉及復雜主題的問題,比如進行數學和物理等復雜學科的推理。

          而在編碼方面,Gemini能夠理解、解釋和生成世界上最流行的編程語言(如Python、Java、C++和Go)的高質量代碼。兩年前,谷歌曾推出AI代碼生成平臺AlphaCode,現在在Gemini的助力下,該平臺迭代到AlphaCode 2,性能也得到大幅提升,可以解決之前幾乎兩倍數量的問題。 

          Gemini的訓練是基于谷歌自己的張量處理單元(TPUs)v4和v5e,比谷歌之前的模型運行速度更快、成本更低。值得關注的是,隨著Gemini的問世,谷歌還宣布了TPU系統的最強升級Cloud TPU v5p,專為訓練尖端AI模型而設計;在訓練優化方面,Gemini還使用了Jax和Pathways編程模型,為復雜的數學運算(如在機器學習中常見的運算)提供了優化的支持,增加了對模型并行性和數據并行性的利用,并對網絡延遲和帶寬進行了優化。

          640-2.jpeg

          通過使用這些工具,Gemini模型的開發者可以使用單個Python進程來協調整個訓練過程,這樣可以簡化開發和訓練工作流,同時利用Jax和Pathways的高效性能。

          GPT-4的“雙子”星?

          在過去的一年里,大模型的聊天機器人單月訪問量已經增長到超過20億:ChatGPT的月用戶數從5月開始有所下降,10月出現回升重新達到17億,對比谷歌Bard的用戶數僅為2.6億;Bard雖然排名第二,但和幾個競品一起歸為“其他”更為合適。

          640.png

          隨著推出了ChatGPT,尤其是在必應搜索中整合了GPT技術,并首次在應用程序下載量上超越了谷歌后,人們開始思考谷歌是否在已人工智能領域落后于競爭對手。此次谷歌發布Gemini早已被寄予了打破ChatGPT統治的厚望,那么Gemini能否代表著谷歌已經迎頭趕上了呢?或者說,如今的谷歌能否重新站在人工智能行業的最高點呢?

          通過ChatGPT獲得了大量訓練數據反饋,短期內OpenAI仍占有先機,但長期來看谷歌也依然有著自己的優勢 —— 具備的海量用戶和產品生態將會成為強大勢能。相比OpenAI,谷歌積累了海量的PC和手機端用戶,擁有海量實時數據(而OpenAI的數據依賴互聯網,包括谷歌),并通過在用戶手機集成GPT提供如地鐵導航方面而擁有大量用戶信息。

          雖然谷歌此次發布的Gemini雖然在很多性能上超越了GPT-4,但是它與OpenAI仍存在時間差,GPT-4發布已經半年多,新一代模型應該也在開發過程中。所以對谷歌而言,與GPT-4進行各種基準測試的比較,只是展現其現階段能力的一方面,能否依靠自身積累以及強大的資源,縮短與OpenAI的時間差才是關鍵。

          據CNBC報道,在Gemini正式發布前曾多次推遲發布日期,內部對Gemini的提前發布意見不一,如今因為過大的市場壓力突然決定發布。未來還需要解決在非英語查詢等任務上的困難,盈利策略也還沒有確定,商業化路線不清晰。即使Gemini宣傳效果驚人,但作為谷歌在大模型時代構建的全新基礎設施,比起測試數據,實際應用效果有待驗證:能否滿足日常用戶以及企業客戶,才是檢驗Gemini能力的真正標準。目前谷歌已經開始在搜索中試驗Gemini,它使用戶的搜索生成體驗變得更快(目前只有英語版本,其他語言版本將在未來陸續推出),延遲減少了40%,同時在質量方面也有所提升。

          Gemini的發布無疑是AI界又一個里程碑,這意味著AI大模型浪潮進入到一個全新階段。比起大語言模型,多模態模型的運作模式,才是人類最自然的和世界交互的方式:用眼睛看到東西,用耳朵聽到聲音,再把這個東西的語義用聲音/文字輸出,再做出決策。

          值得注意的是,視頻內容已經是信息時代的主流,據思科的年度互聯網報告顯示,視頻已經占據互聯網超過80%的流量。Gemini只是掀起了多模態領域的一角,比起大語言模型,多模態模型增加了音頻、視頻、圖片這些數據,而且這些數據的訓練還遠未到頭,意味著大模型的天花板上限還很高。如果AI領域的尺度定律(Scaling law)一直奏效,隨著訓練規模不斷擴大,我們還有許多可以期待的能力涌現。

          Gemini的發布,必然會對其他AI大模型的迭代升級帶來新的催化。對產業而言,多模態料將帶動算力需求的提升,同時為后續GPT-5等模型的發布將帶來更多催化。除了在一樣閉源路線上的谷歌,還能有誰可以超越OpenAI?走不同開源路線Meta旗下的Llama可能也有機會。

          Meta對AI的投資主要集中在三個方面。一是基礎設施:Meta耗費巨資,在全球范圍內建立昂貴的數據中心;二是開源大模型Llama 2:作為AI社區中最強大的開源大模型,Llama 2包括7B、13B、70B三個版本;三是Meta AI:作為一款打通Meta旗下各平臺的AI助手,Meta AI可支持一對一、群聊,上線文生圖功能,甚至可用于AR眼鏡。

          640-3.jpeg

          7月,Meta發布Llama 2開源大模型,以“開源”“開放”的名義發起反擊;12月,Meta又高調升級Meta AI助手,為Facebook、Instagram等平臺注入AI動力。面對激烈的競爭,Meta寄希望于升級已有平臺,將Meta AI打造成全球應用最廣泛的AI助手。

          強大的平臺,一方面為Meta的大模型訓練提供了豐富的語料,另一方面也為Meta AI的普及準備了大量的用戶。除此之外,AI的核心專利方面,Meta可以、谷歌并駕齊驅,廣泛應用的深度學習框架PyTorch便誕生于Meta團隊。



          評論


          相關推薦

          技術專區

          關閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();