人工智慧(AI)戰場再掀波瀾!Google 於 2024 年 12 月正式推出備受矚目的 Gemini 2.0 大型語言模型(LLM),強勢挑戰 OpenAI 的 ChatGPT 等現有領先者。Gemini 2.0 強調多模態、高效能,以及與 Google 生態系統的深度整合,勢必將改變我們與 AI 互動的方式。
Google AI 新時代:Gemini 2.0 重磅登場
Google 早在 2023 年 12 月就已宣布 Gemini 計畫,歷經一年的研發,終於在 2024 年 12 月正式推出 Gemini 2.0。這項發布代表 Google 實現了打造真正多模態 AI 模型的願景。Gemini 從一開始就被設計成能夠處理文字、程式碼、圖像,甚至未來可能包含聲音和影片等多種資訊形式,這與早期主要專注於文字互動的模型截然不同。
Gemini 2.0 系列中的一大亮點是 Gemini 2.0 Flash。這個更小、更精簡的版本專為速度和效率而設計。Google 內部測試顯示,Gemini 2.0 Flash 在多項基準測試中,效能超越了先前較大型的模型,例如 Gemini 1.5,速度更是提升了一倍。如此注重速度,對於實現即時應用以及在更多裝置(包括手機和邊緣裝置)上部署模型至關重要。不過,截至目前為止,Google 尚未發布詳細說明 Gemini 2.0 Flash 架構或基準測試的公開文件。隨著更多官方資訊的釋出,本報導將會持續更新。讀者可關注 Google AI 部落格 以獲得最新消息。
Gemini 2.0 的關鍵特色
能力 (CAPABILITY) | 基準 (BENCHMARK) | 描述 (DESCRIPTION) | Gemini 1.5 Flash 002 | Gemini 1.5 Pro 002 | Gemini 2.0 Flash Experimental |
一般 (General) | MMLU-Pro | 增強版的熱門 MMLU 資料集,包含難度更高的多個學科問題 | 67.30% | 75.80% | 76.40% |
程式碼 (Code) | Natural2Code | 程式碼生成涵蓋 Python、Java、C++、JS、Go。持有未在網路上洩露的 HumanEval 評估資料集 | 79.80% | 85.40% | 92.90% |
Bird-SQL (Dev) | 評估將自然語言問題轉換為可執行的 SQL 的能力 | 45.60% | 54.40% | 56.90% | |
LiveCodeBench (程式碼生成) | Python 程式碼生成子集,涵蓋更多近期範例:06/01/2024 – 10/05/2024 | 30.00% | 34.30% | 35.10% | |
事實性 (Factuality) | FACTS Grounding | 提供事實準確回應的能力,涵蓋多樣的使用者請求。持有內部資料集 | 82.90% | 80.00% | 83.60% |
數學 (Math) | MATH | 具挑戰性的數學問題 (包含代數、幾何、微積分等) | 77.90% | 86.50% | 89.70% |
HiddenMath | 競爭級別的數學問題。持有專家設計且未在網路上洩露的 AIME/AMC 類型的資料集 | 47.20% | 52.00% | 63.00% | |
推理 (Reasoning) | GPQA (diamond) | 具挑戰性的問題,涵蓋生物學、物理學和化學等領域的專家領域問題評估 | 51.00% | 59.10% | 62.10% |
長文脈 (Long context) | MRCR (1M) | 新穎的、診斷性的長文脈理解評估 | 71.90% | 82.60% | 69.20% |
圖像 (Image) | MMMU | 多學科大學等級的多模態理解和推理問題 | 62.30% | 65.90% | 70.70% |
Vibe-Eval (Reka) | 在包含挑戰性日常情境的聊天中進行視覺理解。使用 Gemini Flash 模型作為評分者進行評估 | 48.90% | 53.90% | 56.30% | |
聲音 (Audio) | CoVoST2 (21 lang) | 自動語音翻譯 (BLEU 分數) | 37.4 | 40.1 | 39.2 |
影片 (Video) | EgoSchema (test) | 跨多個領域的影片分析 | 66.80% | 71.20% | 71.50% |
Gemini 2.0 擁有多項關鍵特色,使其在競爭激烈的 LLM 市場中脫穎而出:
- 原生多模態: 與仰賴外掛程式或個別模型來理解圖像和程式碼的 ChatGPT 不同,Gemini 2.0 的多模態是直接內建在其架構中。這使得不同資料類型之間的互動更加流暢和細緻。例如,Gemini 可以產生圖像的文字描述、根據視覺圖表編寫程式碼,或使用文字和視覺輸入的組合來回答問題。這種內在的功能對於需要跨模態理解的任務來說是一大優勢。
- Gemini 2.0 Flash 的即時效能: Gemini 2.0 Flash 強調效率,進而實現了令人印象深刻的即時效能。這為互動式應用程式開啟了新的可能性,例如即時翻譯、動態內容產生,以及高反應性的對話式 AI 體驗。
- 與 Google 服務的深度整合: Gemini 2.0 的設計旨在與 Google 廣泛的產品和服務深度整合。使用者可以期待在 Google 搜尋、Google 助理、Google Workspace 應用程式(如 Docs 和 Sheets)以及其他 Google 平台上看到 Gemini 的功能。這種整合可在 Google 生態系統中實現情境感知和更流暢的使用者體驗。
- 強大的程式碼能力: Gemini 2.0 在理解、產生和偵錯各種程式語言的程式碼方面展現了強大的能力。這使其成為軟體開發人員的寶貴工具,有潛力簡化工作流程並提高生產力。
Gemini 2.0 與 ChatGPT:當代比較
隨著 Gemini 2.0 的正式推出,Google 和 OpenAI 之間的競爭更加激烈。以下是這些領先 LLM 的比較概述:
功能 | Gemini 2.0 | ChatGPT |
多模態 | 原生且核心功能;擅長無縫處理各種資料類型。 | 主要基於文字,透過外掛程式和整合來擴展功能,例如 DALL-E 2。 |
效率/速度 | Gemini 2.0 Flash 注重速度,並針對即時使用進行了優化。 | 資源消耗可能較大,尤其是在處理複雜任務時。 |
即時使用 | 由於 Gemini 2.0 Flash,非常適合即時互動。 | 與 Gemini 2.0 Flash 相比,針對即時使用的優化程度較低。 |
整合 | 與 Google 生態系統(搜尋、助理、Workspace)深度整合。 | 主要透過 API 提供,允許第三方整合。 |
資料來源 | 利用 Google 龐大的資料資源和知識圖譜。 | 透過網路上各種文字和程式碼的資料集進行訓練。 |
開放性 | 分享部分元件和研究;核心模型並未完全開放原始碼。 | 主要為封閉原始碼,主要透過 API 存取。 |
優勢 | 多模態理解、效率、生態系統整合。 | 對話能力、文字產生、廣泛的 API 可用性。 |
發布日期 | 2024 年 12 月 | 2022 年 11 月 (GPT-3.5)、2023 年 3 月 (GPT-4) |
對使用者和 AI 未來的影響
Gemini 2.0 對多模態和即時效能的重視,對於使用者與 AI 的互動方式產生了深遠的影響。想像一下,您可以使用手機的相機詢問 Gemini 複雜的物體,並獲得詳細的上下文答案,或者在視訊通話期間進行即時語言翻譯,同時也能理解視覺情境。
Google 和 OpenAI 之間的競爭正在加速 AI 領域的創新,最終將為使用者帶來更強大、更通用的工具。儘管 ChatGPT 已在對話式 AI 領域建立了穩固的地位,但 Gemini 2.0 的獨特優勢使其成為強勁的競爭者,有可能徹底改變我們與科技互動的方式。
未來展望
Gemini 2.0 的發布對 Google 和更廣泛的 AI 社群來說都是一個重要的里程碑。隨著技術的不斷進步,我們可以預期多模態、效率和個人化方面將有進一步的改進。未來幾個月和幾年將是觀察這些強大模型如何整合到我們日常生活中以及更廣泛的科技領域的關鍵時期。AI 競賽正式開始,智慧系統的未來正在即時塑造。