2025年3月,AI領域迎來重量級更新,Anthropic推出Claude 3.7 Sonnet,OpenAI則發布GPT-4.5(內部代號「Orion」)。這兩款旗艦模型各有特色,作為台灣AI領域的研究者,小編深入測試了這兩個模型,分享一些觀察與分析。

Claude 3.7 Sonnet:程式開發的得力助手

Anthropic這次更新明確強化了Claude在程式開發領域的能力,讓它成為開發者的首選工具。

值得關注的特色:

  • 程式開發能力大幅提升:在軟體工程基準測試中,Claude 3.7明顯超越了DeepSeek R1和OpenAI的早期模型,程式碼質量和解決問題的能力都有顯著進步。
  • 延伸思考模式:這項創新功能讓Claude能夠在同一模型架構下,給予複雜問題更多的處理時間。這意味著用戶可以根據需求選擇快速回應或深度思考,靈活性大幅提高。
  • Claude Code終端整合:這個工具可在開發環境中直接存取並分析項目文件,提供針對性建議和代碼生成,實際使用效果相當驚人。
  • 代理工具應用:為自動化任務執行優化,這也是它能與Amazon Alexa Plus整合的關鍵因素。

雖然在研究級推理、視覺理解和數學解題方面有所進步,但與Grok 3和部分OpenAI模型相比仍有差距,這反映了Anthropic清晰的專業化策略。

GPT-4.5:對話體驗的新標準

OpenAI的GPT-4.5在Claude發布後不久推出,雖經過一年多訓練,知識截止日仍為2023年。它的重點明顯在於提升對話體驗的自然度。

主要亮點:

  • 更自然的表達方式:文本輸出更為簡潔、流暢,OpenAI稱之為「更好的氛圍(vibes)」,確實在實際對話中感受明顯。
  • 幻覺現象減少:在事實準確性測試中,GPT-4.5的幻覺率從GPT-4o mini的80%大幅降至37.1%,這對於依賴AI輸出準確性的專業用戶來說是重大進步。
  • 創意表達優勢:在創意寫作、頭腦風暴等任務上表現優異,能夠產生令人驚喜的內容。
  • 研究功能整合:內建的搜尋與深度研究功能讓它能夠獲取並分析網絡資訊,提升回應的時效性和參考價值。

GPT-4.5在一般問答上優於早期模型,但有趣的是,在科學與數學領域反而不如GPT-4o mini和Grok 3表現出色。

能力對比分析

功能領域Claude 3.7 SonnetGPT-4.5
程式開發業界領先,為軟體工程精心優化有所改進但非核心優勢
數學與推理中等程度進步,非主導領域在數學上弱於GPT-4o mini和Grok 3
對話互動專業高效,重點在實用性自然流暢,近似人類對話體驗
創意內容具備基本能力,非特別強項表現出色,特別是創意發想環節
回應速度普通模式適中,延伸思考模式較慢普遍比競爭對手慢
事實準確度有所提升(未公布具體數據)比前代模型有明顯改善

實際應用展示

Claude 3.7的程式開發實力已通過多個令人印象深刻的案例得到證明:

  • 功能完整的3D賽車遊戲
  • 具動態光影效果的城市模擬環境
  • 模擬自我意識的遊戲角色
  • 複雜物理現象的模擬系統

小編實際測試後發現,只需一個清晰的提示,Claude就能生成功能驚人的應用程式,這在以往是難以想像的。

而GPT-4.5則在對話場景中展現優勢,根據OpenAI執行長Sam Altman的說法,使用體驗「如同與思考縝密的人交談」。小編的測試也證實,它在創意寫作和頭腦風暴方面確實能提供高質量的輸出,對話節奏和語調都更為自然。

使用可及性

GPT-4.5目前僅向ChatGPT Pro訂閱用戶(月費200美元)開放,計劃稍後提供給Plus訂閱用戶(月費20美元)。OpenAI表示正面臨GPU資源限制,需要擴充硬體設施才能向更多用戶開放。

Claude 3.7 Sonnet及其延伸思考功能已向包括免費用戶在內的所有Claude用戶開放。值得注意的是,Claude已與Amazon Alexa Plus形成戰略合作,所有Prime會員都能通過Alexa使用Claude的能力。

發展趨勢觀察

這兩個頂尖模型清晰地展示了AI領域正走向專業化的趨勢。Anthropic明確將Claude 3.7定位為程式開發與代理任務的專業工具,而OpenAI則致力於通過GPT-4.5提供更自然的對話體驗。

對專業用戶而言,選擇合適的AI工具將更加取決於具體需求:需要編寫程式代碼時,Claude 3.7可能是更好的選擇;而進行創意寫作或需要自然對話體驗時,GPT-4.5可能更為適合。

隨著專業化趨勢的深入,我們可以預見這些公司會進一步強化各自的優勢領域,同時努力改進相對薄弱的方面。這種良性競爭最終將為各行各業的AI應用帶來更加精準、高效的解決方案。