最近DeepSeek可說是AI界的超級新星,它不只在多項測試中展現出媲美ChatGPT的實力,更重要的是,它選擇了「開源」的路線。這個決定在國際上掀起了不小的波瀾:OpenAI的執行長Sam Altman稱讚它「令人印象深刻」,但沒多久OpenAI就指控DeepSeek「未經許可蒸餾其技術」;外國網友熱情稱讚DeepSeek的開放態度,甚至把OpenAI改稱為「CloseAI」,但同時也有專家質疑:DeepSeek這樣,到底算不算「真正的開源」?
這個問題看似簡單,背後卻藏著AI領域一個有趣的爭議:究竟什麼才算是「真正的開源」?
讓我用個簡單的比喻來說明:如果把AI模型比喻成一道米其林等級的料理,那麼:
- OpenAI(像ChatGPT)就像是「只能點餐吃成品,看不到廚房」的餐廳
- DeepSeek則像是「公開食譜和烹飪手法,但食材來源和部分獨門技巧沒說」的主廚
這個爭議之所以重要,是因為它可能影響到整個AI產業的發展方向。DeepSeek宣稱只花了約558萬美元(大概台幣1.8億),就做出可以和國際大廠拼過的AI模型,而且願意開放分享。這個成本,比起動輒上百億美元的國際大廠來說,簡直是「佛心來的」。
但同時,也有專家指出:DeepSeek雖然開放了模型的核心設定,但並沒有公開完整的訓練資料和程式碼,這樣算不算是真正的開源呢?
讓我們從三個角度,來看看這個有趣的問題…
一、技術層面:開放的程式「權重」到底有什麼用?
首先,我們要理解什麼是「權重」(weights)。想像一下,如果AI是一個超級厲害的料理機,那「權重」就像是這台料理機內部的各種設定值,決定了它要用多大的力氣打蛋、要用多快的速度攪拌等等。DeepSeek開放這些設定值有什麼好處呢?
1. 效能優化超有感
就像是把料理機的說明書完整公開,讓大家知道怎麼調整才能做出最好吃的料理。DeepSeek開放了一些厲害的技術:
- FP8混合精度訓練:這個技術有點像是把食譜從「精確到0.1克」簡化成「一小撮、兩小撮」,但又不會影響最後的味道。這樣不只省記憶體,跑起來還更快。
- MoE架構:可以想像成一個超級團隊,有不同專長的「專家」可以互相支援。這些專家不會同時工作(那樣太浪費了),而是根據需要來分工合作。
2. 模型改造變簡單
開放權重最酷的是,其他開發者可以直接拿來做改良。就像是分享食譜,大家可以在原始配方的基礎上加入自己的創意。已經有好幾個大學的研究團隊成功「複製」並改良了這個模型,證明這個「食譜」確實可行!
二、那到底什麼才算「真正的開源」?
1. 現在的開源共識
在AI界,「開源」的定義其實滿有趣的。大家普遍認為,只要開放模型的「權重」,加上說明書(技術文件),就算是開源了。就像分享食譜時,你會分享配方和步驟,但不一定要把自家廚房用的所有食材都送給別人。
2. 爭議點在哪?
DeepSeek公開了:
- ✓ 程式的核心設定(權重)
- ✓ 詳細的技術說明
- ✗ 完整的訓練資料
- ✗ 全部的程式碼
有人說這樣不夠開源,就像只給食譜,不告訴你食材從哪裡買最好。但其實現在很多知名的開源AI模型,像是LLaMA、Mistral,也都是這樣的做法。
三、實際影響:開源帶來什麼改變?
1. 門檻變低了
以前要玩AI,需要像土豪一樣投資一堆昂貴的設備。現在有了開源模型,連小公司都可以直接拿來用,就像有了食譜,不用自己從種菜開始。
2. 更透明更安全
開源讓大家可以「驗證」模型是否真的如宣稱的那麼厲害,避免「買到假貨」的風險。現在有專門的平台(如Hugging Face)在做這件事,就像是美食評鑑組織。
小結:該怎麼看待這個爭議?
其實與其爭論「到底夠不夠開源」,不如看看DeepSeek已經帶來的改變:只花了約558萬美元(大概台幣1.8億),就做出可以和國際大廠拼過的AI模型,還願意開源分享,讓更多人受惠。雖然DeepSeek沒有把所有東西都公開,但它的分享已經大幅降低了AI開發的門檻,這樣的貢獻是不容忽視的。
最後,開源或許不需要是非黑白,重點是這樣的分享文化能為產業帶來正面影響。就像一個好食譜,重要的不是是否公開每個細節,而是能不能幫助更多人做出好料理!