要約(ひと言)
超低レイテンシと最大トークン処理速度を狙うなら NVIDIA Blackwell。
コストパフォーマンスと 1 枚で大規模モデルを完結させたいなら AMD Instinct MI300X。
最終的な勝敗は、あなたの KPI と予算が決める。
1. なぜ 2025 年が“二強時代”になったのか?
- コンテキスト長が爆増:GPT‑4.1 は 100 万トークン を受け付け、HBM 帯域を貪欲に消費。
- オープンウェイト旋風:Llama 系列の累計ダウンロードは 12 億超。多くの企業が “社内推論” に舵を切り、API 料金と規制リスクを回避したい状況。
その結果、ハードウェアは二つの哲学に分岐した。
路線 | スローガン | 代表選手 |
巨大&高速 | 「1 枚のカードにスーパーコンピュータを詰め込め」 | NVIDIA Blackwell B200 |
大容量&省電 | 「GPT‑3 クラスを 1 枚で回せ」 | AMD Instinct MI300X |
2. アーキテクチャ概観
2.1 NVIDIA Blackwell B200
指標 | 値 |
製造プロセス | TSMC 4N、2‑die CoWoS |
トランジスタ数 | 2080 億個 |
メモリ/帯域 | HBM3E 192 GB、8 TB/s |
最大 AI 性能 | FP4 40 PFLOPS(FP8 20 PFLOPS) |
インターコネクト | NVLink‑5:1.8 TB/s/カード |
ボード電力 | 約 1 kW |
市場価格* | 3–4 万米ドル/枚 |
主要クラウド向けの参考価格。
Blackwell の目玉は FP4(4 bit 浮動小数点)。精度をほぼ維持しつつスループットを倍増させる。NVLink‑5 で 72 GPU を“論理 1 GPU”に束ねる NVL72 構成は、1.4 EFLOPS を単一メモリ空間で提供。
2.2 AMD Instinct MI300X
指標 | 値 |
製造プロセス | 5 nm + 6 nm 3D Chiplet(CDNA 3) |
メモリ/帯域 | HBM3 192 GB、5.3 TB/s |
最大 AI 性能 | FP8 2.6 PFLOPS |
ボード電力 | 750 W(OAM モジュール) |
市場価格* | 1–1.5 万米ドル/枚 |
HBM を 24 層積層した大容量設計。Blackwell と同容量ながら消費電力は 25 % 低く、価格は 3 分の 1。
3. MLPerf v5.0 が示す実力
ベンチマーク(DC) | 8 × B200 | 8 × H200 (基準) | 8 × MI325X† |
Llama 2 70B インタラクティブ | 3.1× | 1.0 | 0.93× |
Llama 3.1 405B サーバー | 3.4× | 1.0 | — |
MI325X は MI300X と同アーキテクチャ・同容量で、クロックがわずかに高い。
- レイテンシ重視:Blackwell + FP4 + NVLink は H200 比 3–4 倍の応答速度。
- 容量重視:MI300X は 70‑110 B パラメータを 1 枚で保持でき、分割による遅延増を防ぐ。
4. ソフトウェアエコシステム
レイヤー | NVIDIA | AMD |
SDK | CUDA 12 | ROCm 6.4 |
LLM ツールキット | TensorRT‑LLM(FP4 自動量子化) | vLLM / SGLang 最適化 Docker |
アテンションカーネル | Flash‑Attention 3 | HIP 版 Flash‑Attention 3 |
クラウド提供状況 | AWS/Azure/GCP Blackwell 先行提供 | Azure、Meta、Lambda が MI300X 採用 |
OSS 互換性 | 一部閉源カーネル依存 | llama.cpp・vLLM 等が主線化、急速に充実 |
CUDA の成熟度は依然高いが、ROCm の OSS 戦略により“導入コスト差”は急速に縮小中。
5. コストと電力―“隠れ KPI”
5.1 ハード CAPEX & 電力 OPEX
項目 | B200 | MI300X |
カード価格(実勢) | 約 3.5 万 USD | 約 1.2 万 USD |
ボード電力 | 1 kW | 0.75 kW |
年間電気代* | 1 万 USD | 7 900 USD |
ラック密度(8 GPU) | 14 kW | 6 kW |
$0.12 / kWh で試算。
大規模クラスタでは CAPEX と OPEX 差が数百万ドル規模に膨らむ。
5.2 実効トークン単価
- Blackwell の FP4 は H100 比でトークンあたり電力を約 25 % 削減するが、絶対 TDP は高い。
- ROCm の “DeepGEMM” 最適化で MI300X は 30–50 % スループット向上。
- もし AMD が 2026 年までに FP4 クラス量子化を実装すれば、効率は逆転する可能性も。
6. 選択マトリクス:用途別推奨
主 KPI | 典型用途 | 最適 GPU | 理由 |
p99 < 100 ms | グローバル向けチャット/コパイロット | Blackwell | FP4+NVLink で延滞最小 |
トークン単価最小 | 社内 RAG、バッチ推論 | MI300X | 低価格+低電力で TCO を圧縮 |
単一 GPU 微調整 | 70‑110 B モデルの継続学習 | MI300X | 全モデルをオンボードに搭載 |
400 B+ 前向き学習 | 基盤モデル開発 | Blackwell NVL72 | 1.4 EFLOPS の統合メモリ空間 |
AI SaaS スタートアップ | 多様な負荷/限定 CAPEX | 混合構成** | Long‑tail は MI300X、Hot パスは Blackwell |
7. 今後を左右する 3 つの変数
- ソフト最適化の速度:ROCm が FP4 / スパース化を取り込めば MI300X の効率は倍増も。
- HBM 供給:共通サプライチェーンの歩留まり次第で納期が変動。帯域効率が高い MI300X が有利になる場面も。
- 規制と炭素税:EU AI Act や CO₂ 課税で「1 プロンプトあたり排出」が経営指標に。1 GPU あたり 250 W 減は、1000 枚規模で 250 kW の差。
8. 結論:完璧な GPU はなく、最適な GPU があるだけ
- 速度王:Blackwell は“カード 1 枚=超コンピュータ”を体現。レスポンス優先のグローバルサービス向き。
- CP 値王:MI300X は 3 分の 1 の価格で 192 GB を実装し、私有クラウドの切り札。
- 判断式:
総TCO = (GPU 価格 + 電力 + 機械室改修) / 提供トークン数
そこに エンジニア工数・コンプライアンス費・CO₂ オフセット まで入れれば、答えは自ずと見える。
まずは自社のレイテンシ・スループット・予算閾値を Excel に打ち込み、冷静にシミュレーションしよう。数字こそが、あなたの 2025‑26 年「LLM GPU 王」を決める最終審判だ。