要約(ひと言)
超低レイテンシと最大トークン処理速度を狙うなら NVIDIA Blackwell
コストパフォーマンスと 1 枚で大規模モデルを完結させたいなら AMD Instinct MI300X
最終的な勝敗は、あなたの KPI と予算が決める。


1. なぜ 2025 年が“二強時代”になったのか?

  • コンテキスト長が爆増:GPT‑4.1 は 100 万トークン を受け付け、HBM 帯域を貪欲に消費。
  • オープンウェイト旋風:Llama 系列の累計ダウンロードは 12 億超。多くの企業が “社内推論” に舵を切り、API 料金と規制リスクを回避したい状況。

その結果、ハードウェアは二つの哲学に分岐した。

路線スローガン代表選手
巨大&高速「1 枚のカードにスーパーコンピュータを詰め込め」NVIDIA Blackwell B200
大容量&省電「GPT‑3 クラスを 1 枚で回せ」AMD Instinct MI300X

2. アーキテクチャ概観

2.1 NVIDIA Blackwell B200

指標
製造プロセスTSMC 4N、2‑die CoWoS
トランジスタ数2080 億個
メモリ/帯域HBM3E 192 GB、8 TB/s
最大 AI 性能FP4 40 PFLOPS(FP8 20 PFLOPS)
インターコネクトNVLink‑5:1.8 TB/s/カード
ボード電力1 kW
市場価格*3–4 万米ドル/枚

  • 主要クラウド向けの参考価格。

Blackwell の目玉は FP4(4 bit 浮動小数点)。精度をほぼ維持しつつスループットを倍増させる。NVLink‑5 で 72 GPU を“論理 1 GPU”に束ねる NVL72 構成は、1.4 EFLOPS を単一メモリ空間で提供。

2.2 AMD Instinct MI300X

指標
製造プロセス5 nm + 6 nm 3D Chiplet(CDNA 3)
メモリ/帯域HBM3 192 GB、5.3 TB/s
最大 AI 性能FP8 2.6 PFLOPS
ボード電力750 W(OAM モジュール)
市場価格*1–1.5 万米ドル/枚

HBM を 24 層積層した大容量設計。Blackwell と同容量ながら消費電力は 25 % 低く、価格は 3 分の 1。


3. MLPerf v5.0 が示す実力

ベンチマーク(DC)8 × B2008 × H200 (基準)8 × MI325X†
Llama 2 70B インタラクティブ3.1×1.00.93×
Llama 3.1 405B サーバー3.4×1.0

MI325X は MI300X と同アーキテクチャ・同容量で、クロックがわずかに高い。

  • レイテンシ重視:Blackwell + FP4 + NVLink は H200 比 3–4 倍の応答速度。
  • 容量重視:MI300X は 70‑110 B パラメータを 1 枚で保持でき、分割による遅延増を防ぐ。

4. ソフトウェアエコシステム

レイヤーNVIDIAAMD
SDKCUDA 12ROCm 6.4
LLM ツールキットTensorRT‑LLM(FP4 自動量子化)vLLM / SGLang 最適化 Docker
アテンションカーネルFlash‑Attention 3HIP 版 Flash‑Attention 3
クラウド提供状況AWS/Azure/GCP Blackwell 先行提供Azure、Meta、Lambda が MI300X 採用
OSS 互換性一部閉源カーネル依存llama.cpp・vLLM 等が主線化、急速に充実

CUDA の成熟度は依然高いが、ROCm の OSS 戦略により“導入コスト差”は急速に縮小中。


5. コストと電力―“隠れ KPI”

5.1 ハード CAPEX & 電力 OPEX

項目B200MI300X
カード価格(実勢)約 3.5 万 USD約 1.2 万 USD
ボード電力1 kW0.75 kW
年間電気代*1 万 USD7 900 USD
ラック密度(8 GPU)14 kW6 kW

  • $0.12 / kWh で試算。
    大規模クラスタでは CAPEX と OPEX 差が数百万ドル規模に膨らむ。

5.2 実効トークン単価

  • Blackwell の FP4 は H100 比でトークンあたり電力を約 25 % 削減するが、絶対 TDP は高い。
  • ROCm の “DeepGEMM” 最適化で MI300X は 30–50 % スループット向上。
  • もし AMD が 2026 年までに FP4 クラス量子化を実装すれば、効率は逆転する可能性も。

6. 選択マトリクス:用途別推奨

主 KPI典型用途最適 GPU理由
p99 < 100 msグローバル向けチャット/コパイロットBlackwellFP4+NVLink で延滞最小
トークン単価最小社内 RAG、バッチ推論MI300X低価格+低電力で TCO を圧縮
単一 GPU 微調整70‑110 B モデルの継続学習MI300X全モデルをオンボードに搭載
400 B+ 前向き学習基盤モデル開発Blackwell NVL721.4 EFLOPS の統合メモリ空間
AI SaaS スタートアップ多様な負荷/限定 CAPEX混合構成**Long‑tail は MI300X、Hot パスは Blackwell

7. 今後を左右する 3 つの変数

  1. ソフト最適化の速度:ROCm が FP4 / スパース化を取り込めば MI300X の効率は倍増も。
  2. HBM 供給:共通サプライチェーンの歩留まり次第で納期が変動。帯域効率が高い MI300X が有利になる場面も。
  3. 規制と炭素税:EU AI Act や CO₂ 課税で「1 プロンプトあたり排出」が経営指標に。1 GPU あたり 250 W 減は、1000 枚規模で 250 kW の差。

8. 結論:完璧な GPU はなく、最適な GPU があるだけ

  • 速度王:Blackwell は“カード 1 枚=超コンピュータ”を体現。レスポンス優先のグローバルサービス向き。
  • CP 値王:MI300X は 3 分の 1 の価格で 192 GB を実装し、私有クラウドの切り札。
  • 判断式
    総TCO = (GPU 価格 + 電力 + 機械室改修) / 提供トークン数
    そこに エンジニア工数・コンプライアンス費・CO₂ オフセット まで入れれば、答えは自ずと見える。

まずは自社のレイテンシ・スループット・予算閾値を Excel に打ち込み、冷静にシミュレーションしよう。数字こそが、あなたの 2025‑26 年「LLM GPU 王」を決める最終審判だ。