はじめに:4月最終週、OpenAI が立て続けに二発
2026年4月、OpenAI は2日間で2つの主要モデルを連続投入した。4月21日に ChatGPT Images 2.0(モデル ID: gpt-image-2)、23日に GPT-5.5(コードネーム “Spud”)。前週には Anthropic が Claude Opus 4.7 を発表しており、この投入ペースは明確な競争対応である。
ただし「どちらが最強か」という議論は本稿の主題ではない。注目すべきは、2つのモデルが示す共通の方向性である。モデルが自らタスクを計画し、ツールを呼び出し、出力を検証する。GPT-5.5 のエージェント型コーディングから、Images 2.0 の生成前視覚推論まで、OpenAI は AI を「質問に答えるツール」から「タスクを実行する同僚」へ押し進めている。
企業 IT チームにとっての本質的な問いは「新モデルを採用するか否か」ではない。AI の動作モードが根本から変わるとき、計算基盤・権限・コスト・コンプライアンスの体制がついていけるかである。
GPT-5.5:エージェント型ワークフローが標準になる
OpenAI 公式の位置づけ
OpenAI 公式発表 によれば、GPT-5.5 は「乱雑で多段階のタスク」をステップごとの誘導なしに処理できるよう設計されている。モデルが自ら計画し、ツールを使い、自身の作業を検証し、タスク完了まで自律的に動く。強化領域はエージェント型コーディング、コンピュータ操作、ナレッジワーク、初期段階の科学研究の四つである。
共同創業者 Greg Brockman 氏はこれを「よりエージェント的で直感的な計算への大きな一歩」と表現した。実務面での変化は三点に集約できる。
- タスク開始コストの低下:曖昧さへの耐性が上がり、ユーザーが背景を細かく説明する必要が減少
- より能動的なツール使用:Codex 環境でテスト実行やファイル解析、Web 検索などを自発的に呼び出す
- 長期タスクでの自己修正:実行中の中間結果を検証し、方向性を調整できる
価格設定
API 価格は入力100万トークンあたり 5ドル、出力 30ドル。Pro 版は 30ドル / 180ドル。OpenAI は「単価は上がったが、チューニング後の実消費トークン数はむしろ減る」と説明する。
注意点として、272Kトークンを超える長い prompt はセッション全体に割増課金(入力2倍・出力1.5倍)される。大規模コードベースや長文ドキュメントを扱う企業アプリでは、コスト設計に直結する条件である。
ベンチマーク:Opus 4.7 と互角
OpenAI 公表データによれば、GPT-5.5 は Terminal-Bench 2.0 で 82.7%、FrontierMath Tier 1-3 で 51.7% 。CyberGym では GPT-5.5 が 81.8%、Anthropic Mythos が 83.1%(出典:The New Stack 報道)。
一方、Tom’s Guide の7カテゴリ比較では Claude Opus 4.7 が全勝し、GPT-5.5 は速度で優位だがハルシネーション傾向が高いと報告された(出典:Wikipedia によるメディア評価まとめ)。ただしメディア評価は参考程度に留め、企業のモデル選定は自社タスクでの実測を基準とすべきである。同一モデルでも、コードリファクタリング、文書要約、多言語ライティングでは優劣が大きく変わり得る。
主要モデルの選定戦略については、GPT-5 シリーズの詳細レビューもあわせてご参照ください。
ChatGPT Images 2.0:画像生成に推論能力が入る
実務的な進化ポイント
Images 2.0 は、O シリーズの推論能力を画像生成プロセスに初めて統合したモデルである。従来困難だった3つの領域で目に見える進化がある。
(1) 画像内テキストレンダリング:小さな文字、UI 要素、複雑な構成でも破綻しにくくなった。TechCrunch のレビューでは、従来モデルがメニュー画像で「存在しない単語」を生成していた問題が解消されたと報告されている。
(2) 多言語サポート:日本語、韓国語、中国語、ヒンディー語、ベンガル語の品質が向上。非ラテン文字圏のコンテンツ制作者にとって、AI 画像モデルがネイティブ言語素材で実用域に達する初の機会になり得る。ただし本番投入前に自社要件での検証を推奨する。
(3) ビジュアル一貫性:1つの prompt から最大8枚の視覚的に統一された画像を生成可能。SNS 素材セットや広告バリエーションなど、シリーズものの制作効率が上がる。
価格と制約
OpenAI 公式価格ページによれば、gpt-image-2 はトークン課金で、画像入力 $8、キャッシュ入力 $2、画像出力 $30、テキスト入力 $5(100万トークンあたり)。第三者プラットフォームによる試算では、解像度と prompt の複雑度に応じて1枚あたり約 0.04〜0.35ドル。ネイティブ 2K 解像度対応、4K は fal.ai などの第三者プラットフォーム経由で利用可能。
見落とされがちな制約がある。API レート制限は利用 Tier に連動し、Tier 1 は毎分5枚が上限である。Tier 5(毎分250枚)に到達するには累計1,000ドルの利用と30日のアカウント熟成期間が必要になる(出典:OpenAI Rate Limits ドキュメント)。EC 商品画像や広告の量産を計画する場合、Tier 昇格パスの事前設計が不可欠である。
企業基盤はこの変化にどう備えるか
2つのモデルを並べると、企業 IT に実質的な影響を与えるトレンドが浮かび上がる。
トークン消費構造が変わる
エージェント型ワークフローでは、1タスクあたりのトークン量が従来の数倍から数十倍になり得る。モデルが自律的にツールを使い、自己検証し、繰り返し修正するためである。「ユーザー数あたり定額」式のコストモデルは通用しなくなる。タスク粒度のトークン追跡と、長 context の課金ルール(272K 閾値など)をアプリケーション設計に組み込む必要がある。
マルチモデル混合展開が当たり前に
コードリファクタリングは Claude、リアルタイム Q&A は GPT-5.5、バッチ画像生成は Images 2.0、機微データはオンプレミスのオープンソース。企業が単一ベンダーに賭けるケースはもはや少ない。
この構成の代償はガバナンスの複雑化である。各モデルの課金単位、レート制限、安全分類器、出力フォーマットがすべて異なる。誰がどのモデルを使えるか、予算配分、機微データのルーティング規則。これらはモデルベンダーが解決してくれる問題ではない。
GPU リソース計画への影響
GPT-5.5 は NVIDIA の GB200 NVL72 上で動作する。NVIDIA 公式ブログ によれば、前世代比で100万トークンあたりのコストは最大35分の1、メガワットあたりのトークン出力は50倍に向上した。フロンティアモデルの推論単価は急速に下がっている。
しかしクラウド API とオンプレミスを併用する企業にとって、課題はむしろ明確である。モデルの更新サイクル(数週間単位)とハードウェア投資サイクル(3〜5年)が噛み合わない。エージェント型ワークフローでは、あるプロジェクトのピーク時に GPU が足りず、平時は70%の計算リソースが遊休する事態が起きやすい。GPU リソースの稼働率が ROI を左右する変数になる。
ガバナンスとコンプライアンス
GPT-5.5 の CyberGym 高得点は、AI が攻防両面で能力を高めていることを意味する。OpenAI はより厳格な分類器で対応した。Images 2.0 は標準で C2PA ウォーターマーク を埋め込み、全出力に検証可能な AI 生成標識を付与する。メディア・報道・法務分野のコンプライアンスにとって前進である。
企業のガバナンスチームには、AI 利用ポリシーを「ChatGPT を使ってよいか」から、モデルバージョン、動作モード、出力ソース検証、データルーティング規則のレベルまで細粒度化することが求められる。
結論:本当のエンジニアリングは下層にある
GPT-5.5 と Images 2.0 は「もう一回のモデル更新」ではない。AI の利用パターンが「対話」から「エージェント」へ、マルチモーダル能力が「デモ段階」から「実運用級」へ移行するシグナルである。
技術責任者、IT 意思決定者、AI チームにとって、本当に答えるべき問いは「新モデルを採用するかどうか」ではなく:
- トークンコストをタスク粒度で追跡できるか?
- GPU リソースを複数モデル・複数チーム間で動的に配分できるか?
- 権限体系をモデルバージョンと使用モードに対応させられるか?
- AI 生成コンテンツのソース検証フローはあるか?
これらの答えはモデル API ドキュメントにはない。企業の AI 基盤層にある。GPT-5.5 や Images 2.0 のようなエージェント能力を持つモデルを実業務に組み込むとき、補強すべきはモデル API だけではなく、下層のリソースガバナンス能力である。GPU の切り分け、クロスチーム配額、モデルルーティング、コスト監視、権限統制。 AI-Stack のようなプラットフォームが切り込む中核領域であり、急速に変化するモデルエコシステムの中で、リソースの柔軟性とガバナンスの一貫性を企業に提供する。
関連記事: