DALL-Eが終了:OpenAIが5月12日に画像モデルを廃止——代替モデルの全容
· Genra AIOpenAIが2026年5月12日にDALL-E 2とDALL-E 3の両方を廃止します。3月のSora終了と合わせて、OpenAIを代表する2つのクリエイティブAI製品が幕を閉じることになります。後継モデルはすでに登場していますが、従来とは根本的に異なるアプローチを取っています。
2026年5月12日、OpenAIはDALL-Eの運用を終了します。DALL-E 2とDALL-E 3の両方 — 何百万もの人々にAI画像生成を初めて体験させた画像生成モデル — がAPIリクエストへの応答を停止します。エンドポイントはエラーを返すようになり、モデルは完全に停止します。
これは突然の出来事ではありません。OpenAIは数か月前からこの動きを示唆してきました。ChatGPTのユーザーは2025年12月の時点でDALL-E 3からGPT Image 1.5に自動移行されていました。API廃止の通知は2026年初頭に発表されました。しかし、実際の終了日 — 5月12日 — が確定したことで、廃止通知だけでは感じられなかった現実味が生まれました。
この出来事が重要なのは、単に人気製品が廃止されるからだけではありません。それが示すパターンにこそ意味があります。2026年3月、OpenAIはテキストから動画を生成するモデルSoraを終了しました。そして今、DALL-Eが後を追います。OpenAIの最も象徴的なクリエイティブAIツールが、わずか2か月の間に2つ消えることになるのです。
後継モデルの構成を見ると、AI画像生成の向かう先が見えてきます。独立した単一目的のモデルではなく、OpenAIは大規模言語モデルに直接組み込まれた画像生成に賭けています。GPT Image 1.5はすでに稼働中です。GPT-Image-2のリリースも目前です。アーキテクチャは根本から変わりました。
この記事では、知っておくべきすべてを網羅します:DALL-Eの誕生から廃止までの全タイムライン、具体的に何が廃止されるのか、後継モデルの詳細、性能比較、そして開発者や企業が5月12日までにすべきことを解説します。
タイムライン:DALL-Eの誕生から廃止まで
DALL-Eは、AI史上最も凝縮された製品ライフサイクルの一つを辿りました。最初の研究論文から完全廃止まで、わずか5年余りです。
2021年1月:DALL-E(初代)
OpenAIは、テキスト説明から画像を生成するGPT-3の120億パラメータ版であるDALL-Eを紹介する研究ブログ記事を公開しました。これは研究プレビューであり、製品ではありませんでした。一般公開もされていません。しかし、「文章を入力すると画像が得られる」というコンセプトは、テック業界全体の想像力を掻き立てました。サルバドール・ダリとWALL-Eを掛け合わせたこの名前は、瞬く間にアイコニックな存在となりました。
初代DALL-Eは「アボカドの形をした肘掛け椅子」や「チュチュを着て犬を散歩させる赤ちゃん大根のプロフェッショナルなイラスト」といったプロンプトから画像を生成できました。今日の基準では粗い結果でしたが、2021年当時はまるでSFのようでした。
2022年4月:DALL-E 2
DALL-E 2は、すべてを変えたバージョンです。OpenAIはウェイトリスト制で公開し、爆発的な需要を生み出しました。このモデルは拡散ベースのアーキテクチャを採用し(初代の離散VAEアプローチからの大きな転換)、飛躍的に高品質な画像をより高い解像度で生成しました。
DALL-E 2は重要な機能を導入しました:インペインティング(画像の特定部分の編集)、アウトペインティング(元の境界を超えた画像の拡張)、バリエーション(アップロードした参照画像に基づく類似画像の生成)です。研究的な好奇心の対象から主流製品へと進化しました。アーティスト、デザイナー、マーケター、趣味で使う人々がプラットフォームに殺到しました。
APIは2022年後半にリリースされ、開発者が自身のアプリケーションにDALL-E 2を組み込めるようになりました。これがDALL-Eのインフラとしての始まりでした — 単なる消費者向けの目新しいツールではなく、他の製品の構成要素となったのです。
2023年10月:DALL-E 3
DALL-E 3はChatGPTに直接統合されました。これは、OpenAIが最終的に進む方向を予感させる動きでした。ユーザーは別のインターフェースにアクセスする必要がなく、DALL-E 3は会話の途中で画像を生成できました。ChatGPTにコンセプトの説明を頼み、次にそのコンセプトのイラストを依頼する — すべて同じスレッド内で完結します。
モデルの品質は大幅に向上しました。DALL-E 3は複雑なプロンプトへの対応力が格段に高く、画像内のテキストレンダリング(まだ完璧ではないものの劇的に改善)や、複数の被写体を含む構図の一貫性も向上しました。また、ChatGPTのモデレーション層と連携した安全システムを搭載してリリースされました。
重要なことに、DALL-E 3はAPIを通じても提供され、後方互換性を維持しながら大幅に能力が向上したモデルを提供しました。
2025年:GPT-4oの画像生成と終わりの始まり
OpenAIがGPT-4oにネイティブの画像生成機能を導入した時、DALL-Eの終焉は明白でした。別のDALL-Eモデルを呼び出すのではなく、GPT-4oは独自のマルチモーダル出力の一部として画像を生成できました。これはDALL-Eのラッパーではなく、画像生成が言語モデル自体のネイティブ機能となった根本的に異なるアーキテクチャでした。
品質はDALL-E 3に匹敵し、ユーザーエクスペリエンスはそれを上回りました。モードの切り替えも、別モデルの呼び出しも不要です。テキスト、コード、画像をシームレスに生成できる会話がそこにありました。
2025年12月:GPT Image 1.5がChatGPTでDALL-E 3を置き換え
2025年12月、OpenAIは静かにDALL-E 3をGPT Image 1.5に置き換え、ChatGPTのデフォルト画像生成モデルとしました。ChatGPTでDALL-E 3を使っていたユーザーは自動的に移行されました。カジュアルなユーザーの大半にとって、この移行はシームレスでした — 単に画像生成が速くなり、会話のコンテキストへの対応力が上がったと感じる程度でした。
これは、DALL-Eの終了が近いことを示す最も明確なシグナルでした。OpenAIはすでに主力の消費者向け製品をDALL-Eから移行させていたのです。
2026年初頭:廃止の正式発表
OpenAIはDALL-E 2とDALL-E 3のAPIを廃止し、2026年5月12日を終了日とすることを正式に発表しました。この発表により、APIユーザーには新しいGPT Imageエンドポイントへの移行に約4か月の猶予が与えられました。
2026年3月:Soraが終了
DALL-Eの終了日を迎える前に、OpenAIはテキストから動画を生成するモデルSoraを廃止しました。公式にはリソースの再配分が理由とされましたが、パターンは明確でした:OpenAIは独立型のクリエイティブAIツールから撤退し、コアとなるLLM製品に統合された機能へと移行していたのです。
2026年5月12日:DALL-Eが停止
エンドポイントが応答を停止します。初代DALL-Eのブログ記事から5年4か月、この製品ラインは完全に廃止されます。
5月12日に具体的に何が廃止されるのか
何が停止し、何が影響を受けないのか、正確に整理します。
停止するもの
- DALL-E 2 API —
dall-e-2モデルのエンドポイントがリクエストの受付を停止します。POST /v1/images/generationsで"model": "dall-e-2"を指定するアプリケーションはエラーレスポンスを受け取ります。 - DALL-E 3 API —
dall-e-3モデルのエンドポイントがリクエストの受付を停止します。DALL-E 3をモデルとして指定するAPIコールも同様に失敗します。 - DALL-E画像編集エンドポイント — DALL-E 2に依存していた
/v1/images/editsエンドポイント(インペインティング)が機能しなくなります。 - DALL-Eバリエーションエンドポイント —
/v1/images/variationsエンドポイントも廃止されます。 - Azure OpenAIのDALL-Eデプロイメント — Azure OpenAI Serviceを通じてDALL-E 2またはDALL-E 3をデプロイしているAzureの顧客も影響を受けます。Microsoftは5月12日に合わせた独自の移行ガイダンスを発行しています。
影響を受けないもの
- ChatGPTの画像生成 — ChatGPTは2025年12月にGPT Image 1.5に切り替え済みです。ChatGPT(Web、モバイル、デスクトップアプリ)で画像を生成している場合、5月12日に変更はありません。
- 生成済みの画像 — DALL-Eで既に生成した画像はユーザーのものです。消えることはありません。ただし、DALL-Eエンドポイントを通じて新しい画像を生成する機能は終了します。
- GPT Image APIエンドポイント — GPT Image 1.5(そして近日中にGPT-Image-2)を使用する新しい画像生成エンドポイントは、引き続き正常に機能します。
既存のインテグレーションへの影響
ここが実質的な影響が発生するポイントです。DALL-E 2またはDALL-E 3にAPIコールを直接行っているアプリケーション、サービス、ワークフローは、移行しない限り5月12日に機能しなくなります。対象には以下が含まれます:
- DALL-EでAI画像生成を提供しているSaaS製品
- DALL-E連携を持つマーケティング自動化ツール
- DALL-E APIを呼び出すデザインツールやFigma/Canvaプラグイン
- DALL-Eエンドポイント上に構築された社内カスタムツール
- DALL-Eモデル名を参照するノーコード/ローコードワークフロー(Zapier、Makeなど)
- DALL-Eモデル指定でOpenAI SDKを使用しているモバイルアプリ
これらのいずれかを運用している場合、5月12日は絶対的な期限です。
DALL-Eの後継:マルチモーダルLLM統合型生成への転換
DALL-Eの廃止は単なる製品の入れ替えではありません。OpenAIの画像生成に対するアプローチにおける根本的なアーキテクチャの転換を意味します。旧モデル:テキストプロンプトを受け取り画像を返す特化型の画像生成システム。新モデル:会話のコンテキストを完全に把握した上で、ネイティブの出力モダリティの一つとして画像を生成できるマルチモーダルLLM。
GPT Image 1.5:現在のデフォルト
GPT Image 1.5は2025年12月からChatGPTのデフォルト画像生成モデルとなっています。APIからも利用可能です。その特徴は以下の通りです:
- 会話コンテキストを考慮した生成。各プロンプトを独立したリクエストとして扱っていたDALL-Eとは異なり、GPT Image 1.5は会話全体のコンテキストを理解します。10回のメッセージにわたってブランドガイドラインを議論してきた場合、生成される画像は最後のプロンプトだけでなく、会話全体を反映します。
- 反復的な改良。「背景をもっと暗くして」「テキストを左に移動して」と言えば、GPT Image 1.5は何を指しているか理解します。DALL-Eでは、各イテレーションで画像全体を一から説明し直す必要がありました。
- 高速な生成。GPT Image 1.5は、特にシンプルなリクエストにおいて、DALL-E 3よりも明らかに速く結果を生成します。
- テキスト推論との統合。画像生成がLLM内部で行われるため、モデルは生成前に何を生成すべきか推論できます。これにより、複雑で多段階のプロンプトへの忠実度が向上します。
APIユーザーにとって、DALL-E 3からGPT Image 1.5への移行パスは明快です。エンドポイントの構造は類似していますが、パラメータや料金体系の違いには対応が必要です。
GPT-Image-2:間もなく登場する後継モデル
GPT-Image-2はまだ正式発表されていませんが、事実上の公然の秘密です。2026年4月4日、GPT-Image-2の予想スペックに合致するモデルがLM Arena(旧LMSYS Chatbot Arena)に出現しました。クラウドソーシング型AIベンチマークプラットフォームでの結果は驚くべきものでした。
LM Arenaのデータと早期アクセステストに基づく詳細レビューを公開しています:GPT-Image-2 プレビューレビュー。主なポイントは以下の通りです:
- テキストレンダリング精度99%。AI画像生成の最大の弱点が、ここにきてほぼ解決されました。DALL-E 3は短いテキストなら時々正確に描画できる程度でした。GPT-Image-2は段落、ロゴ、複雑なタイポグラフィをほぼ完璧な精度で処理します。
- 色かぶりの解消。GPT Image 1.5の既知の問題 — 生成画像に不要な色味がかかる傾向 — がGPT-Image-2では解消されたようです。
- 4K解像度出力。従来のモデルは1024x1024程度が上限でした。GPT-Image-2は最大4Kでネイティブ生成が可能で、印刷、大型ディスプレイ、プロフェッショナルなデザインワークフローに重要な意味を持ちます。
- 新しいアーキテクチャ。OpenAIは技術的詳細を公開していませんが、品質の飛躍はGPT Image 1.5の段階的な改良ではなく、大幅なアーキテクチャ変更を示唆しています。
リリースは2026年4月下旬から5月中旬が見込まれています — DALL-Eの終了に合わせた絶妙なタイミングで、APIユーザーに明確なアップグレードパスを提供します。
アーキテクチャの転換:なぜこれが重要なのか
DALL-EからGPT Imageへの移行は、単なる製品アップデート以上の意味を持ちます。画像生成の仕組みに対する哲学的な転換です:
| DALL-Eアーキテクチャ | GPT Imageアーキテクチャ |
|---|---|
| 独立した拡散モデル | マルチモーダルLLMのネイティブ機能 |
| プロンプトから画像への独立パイプライン | 会話内のコンテキストを考慮 |
| テキストプロンプトが唯一の入力 | テキスト、画像、会話履歴、推論がすべて生成に反映 |
| 各生成が独立 | セッション内での反復的な改良 |
| 安全性/モデレーション層が別 | 安全性がモデルの推論に統合 |
| 固定出力サイズ(1024x1024など) | 最大4Kまでの柔軟な出力サイズ |
これはAI全般で見られるのと同じパターンです:特化型の単一目的モデルが汎用マルチモーダルシステムに吸収されていく。画像生成も、ChatGPT内でのコード生成、データ分析、Webブラウジングと同じ道を辿っているのです。
GPT Image 1.5 vs. DALL-E 3:実際に何が変わったのか
2025年12月にDALL-E 3からGPT Image 1.5に移行された何百万ものユーザーにとって、その変化は完全にシームレスというわけではありませんでした。改善された点もあれば、惜しまれる点もあります。率直な評価を示します。
GPT Image 1.5で改善された点
- 会話コンテキスト。最も大きな改善点です。ChatGPTでのDALL-E 3は、プロンプトをDALL-Eモデルに送る前にChatGPTがリライトしていましたが、画像モデル自体には会話の認識がありませんでした。GPT Image 1.5はスレッドをネイティブに理解します。この違いは反復作業で最も顕著です:「もっとミニマルにして」と言えば、期待通りに機能します。
- 速度。GPT Image 1.5は、特に標準的な複雑さのリクエストにおいて、DALL-E 3よりも明らかに速く画像を生成します。
- 画像内テキスト。まだ完璧ではありませんが(真の飛躍はGPT-Image-2で)、GPT Image 1.5はほとんどのケースでDALL-E 3よりもテキストレンダリングが優れています。短いフレーズ、ラベル、看板がより安定して正確に描画されます。
- 複雑なシーンへのプロンプト忠実度。DALL-E 3が部分的に無視していた複数の被写体・複数のアクションを含むプロンプトが、GPT Image 1.5ではより確実に処理されます。
- セッション内での一貫したスタイル。モデルがコンテキストを維持するため、同一会話内で同じスタイルの複数の画像を生成するのが格段に容易になりました。各生成で詳細なスタイルの説明を繰り返す必要がありません。
DALL-E 3で惜しまれる点
- 特定のアートスタイル。DALL-E 3には一部のユーザーが好んだ独特の美的感覚がありました。特にイラスト風の出力に優れていました。「クリーンなデジタルイラスト」のような表現は、GPT Image 1.5では必ずしも正確に再現されません。
- 予測可能性。DALL-E 3の動作は狭義の意味でより予測可能でした — 同じプロンプトなら似た出力が得られました。GPT Image 1.5のコンテキスト認識は、会話履歴に応じて異なる結果を生む可能性があり、通常はメリットですが、時にフラストレーションの原因にもなります。
- 編集エンドポイント。DALL-E 2のインペインティングとアウトペインティングは、GPT Image APIにはまだ直接的な代替がない固有の機能でした。これらの機能を中心にワークフローを構築していたユーザーは、代替アプローチが必要です。
- 料金の明確さ。DALL-E 3はシンプルな画像単位の料金体系でした。API経由のGPT Image 1.5はトークンベースの料金体系で、予算策定がより困難になる場合があります。
総合評価
ほとんどのユーザーとユースケースにおいて、GPT Image 1.5はDALL-E 3からの明確なアップグレードです。会話コンテキストと反復改良の機能だけでも、クリエイティブワークフローの一環として画像を生成する人にとってより優れたツールです。この移行で最も影響を受けるのは、DALL-E 3の特定の動作やAPI構造を前提とした自動化パイプラインを構築していたユーザーです。
GPT-Image-2:真の後継モデル
GPT Image 1.5が橋渡しだとすれば、GPT-Image-2が目的地です。4月4日のLM Arenaの結果と早期アクセスのレポートに基づくと、GPT-Image-2は世代を超えた飛躍を遂げており、DALL-Eの廃止が損失ではなく、道を切り開くための必然的なステップだと感じさせます。
現時点でわかっていること
GPT-Image-2については詳細レビューで深く取り上げていますが、DALL-E廃止の文脈で特に重要なポイントを挙げます:
- テキストレンダリングがほぼ解決。画像内テキストの精度99%。DALL-E登場以来、すべての画像生成モデルに対する最も多い不満がこの問題でした。GPT-Image-2は複数行テキスト、異なるフォント、ロゴ、タイポグラフィレイアウトをほぼ完璧な忠実度で処理します。
- 4Kネイティブ解像度。アップスケーリングのトリックではありません。モデルは最大4096x4096でネイティブ生成します。プロフェッショナルなデザイン、印刷制作、高解像度マーケティング素材にとって、大きな制限が取り払われます。
- 色かぶり問題の解決。GPT Image 1.5には不要な暖色系・寒色系の色味が入る既知の傾向がありました。GPT-Image-2はデフォルトでニュートラルで正確な色を生成しつつ、プロンプトでの色指定にも適切に応答します。
- フォトリアリズムの新境地。比較テストでは、GPT-Image-2のフォトリアリスティック出力は、従来のどのモデルよりも実写との区別が困難であることが示されています。
- スタイルの幅。初期テストでは、GPT-Image-2はGPT Image 1.5よりも幅広いアートスタイルに対応し、DALL-E 3のイラスト能力を好んでいたユーザーの不満にも対応できる可能性があります。
リリース予定時期
OpenAIは公式なリリース日を発表していませんが、複数のシグナルが2026年4月下旬から5月中旬を示しています。このタイミングには戦略的な意味があります:5月12日より前にGPT-Image-2の提供開始を発表し、DALL-E APIユーザーに期限で追い出されるのではなく、積極的に移行する理由を与えるのです。
移行を計画しているAPIユーザーへの実用的なアドバイス:5月12日の継続性を確保するために今すぐGPT Image 1.5に移行し、GPT-Image-2が利用可能になったらアップグレードしてください。
DALL-E撤退後の競合環境
DALL-Eの廃止は真空の中で起きるわけではありません。2026年のAI画像生成市場は、2022年にDALL-E 2が初めてリリースされた頃とは比較にならないほど競争が激化しています。DALL-Eの撤退で誰が恩恵を受け、市場はどうなるのかを見ていきます。
Midjourney
Midjourneyは2022年以来、消費者市場におけるDALL-Eの主要な競合でした。DALL-Eの撤退により、Midjourneyは最も著名な独立型AI画像生成ブランドとなります。2026年初頭にリリースされたV7モデルは、アート・クリエイティブ用途で卓越した結果を生み出します。Midjourneyの強みは常に美的品質とコミュニティにありました — DALL-Eに関係なく離れないロイヤルなユーザーベースを構築してきました。
DALL-Eの廃止により、ChatGPTの統合型体験よりも専用の画像生成ツールを求めるユーザーがMidjourneyに流れる可能性があります。ただし、MidjourneyのDiscordファーストのインターフェースとフル機能APIの欠如(Webアプリはまだ比較的新しい)が、開発者やエンタープライズユーザーへの訴求力を制限しています。
Flux(Black Forest Labs)
Fluxは画像生成のオープンソースリーダーとして台頭しました。Flux ProとFlux DevはDALL-E 3に匹敵する品質を提供し、オープンソースのFlux Schnellモデルはローカルで実行可能な高速・無料の画像生成を求める開発者の定番となっています。DALL-Eの廃止により、画像生成スタックをより細かく制御したい、OpenAIの製品判断に依存したくない開発者にとって、Fluxの主要な代替手段としての地位がさらに強まります。
Ideogram
Ideogramは、画像内テキストレンダリングの優位性で早くからニッチを確立しました — まさにDALL-Eが一貫して苦手としていた分野です。GPT-Image-2がテキスト問題を解決したとされることでIdeogramは上位からの新たな競争圧力に直面しますが、ミドルレンジの選択肢としてのDALL-Eが撤退することで、Ideogramのデザインとタイポグラフィ重視の生成という専門的な強みに、より多くのユーザーが向かう可能性もあります。
Nano Banana ProとNano Banana 2
Nano Bananaは、フォトリアリズムに優れた高速・高品質な選択肢として支持を広げています。GPT-Image-2比較レビューで取り上げた通り、Nano Banana 2は複数のベンチマークでGPT-Image-2と直接競合しています。DALL-Eの撤退により、Nano Bananaが埋めるのに適した市場スペースが生まれます。特にOpenAIのエコシステム以外の代替を求めるAPIユーザーにとって好位置です。
Stable Diffusion(Stability AI)
Stability AIはここ数年の混乱がありましたが、Stable Diffusionは依然として最も広く使われている画像生成モデルの一つです。特にオープンソースとセルフホスト分野で強みを発揮しています。SD3とSDXLのエコシステムには、ファインチューニングされたモデルやツールの膨大なコミュニティがあります。最大限のカスタマイズ、ローカル推論、特化型ファインチューニングを求めるユーザーにとって、Stable Diffusionは引き続き主要な選択肢です。DALL-Eの撤退はこの市場セグメントに直接的な影響を与えませんが、完全統合型ソリューション(GPT Image)か完全オープンソリューション(SD)かという二極化の傾向を強化します。
GoogleのImagenとGemini
GoogleのImagen 3は、GeminiとVertex AI APIを通じて利用可能なマルチモーダルLLM統合型画像生成システムです。GoogleはOpenAIと同様のアーキテクチャ的方向性を取っています:独立したサービスではなく、会話型AIのネイティブ機能としての画像生成です。DALL-Eの廃止はこのアプローチを正当化し、Geminiの画像機能へのGoogleの投資を加速させる可能性があります。
全体像
DALL-Eの撤退により、市場は3つの層に明確化されます:
- 統合型マルチモーダルプラットフォーム(OpenAI GPT Image、Google Gemini/Imagen) — 汎用AIの一機能としての画像生成
- 専用画像生成サービス(Midjourney、Ideogram、Nano Banana) — 画像品質とクリエイティブコントロールを重視するユーザー向けの特化ツール
- オープンソース・セルフホスト(Flux、Stable Diffusion) — 特定の要件を持つ開発者や企業向けの最大限のコントロールとカスタマイズ
DALL-Eは中途半端な位置を占めていました:統合型マルチモーダルAIにますます注力する企業が提供する独立型画像モデル。その廃止はこの矛盾を解消するものです。
市場シェアへの影響
DALL-Eの廃止は大規模なユーザーベースの再分配をもたらします。正確な数字は非公開ですが、DALL-E 3は最も広く使われている画像生成APIの一つでした。特にAI関連のすべてのニーズをOpenAIのエコシステムで賄っていたエンタープライズ顧客に多く利用されていました。これらのユーザーは今、選択を迫られます:OpenAIのエコシステムに留まるか(GPT Image 1.5 / GPT-Image-2)、特化ツールに分散するか、あるいは複数プロバイダーを抽象化するマルチモデルプラットフォームを採用するかです。
OpenAIの画像生成エコシステムから完全に離脱する可能性が最も高い開発者は、DALL-E 3の限界 — 特にテキストレンダリング、アート面でのコントロール、ファインチューニングオプションの欠如 — にすでに不満を感じていた層です。これらのユーザーにとって、Fluxのオープンソースのカスタマイズ性やMidjourneyの優れた美的出力は以前から魅力的でした。強制的な移行により、惰性という要因が取り除かれます。
APIユーザーが5月12日までにすべきこと:移行チェックリスト
DALL-E 2またはDALL-E 3 APIを呼び出す本番システムがある場合、残り時間は限られています。実用的な移行プランを示します。
ステップ1:DALL-E使用状況の監査
- コードベースで
dall-e-2およびdall-e-3のモデル名への参照を検索する /v1/images/generations、/v1/images/edits、/v1/images/variationsへの呼び出しを確認する- OpenAIダッシュボードの使用ログを確認し、DALL-Eエンドポイントを消費しているすべてのアプリケーションを特定する
- ノーコード/ローコードツール(Zapier、Make、Retoolなど)でDALL-E連携がないか確認する
- 該当する場合はAzure OpenAIデプロイメントも監査する
ステップ2:APIの違いを理解する
- モデル名の変更:
"model": "dall-e-3"を適切なGPT Imageモデル識別子に更新する - パラメータの違い:DALL-E固有のパラメータ(
quality、styleなど)は、GPT Image APIでは異なる動作をしたり、有効な値が変わる場合がある - レスポンス形式:レスポンス構造がパース処理のロジックと合致するか確認する
- 料金モデル:GPT Imageは画像単位ではなくトークンベースの料金体系を使用。コスト追跡と予算管理を更新する
- レート制限:新しいエンドポイントのレート制限が使用パターンに合致するか確認する
ステップ3:更新とテスト
- OpenAI SDKを最新バージョンに更新する(古いバージョンはGPT Imageエンドポイントに対応していない場合がある)
- APIコールを新しいモデルとエンドポイントに変更する
- 既存のプロンプトスイートをGPT Image 1.5に対して実行し、出力を比較する
- エッジケースをテスト:非常に長いプロンプト、特定のスタイル要件のあるプロンプト、DALL-Eの特定の美的感覚で良好に機能していたプロンプト
- DALL-E 2の編集やバリエーションエンドポイントを使用していた場合、代替ワークフローを実装する(GPT Imageは専用エンドポイントではなく会話コンテキストを通じた反復編集で対応)
ステップ4:インペインティング/アウトペインティングのギャップに対応する
製品がDALL-E 2の/v1/images/editsエンドポイントをインペインティングやアウトペインティングに使用していた場合、代替アプローチが必要です。選択肢は以下の通りです:
- GPT Imageの会話型編集機能を使用する(自然言語で希望する編集を記述)
- 代替のインペインティングソリューションを統合する(Flux Fill、Stable Diffusionインペインティング)
- GPT-Image-2を待つ(より堅牢な編集機能が含まれる予定)
ステップ5:ドキュメントとコミュニケーションの更新
- 製品ドキュメントをモデル変更に合わせて更新する
- 製品に「Powered by DALL-E」などのブランディングがあれば更新する
- 変更がユーザー体験に影響する場合はユーザーに通知する(出力スタイルの違い、料金変更など)
- 利用規約やプライバシーポリシーで特定のOpenAIモデルに言及している場合は更新する
ステップ6:GPT-Image-2に備える
- 5月12日の継続性確保のために今すぐGPT Image 1.5に移行する
- モデルの切り替えを容易にするインテグレーション設計にする(ハードコードではなく設定ベースのモデル選択)
- GPT-Image-2がリリースされたら、本番トラフィックを切り替える前にユースケースに対してテストする
- 製品の品質要件に応じて、ユーザーにモデルの選択肢を提供することを検討する
OpenAIのクリエイティブ製品戦略:浮かび上がるパターン
DALL-Eの廃止から一歩引いて見ると、この1年のOpenAIの製品判断に明確なパターンが浮かび上がります。
独立型クリエイティブツールからの撤退
2026年3月:Soraが終了。2024年初頭に大きな注目を集めてリリースされたOpenAIのテキストから動画生成モデルは、競争、コスト構造、安全性の問題に苦しみ、廃止されました。動画生成機能は、独立した製品としてではなく、ChatGPT/APIエコシステムに統合されつつあります。
2026年5月:DALL-Eが終了。画像生成のパイオニアが、GPTモデルに統合されたマルチモーダル生成を優先して廃止されます。
OpenAIの最も世間に知られた2つのクリエイティブAI製品が、2か月以内に消滅。これは偶然ではなく、戦略です。
統合化の命題
OpenAIの賭けは、クリエイティブ機能は独立した製品よりも汎用AIシステムの一機能としての方が価値が高いということです。その論理は以下の通りです:
- コンテキストが重要。会話、プロジェクト、好みを理解した画像生成モデルは、各プロンプトを単独で処理するモデルよりも優れた結果を生む。
- メンテナンスコスト。テキスト、画像、動画、コードなど各モダリティごとに別々のモデルを運用するのはコストが高く複雑。単一のマルチモーダルアーキテクチャへの集約の方が効率的。
- ユーザーエクスペリエンス。ユーザーはツール間の切り替えを望んでいない。すべてを処理する1つのインターフェースを求めている。ChatGPT内での「GPT、画像を作って」の人気が、別のDALL-Eツールを開くよりも好まれていることがこれを証明している。
- 競争上のポジショニング。独立型画像生成市場は混雑している(Midjourney、Flux、Ideogram、Stable Diffusion)。統合型マルチモーダルAI市場は競合が少なく、再現が困難。
業界への示唆
OpenAIの動きは、AI業界全体に影響を与えるより広範なトレンドを示しています:
- 独立型クリエイティブAIツールは統合圧力に直面。世界最大のAI企業が独立した画像・動画生成モデルを別々に維持する価値がないと判断したなら、同様の独立型製品を構築する小規模企業は注意すべきです。
- マルチモーダルが新たな基準。Google(Gemini)、Anthropic(Claude)、その他の主要AIラボが独自のマルチモーダル機能を加速させるでしょう。期待は「AIで画像生成できるか?」から「1つの会話で画像、動画、音声、コードを生成できるか?」へとシフトしています。
- APIの安定性が本格的な懸念に。DALL-E上に構築した開発者は今や移行を余儀なくされています。この経験により、チームは特定のモデルとの深い統合に慎重になり、上流のモデル変更から自身を隔離する抽象レイヤーへの関心が高まるでしょう。
- オープンソースの優位性が増大。FluxやStable DiffusionがOpenAIにはできないことを提供できる点があります:企業の製品判断で廃止されることがないという点です。長期的な安定性を必要とする組織にとって、DALL-EとSoraの終了を目にした後、セルフホストのオープンソースモデルはより魅力的になります。
- 抽象レイヤーが不可欠なインフラに。DALL-Eの廃止は、モデルへの直接的な結合がリスクを伴うことのケーススタディです。特定のモデルプロバイダーからアプリケーションを切り離すミドルウェアやオーケストレーションプラットフォームへの需要が増すでしょう。
Genraの視点
この記事はDALL-EとOpenAIの戦略についてのものなので、手短に述べます。ただし、DALL-Eの廃止は、私たちがプラットフォームの中核に据えてきたコンセプトをよく示しています。
Genraでは、複数の画像・動画生成モデルをバックエンドに統合しています。Genraでコンテンツを作成すると、マルチモデルオーケストレーション層が画像タイプ、スタイル要件、解像度ニーズ、速度などの要素を考慮し、リクエストに最適なモデルを自動選択します。5月12日にDALL-Eが廃止されても、Genraユーザーは何も気づかないでしょう。オーケストレーション層がDALL-Eエンドポイントへのルーティングを停止し、GPT Image 1.5、GPT-Image-2(利用可能になり次第)、その他のモデルへのルーティングを継続するだけです。
これが、個別のモデルAPIと直接統合するのではなく、プラットフォームレベルで作業する利点です。モデルは入れ替わります。製品は廃止されます。複数のモデルを抽象化するプラットフォームは、単一モデルとの統合では実現できない継続性を提供します。
まとめ
- DALL-E 2とDALL-E 3のAPIは2026年5月12日に終了。両エンドポイントがリクエストの受付を停止します。本番環境で連携している場合、移行は任意ではなく必須です。
- ChatGPTユーザーはすでにGPT Image 1.5を使用中。消費者向けの移行は2025年12月に完了しています。5月12日は主にAPIユーザーとAzure OpenAIデプロイメントに影響します。
- GPT Image 1.5が当面の後継モデル。すでに稼働中で、APIからも利用可能。会話コンテキストと反復改良の面で真のアップグレードです。
- GPT-Image-2が間もなく登場。2026年4月下旬から5月中旬にリリース予定。テキストレンダリング精度99%、4K解像度、色かぶり問題の解消を実現。DALL-Eの真の後継モデルです。
- アーキテクチャは独立型から統合型へ転換。OpenAIは画像生成を独立したモデルからLLMのネイティブ機能へと移行中。GoogleもGemini/Imagenで同じ方向を取っています。
- Sora + DALL-Eの廃止は明確な戦略を示す。OpenAIは独立型クリエイティブツールから撤退し、ChatGPTとAPIに統合された機能を推進しています。このトレンドは今後も続くでしょう。
- 競合環境は他社に有利に。Midjourney、Flux、Ideogram、Nano Banana、Stable Diffusionは、DALL-Eが独立型画像生成から撤退することで市場シェアを獲得します。
- APIの安定性への懸念が高まる。2か月で2つの主要モデルが廃止されたことで、開発者は上流の変更から保護する抽象レイヤーやマルチモデルプラットフォームに向かうでしょう。
よくある質問
DALL-Eは正確にいつ終了しますか?
DALL-E 2とDALL-E 3のAPIは2026年5月12日にリクエストの受付を停止します。この日以降、DALL-Eモデルを指定するAPIコールはすべてエラーを返します。ChatGPTの画像生成は影響を受けません。2025年12月にGPT Image 1.5への移行が完了しています。
DALL-Eで生成した既存の画像は削除されますか?
いいえ。DALL-Eですでに生成した画像はユーザーのものであり、削除されません。廃止はDALL-Eエンドポイントを通じた新しい画像生成機能のみに影響します。OpenAIアカウント履歴に保存された画像やローカルにダウンロードした画像には引き続きアクセスできます。
DALL-E 3 APIの直接的な後継は何ですか?
GPT Image 1.5が現在の後継モデルで、OpenAIのAPIから利用可能です。GPT-Image-2は2026年4月下旬から5月中旬にさらなるアップグレードとしてリリース予定です。API構造はDALL-E 3と類似していますが同一ではありません — モデル名の更新、パラメータ変更の確認、トークンベース料金への対応が必要です。
GPT Image 1.5はDALL-E 3より優れていますか?
ほとんどのユースケースでは、はい。GPT Image 1.5は会話コンテキストの認識、高速な生成、改善されたテキストレンダリング、複雑なプロンプトへのより確実な対応を提供します。一部のユーザーはDALL-E 3特有のイラスト風の美的感覚や出力の予測可能性を惜しんでいます。DALL-E 2の編集エンドポイント(インペインティング、アウトペインティング、バリエーション)にはまだ直接的な代替がありません。
Soraはどうなったのですか?DALL-Eの終了と関連していますか?
OpenAIは2026年3月にテキストから動画生成モデルSoraを終了しました。OpenAIは2つの決定を明示的に結びつけてはいませんが、同じパターンに従っています:独立型クリエイティブAI製品を廃止し、ChatGPTとAPI内の統合型マルチモーダルシステムにその機能を統合するという方向です。両方の決定は、各クリエイティブモダリティごとに個別のモデルを維持することからの戦略的転換を反映しています。
Azure OpenAIのDALL-Eデプロイメントも影響を受けますか?
はい。Azure OpenAI Serviceを通じてDALL-E 2またはDALL-E 3をデプロイしているAzure OpenAIの顧客も、同じ2026年5月12日の終了日の影響を受けます。Microsoftは Azure顧客向けの移行ガイダンスを発行しています。Azure固有の移行パスと代替モデルのデプロイについては、Azure OpenAI Serviceのドキュメントを確認してください。
DALL-E 2のインペインティング/アウトペインティングのエンドポイントが廃止される場合、何を使えばよいですか?
いくつかの選択肢があります:GPT Image 1.5の会話型編集を使用する(自然言語で希望する編集を記述)、Flux FillやStable Diffusionインペインティングなどの代替をプログラマティック用途で統合する、あるいはGPT-Image-2を待つ(強化された編集機能が含まれる予定)。アプローチは、APIレベルのプログラマティックアクセスが必要か、会話インターフェースで対応可能かによって異なります。
複数のAIモデルを利用するGenraのようなプラットフォームにはどのような影響がありますか?
マルチモデルプラットフォームは、個々のモデルの廃止による影響が最も小さいです。Genraのように複数の画像生成モデルをバックエンドに統合しているプラットフォームは、モデルが廃止されると自動的にリクエストを別のモデルにリルートでき、ユーザーは中断を経験しません。これが、個別のモデルAPIと直接統合するのではなく、プラットフォームレイヤーを利用する実際的なメリットの一つです。
著者について
Genra AIチームは、AI画像・動画生成の最新動向をお届けしています。急速に進化するAIクリエイティブツールの最新情報と分析は@GenraAIをフォローしてください。