DALL-E 退役:OpenAI 于5月12日关停图像模型——替代方案全解析

· Genra AI

OpenAI 将于2026年5月12日同时关停 DALL-E 2 和 DALL-E 3。加上3月 Sora 的停运,OpenAI 最具标志性的两款创意 AI 产品就此落幕。替代方案已经就绪 — 而它们与前代产品有着本质的不同。

2026年5月12日,OpenAI 将正式停止 DALL-E 的服务。DALL-E 2 和 DALL-E 3 — 这两款让数百万人首次接触 AI 生成艺术的图像生成模型 — 将不再响应 API 调用。端点将返回错误。模型将彻底下线。

这并非意料之外。OpenAI 数月来一直在释放信号。早在2025年12月,ChatGPT 用户就已从 DALL-E 3 自动切换至 GPT Image 1.5。API 弃用通知在2026年初发出。但5月12日这个确切的关停日期,让一切变得格外真实 — 这是弃用通知无法传达的紧迫感。

这一时刻的重要性不仅仅在于一款热门产品的退役,更在于它所代表的趋势。2026年3月,OpenAI 关停了文本生成视频模型 Sora。如今 DALL-E 紧随其后。OpenAI 最具辨识度的两款创意 AI 工具,在短短两个月内相继退出历史舞台。

替代产品揭示了 AI 图像生成的未来方向。OpenAI 不再押注独立的单一用途模型,而是将图像生成能力直接内置于大语言模型中。GPT Image 1.5 已经上线,GPT-Image-2 即将发布。底层架构已经发生了根本性转变。

本文涵盖你需要了解的一切:DALL-E 从诞生到退役的完整时间线、具体哪些服务将被关停、替代方案是什么、新旧产品的对比,以及开发者和企业在5月12日前需要采取的行动。

时间线:DALL-E 从突破到退役的旅程

DALL-E 的产品生命周期堪称 AI 史上最为短暂的之一。从首篇研究论文到全面退役,仅仅五年多。

2021年1月:DALL-E(初代)

OpenAI 发布了一篇研究博客,介绍了 DALL-E — 一个基于 GPT-3 的120亿参数模型,经过训练可以根据文本描述生成图像。它只是一个研究预览,并非产品,没有公开访问。但"输入一句话,得到一张图"这一概念点燃了整个科技界的想象力。DALL-E 这个名字 — 取自萨尔瓦多·达利(Salvador Dali)和瓦力(WALL-E)的混合词 — 瞬间成为标志性符号。

初代 DALL-E 可以根据"一把牛油果形状的扶手椅"或"一个穿芭蕾舞裙遛狗的小萝卜宝宝的专业高品质插图"等提示词生成图像。以今天的标准来看,效果还很粗糙,但在2021年,这简直像是科幻小说成真。

2022年4月:DALL-E 2

DALL-E 2 是真正改变一切的版本。OpenAI 采用候补名单制度发布,引发了巨大的需求。该模型使用扩散模型架构(与初代的离散 VAE 方法截然不同),能够以更高分辨率生成质量大幅提升的图像。

DALL-E 2 引入了几项关键功能:内补绘制(编辑图像的特定区域)、外扩绘制(将图像扩展到原始边界之外)以及变体生成(基于上传的参考图生成类似图像)。它从研究成果蜕变为主流产品。艺术家、设计师、营销人员和爱好者纷纷涌入这个平台。

API 于2022年晚些时候推出,使开发者能够将 DALL-E 2 集成到自己的应用中。这标志着 DALL-E 从消费级玩具转变为基础设施 — 成为其他产品的构建模块。

2023年10月:DALL-E 3

DALL-E 3 直接集成到 ChatGPT 中,这一举措预示了 OpenAI 最终的发展方向。用户无需切换到独立界面,可以在对话中直接生成图像。先让 ChatGPT 解释一个概念,然后要求它为这个概念绘图 — 一切都在同一个对话线程中完成。

模型质量有了显著飞跃。DALL-E 3 在遵循复杂提示词、在图像中渲染文字(仍不完美,但有了巨大改进)以及生成包含多个主体的连贯构图方面都有了大幅提升。它还搭载了与 ChatGPT 审核层协同开发的内置安全系统。

至关重要的是,DALL-E 3 也通过 API 提供,在保持向后兼容性的同时提供了一个能力大幅增强的模型。

2025年:GPT-4o 图像生成能力与终结的序幕

当 OpenAI 在 GPT-4o 中引入原生图像生成能力时,DALL-E 的命运已经写在墙上。GPT-4o 不再调用独立的 DALL-E 模型,而是将图像生成作为自身多模态输出的一部分。这不是对 DALL-E 的包装 — 而是一种根本不同的架构,图像生成成为语言模型的原生能力。

生成质量与 DALL-E 3 不相上下,而用户体验更加优越。无需模式切换,无需单独调用模型。对话中可以流畅地产出文字、代码和图像。

2025年12月:GPT Image 1.5 取代 ChatGPT 中的 DALL-E 3

2025年12月,OpenAI 悄然将 ChatGPT 中默认的图像生成模型从 DALL-E 3 替换为 GPT Image 1.5。通过 ChatGPT 使用 DALL-E 3 的用户被自动迁移。对大多数普通用户来说,这一过渡几乎无感 — 他们只是注意到图像生成变得更快了,且更能理解对话上下文。

这是 DALL-E 即将退役的最明确信号。OpenAI 已经将其旗舰消费产品从该模型上移走了。

2026年初:正式宣布弃用

OpenAI 正式宣布 DALL-E 2 和 DALL-E 3 API 将被退役,关停日期定为2026年5月12日。该公告给 API 用户大约四个月的时间将集成迁移到新的 GPT Image 端点。

2026年3月:Sora 关停

甚至在 DALL-E 到达关停日期之前,OpenAI 就已经退役了文本生成视频模型 Sora。官方理由是重新分配资源,但趋势已经非常清晰:OpenAI 正在从独立的创意 AI 工具转向将这些能力集成到核心 LLM 产品中。

2026年5月12日:DALL-E 正式下线

端点停止响应。距离初代 DALL-E 博客文章发布五年零四个月后,整条产品线全面退役。

5月12日究竟关停了什么

让我们明确哪些服务将停止运作,哪些不受影响。

将被关停的服务

  • DALL-E 2 APIdall-e-2 模型端点将停止接受请求。任何以 "model": "dall-e-2" 调用 POST /v1/images/generations 的应用都将收到错误响应。
  • DALL-E 3 APIdall-e-3 模型端点将停止接受请求。同理:任何指定 DALL-E 3 作为模型的 API 调用都将失败。
  • DALL-E 图像编辑端点 — 依赖 DALL-E 2 的 /v1/images/edits(内补绘制)端点将不再可用。
  • DALL-E 变体生成端点/v1/images/variations 端点也将一并退役。
  • Azure OpenAI 的 DALL-E 部署 — 通过 Azure OpenAI Service 部署 DALL-E 2 或 DALL-E 3 的 Azure 客户同样受到影响。微软已发布与5月12日对齐的迁移指南。

不受影响的服务

  • ChatGPT 图像生成 — ChatGPT 早在2025年12月就已切换至 GPT Image 1.5。如果你通过 ChatGPT(网页版、移动端或桌面端)生成图像,5月12日对你没有任何影响。
  • 已生成的图像 — 你之前用 DALL-E 创建的图像属于你,不会消失。停止的只是通过 DALL-E 端点生成新图像的能力。
  • GPT Image API 端点 — 使用 GPT Image 1.5(以及即将推出的 GPT-Image-2)的新一代图像生成端点将继续正常运作。

对现有集成的影响

这才是真正受冲击的地方。任何直接调用 DALL-E 2 或 DALL-E 3 API 的应用、服务或工作流,如果不进行迁移,将在5月12日当天中断。包括:

  • 使用 DALL-E 提供 AI 图像生成功能的 SaaS 产品
  • 集成了 DALL-E 的营销自动化工具
  • 调用 DALL-E API 的设计工具及 Figma/Canva 插件
  • 基于 DALL-E 端点构建的企业内部工具
  • 引用 DALL-E 模型名称的无代码/低代码工作流(Zapier、Make 等)
  • 使用 OpenAI SDK 并指定 DALL-E 模型的移动应用

如果你维护着以上任何一种系统,5月12日就是硬性截止日期。

DALL-E 的替代方案:向多模态 LLM 集成生成的转型

DALL-E 的退役不仅仅是产品替换,而是代表了 OpenAI 在图像生成方法论上的根本性架构转变。旧模式:一个专用的图像生成系统,接收文本提示词并返回图像。新模式:一个多模态 LLM,能够将图像生成作为其原生输出能力之一,并完全感知对话上下文。

GPT Image 1.5:当前默认方案

自2025年12月起,GPT Image 1.5 一直是 ChatGPT 中默认的图像生成模型,同时也通过 API 提供。以下是其核心特性:

  • 上下文感知生成。与 DALL-E 将每个提示词作为独立请求处理不同,GPT Image 1.5 能理解完整的对话上下文。如果你在前10条消息中一直在讨论品牌设计规范,它生成的图像会反映整段对话的内容 — 而不仅仅是最后一句提示词。
  • 迭代式优化。你可以说"把背景调暗一点"或"把文字移到左边",GPT Image 1.5 能理解你指的是什么。而 DALL-E 则需要你为每次迭代从头完整描述整张图像。
  • 更快的生成速度。GPT Image 1.5 的出图速度明显快于 DALL-E 3,尤其是对于简单请求。
  • 与文本推理集成。由于图像生成发生在 LLM 内部,模型可以在生成之前对要生成的内容进行推理。这使得复杂的多部分提示词能够得到更好的遵循。

对于 API 用户来说,从 DALL-E 3 迁移到 GPT Image 1.5 的路径是比较直接的。端点结构相似,但在参数和定价上有差异,需要注意调整。

GPT-Image-2:即将到来的继任者

GPT-Image-2 尚未正式发布,但已经是公开的秘密。2026年4月4日,一个与 GPT-Image-2 预期规格匹配的模型出现在 LM Arena(前身为 LMSYS Chatbot Arena)这一众包 AI 评测平台上。结果令人瞩目。

我们已经基于 LM Arena 数据和早期测试发布了详细评测:GPT-Image-2 预览版评测。核心亮点:

  • 文字渲染准确率达99%。文字渲染一直是 AI 图像生成的阿喀琉斯之踵。DALL-E 3 偶尔能正确渲染短文本。GPT-Image-2 则能以近乎完美的准确率处理段落、标志和复杂排版。
  • 消除色偏问题。GPT Image 1.5 的一个已知问题 — 倾向于为生成的图像添加不必要的色调 — 在 GPT-Image-2 中已得到解决。
  • 4K 分辨率输出。此前的模型最高只能输出 1024x1024 或类似分辨率。GPT-Image-2 可以原生生成最高 4K 分辨率的图像,这对印刷、大幅面显示和专业设计工作流至关重要。
  • 全新架构。虽然 OpenAI 未披露技术细节,但质量上的飞跃表明这是一次重大的架构变革,而非对 GPT Image 1.5 的渐进式改进。

预计发布时间为2026年4月下旬至5月中旬 — 恰好与 DALL-E 关停时间相吻合,为 API 用户提供了清晰的升级路径。

架构转型:为什么这很重要

从 DALL-E 到 GPT Image 的转变不仅仅是产品更新,更是图像生成工作原理的哲学性转变:

DALL-E 架构 GPT Image 架构
独立的扩散模型 多模态 LLM 的原生能力
孤立的提示词到图像管线 对话中的上下文感知
文本提示词是唯一输入 文本、图像、对话历史和推理共同驱动生成
每次生成都是独立的 在同一会话中进行迭代优化
独立的安全/审核层 安全机制集成于模型推理中
固定输出尺寸(1024x1024 等) 灵活的输出尺寸,最高可达 4K

这正是我们在整个 AI 领域看到的相同趋势:专用的单一用途模型正在被通用的多模态系统所吸收。图像生成正在沿着代码生成、数据分析和网页浏览在 ChatGPT 中所走过的同一条路径演进。

GPT Image 1.5 与 DALL-E 3:到底有什么变化

对于2025年12月从 DALL-E 3 被迁移到 GPT Image 1.5 的数百万用户来说,这次转变并非完全无缝。有些方面变得更好了,有些方面用户则有所怀念。以下是一份客观的评估。

GPT Image 1.5 的优势

  • 对话上下文。这是最大的改进。DALL-E 3 在 ChatGPT 中运行时,ChatGPT 会先改写你的提示词再发送给 DALL-E 模型,但图像模型本身对你的对话一无所知。GPT Image 1.5 原生理解整个对话线程。差异在迭代时最为明显:"现在让它更简约一些"这样的指令能按预期生效。
  • 速度。GPT Image 1.5 的图像生成速度明显快于 DALL-E 3,尤其是对于标准复杂度的请求。
  • 图中文字。虽然仍不完美(GPT-Image-2 才是真正的飞跃),但在大多数情况下,GPT Image 1.5 处理文字渲染优于 DALL-E 3。短语、标签和标识的渲染更加一致准确。
  • 复杂场景的提示词遵循。DALL-E 3 会部分忽略的多主体、多动作提示词,GPT Image 1.5 处理得更为可靠。
  • 会话内风格一致性。由于模型保持上下文,在同一对话中生成多张相同风格的图像变得更加容易。你无需为每次生成重复描述详细的风格信息。

用户怀念 DALL-E 3 的地方

  • 某些艺术风格。DALL-E 3 有一种独特的美学,部分用户更为偏爱,尤其是插画风格的输出。它擅长的那种"干净的数字插画"风格,GPT Image 1.5 并不总能精确复制。
  • 可预测性。从狭义上讲,DALL-E 3 的行为更加可预测 — 相同的提示词,相似的输出。GPT Image 1.5 的上下文感知意味着它可能因对话历史的不同而产生不同的结果,这通常是一个优势,但偶尔也会带来困扰。
  • 编辑端点。DALL-E 2 的内补绘制和外扩绘制是特定功能,在 GPT Image API 中尚无直接对应。围绕这些功能构建工作流的用户需要寻找替代方案。
  • 定价透明度。DALL-E 3 采用简明的按图计费。GPT Image 1.5 通过 API 使用的是基于 token 的定价,在预算规划时更难预估。

综合评估

对于大多数用户和使用场景而言,GPT Image 1.5 相较 DALL-E 3 是一个明确的升级。仅凭对话上下文和迭代优化能力,它就已经是所有在创意工作流中生成图像的用户的更优工具。受影响最大的用户是那些围绕 DALL-E 3 特定行为和 API 结构构建了自动化管线的开发者。

GPT-Image-2:真正的继任者

如果说 GPT Image 1.5 是过渡桥梁,那么 GPT-Image-2 就是最终目的地。根据4月4日的 LM Arena 结果和早期评测报告,GPT-Image-2 代表了一次代际飞跃,让 DALL-E 的退役不再像是一种损失,更像是为新技术铺平道路。

目前已知信息

我们在完整评测中详细报道了 GPT-Image-2,以下是与 DALL-E 退役背景相关的关键信息:

  • 文字渲染问题基本解决。图像内文字准确率达 99%。这曾是自 DALL-E 诞生以来每一款图像生成模型被投诉最多的问题。GPT-Image-2 能以近乎完美的保真度处理多行文字、不同字体、标志和排版布局。
  • 原生 4K 分辨率。无需放大处理。模型原生生成最高 4096x4096 分辨率。对于专业设计、印刷制作和高分辨率营销素材,这消除了一个重大限制。
  • 色偏问题已修复。GPT Image 1.5 有一个已知问题,会引入不必要的暖色或冷色调。GPT-Image-2 默认生成中性、准确的颜色,同时仍能响应提示词中的色彩指导。
  • 照片级真实感达到新标杆。并排对比显示,GPT-Image-2 生成的照片级真实图像比此前任何模型都更难与真实照片区分。
  • 风格范围。早期测试表明,GPT-Image-2 能处理比 GPT Image 1.5 更广泛的艺术风格,有望解决偏好 DALL-E 3 插画能力的用户的不满。

预计上线时间

OpenAI 尚未公布官方发布日期,但多项信号指向2026年4月下旬或5月上中旬。这一时机在战略上合情合理:在5月12日之前宣布 GPT-Image-2 可用,为 DALL-E API 用户提供一个令人信服的迁移理由,而不仅仅是一个迫使他们离开旧模型的截止日期。

对于正在规划迁移的 API 用户,实用建议是:立即迁移到 GPT Image 1.5 以确保5月12日的业务连续性,然后在 GPT-Image-2 发布后再升级。

没有 DALL-E 的竞争格局

DALL-E 的退役并非在真空中发生。2026年的 AI 图像生成市场远比2022年 DALL-E 2 首次推出时更具竞争力。以下是哪些玩家从 DALL-E 的退出中获益,以及市场的当前状态。

Midjourney

自2022年以来,Midjourney 一直是消费市场上 DALL-E 的主要竞争对手。DALL-E 退出后,Midjourney 将成为最知名的独立 AI 图像生成品牌。其2026年初发布的 V7 模型在艺术和创意用途方面效果出色。Midjourney 的优势一直在于美学品质和社区 — 他们建立了一个忠实的用户群体,这些用户无论如何都不会转向 DALL-E。

DALL-E 的退役可能会将一些希望使用专用图像生成工具而非 ChatGPT 集成体验的用户推向 Midjourney。但 Midjourney 以 Discord 为先的界面以及缺乏完整 API(其网页应用仍相对较新)限制了它对开发者和企业用户的吸引力。

Flux(Black Forest Labs 出品)

Flux 已成为图像生成领域的开源领导者。Flux Pro 和 Flux Dev 提供了与 DALL-E 3 相当的质量,而开源的 Flux Schnell 模型已成为希望在本地运行快速、免费图像生成的开发者的首选。DALL-E 的退役进一步巩固了 Flux 作为开发者首要替代方案的地位 — 特别是那些希望对图像生成技术栈拥有更多控制权、不想依赖 OpenAI 产品决策的开发者。

Ideogram

Ideogram 很早就凭借图像内文字渲染的出色表现占据了一席之地 — 这恰恰是 DALL-E 一直以来的弱项。据报道 GPT-Image-2 解决了文字渲染问题后,Ideogram 面临来自高端产品的新竞争压力。但 DALL-E 退出中端市场可能会将更多用户推向 Ideogram 在设计和排版生成方面的专业优势。

Nano Banana Pro 和 Nano Banana 2

Nano Banana 作为一款快速、高质量且擅长照片级真实感的选择,正在获得越来越多的关注。正如我们在 GPT-Image-2 对比评测中所述,Nano Banana 2 在多项基准测试中与 GPT-Image-2 直接竞争。DALL-E 的退出打开了 Nano Banana 有能力填补的市场空间,尤其是对于希望获得 OpenAI 生态系统之外替代方案的 API 用户。

Stable Diffusion(Stability AI 出品)

Stability AI 经历了动荡的几年,但 Stable Diffusion 仍然是使用最广泛的图像生成模型之一,特别是在开源和自托管领域。SD3 和 SDXL 生态系统拥有庞大的微调模型和工具社区。对于需要最大程度自定义、本地推理或专用微调的用户,Stable Diffusion 仍然是首要选择。DALL-E 的退出不会直接影响这一细分市场,但强化了一个趋势:要么选择完全集成的解决方案(如 GPT Image),要么选择完全开放的方案(如 SD)。

Google 的 Imagen 和 Gemini

Google 的 Imagen 3 通过 Gemini 和 Vertex AI API 提供,是另一个多模态 LLM 集成图像生成系统。Google 正沿着与 OpenAI 类似的架构路径前进:将图像生成作为对话式 AI 的原生能力,而非独立服务。DALL-E 的退役验证了这一方向,可能会加速 Google 对 Gemini 图像能力的投入。

更大的图景

DALL-E 的退出使市场清晰地分为三个层级:

  1. 集成式多模态平台(OpenAI GPT Image、Google Gemini/Imagen)— 图像生成作为通用 AI 的一项功能
  2. 专用图像生成服务(Midjourney、Ideogram、Nano Banana)— 为优先考虑图像质量和创作控制力的用户打造的专业工具
  3. 开源与自托管(Flux、Stable Diffusion)— 为有特定需求的开发者和企业提供最大程度的控制力和自定义能力

DALL-E 过去处于一个尴尬的中间地带:一个来自日益专注于集成式多模态 AI 的公司的独立图像模型。它的退役化解了这一矛盾。

市场份额影响

DALL-E 的退役将重新分配一个庞大的用户群体。虽然确切数据未公开,但 DALL-E 3 一直是使用最广泛的图像生成 API 之一,尤其在企业客户中 — 这些客户默认选择 OpenAI 生态系统来满足所有 AI 需求。这些用户现在面临选择:留在 OpenAI 生态系统中(GPT Image 1.5 / GPT-Image-2),转向专业工具实现多样化,或采用可在多个提供商之间进行抽象的多模型平台。

最可能完全离开 OpenAI 图像生成生态系统的开发者,是那些已经对 DALL-E 3 的局限性感到沮丧的群体 — 特别是在文字渲染、艺术控制力和缺乏微调选项方面。对这些用户来说,Flux 的开源可定制性或 Midjourney 的卓越美学输出早已极具吸引力。强制迁移消除了惯性作为留守因素的影响。

API 用户在5月12日前需要做的事:迁移清单

如果你有任何生产系统在调用 DALL-E 2 或 DALL-E 3 API,时间已经非常紧迫。以下是一份实用的迁移计划。

第一步:审计你的 DALL-E 使用情况

  • 在代码库中搜索 dall-e-2dall-e-3 模型名称的引用
  • 检查对 /v1/images/generations/v1/images/edits/v1/images/variations 的调用
  • 查看 OpenAI 控制台的使用日志,识别所有消费 DALL-E 端点的应用
  • 检查无代码/低代码工具(Zapier、Make、Retool 等)中的 DALL-E 集成
  • 如适用,审计 Azure OpenAI 部署

第二步:了解 API 差异

  • 模型名称变更:"model": "dall-e-3" 更新为相应的 GPT Image 模型标识符
  • 参数差异:某些 DALL-E 特定参数(如 qualitystyle)在 GPT Image API 中的工作方式或有效值可能不同
  • 响应格式:验证响应结构是否与你的解析逻辑匹配
  • 定价模式:GPT Image 采用基于 token 的定价,而非按图计费。相应更新你的成本跟踪和预算计划
  • 速率限制:检查新端点的速率限制是否匹配你的使用模式

第三步:更新与测试

  • 将 OpenAI SDK 更新到最新版本(旧版本可能不支持 GPT Image 端点)
  • 修改 API 调用以指向新的模型和端点
  • 使用你现有的提示词集合在 GPT Image 1.5 上运行并比较输出
  • 测试边缘情况:超长提示词、有特定风格要求的提示词、以及之前在 DALL-E 特有美学下表现良好的提示词
  • 如果你使用了 DALL-E 2 的编辑或变体端点,请实施替代工作流(GPT Image 通过对话上下文处理迭代编辑,而非专用端点)

第四步:处理内补绘制/外扩绘制的缺口

如果你的产品依赖 DALL-E 2 的 /v1/images/edits 端点来进行内补绘制或外扩绘制,你需要寻找替代方案。选项包括:

  • 使用 GPT Image 的对话式编辑能力(用自然语言描述你想要的编辑)
  • 集成替代内补绘制解决方案(Flux Fill、Stable Diffusion 内补绘制)
  • 等待 GPT-Image-2,预计将包含更强大的编辑功能

第五步:更新文档和沟通

  • 更新产品文档以反映模型变更
  • 如果你的产品标注了"由 DALL-E 驱动"或类似品牌信息,请更新
  • 如果变更影响到用户体验(不同的输出风格、定价变化等),通知用户
  • 如果服务条款或隐私政策中引用了特定的 OpenAI 模型,请更新

第六步:为 GPT-Image-2 做好规划

  • 立即迁移到 GPT Image 1.5 以确保5月12日的业务连续性
  • 设计集成时让模型切换变得容易(基于配置的模型选择,而非硬编码)
  • GPT-Image-2 发布后,先在你的使用场景下测试,再切换生产流量
  • 如果产品的质量要求足够高,考虑向用户提供多模型选择

OpenAI 的创意产品战略:一个清晰的模式浮现

从 DALL-E 退役的事件中拉远视角,OpenAI 过去一年的产品决策呈现出一个清晰的模式。

从独立创意工具撤退

2026年3月:Sora 关停。OpenAI 的文本生成视频模型在2024年初以巨大的声势推出后,因面临竞争压力、成本结构问题和安全顾虑而退役。视频生成能力正在被整合到 ChatGPT/API 生态系统中,而非作为独立产品维护。

2026年5月:DALL-E 关停。图像生成的先驱,退役转型为 GPT 模型中集成的多模态生成能力。

OpenAI 最具公众知名度的两款创意 AI 产品,在两个月内相继消失。这不是巧合 — 这是战略。

集成化论点

OpenAI 的押注是:创意能力作为通用 AI 系统的功能比作为独立产品更有价值。理由如下:

  • 上下文至关重要。一个理解你对话内容、项目背景和个人偏好的图像生成模型,比一个将每个提示词视为孤立请求的模型能产出更好的结果。
  • 维护成本。为文本、图像、视频、代码和其他模态分别运行独立模型既昂贵又复杂。整合为单一的多模态架构更为高效。
  • 用户体验。用户不想在不同工具之间切换上下文。他们想要一个能处理一切的统一界面。ChatGPT 中"GPT,帮我生成一张图"的使用热度与打开独立 DALL-E 工具的对比就证明了这一点。
  • 竞争定位。独立图像生成市场已经十分拥挤(Midjourney、Flux、Ideogram、Stable Diffusion)。集成式多模态 AI 市场竞争更少,且更难被复制。

这对行业意味着什么

OpenAI 的举措释放了一个将影响整个 AI 行业的更宏观信号:

  • 独立创意 AI 工具面临整合压力。如果全球最大的 AI 公司都认为独立的图像和视频生成模型不值得单独维护,那么构建类似独立产品的小公司应该引起警觉。
  • 多模态成为新基线。预计 Google(Gemini)、Anthropic(Claude)和其他主要 AI 实验室将加速推进自身的多模态能力。行业期望正在从"你的 AI 能生成图像吗?"转变为"你的 AI 能在一次对话中生成图像、视频、音频和代码吗?"
  • API 稳定性成为真实关切。基于 DALL-E 构建系统的开发者现在被迫迁移。这一经历将使团队在深度集成任何单一模型时更加谨慎,并更关注能够隔离上游模型变更影响的抽象层。
  • 开源的优势在增长。Flux 和 Stable Diffusion 能提供而 OpenAI 无法承诺的一点是:它们不会因为某个公司的产品决策而被退役。对于需要长期稳定性的组织来说,在目睹 DALL-E 和 Sora 被关停之后,自托管的开源模型变得更具吸引力。
  • 抽象层成为关键基础设施。DALL-E 退役是一个教科书式的案例,说明了直接模型耦合的风险。预计对中间件和编排平台的需求将增长,这些平台将应用与特定模型提供商解耦。

Genra 的观点

这部分我们简短说明,因为这篇文章的主角是 DALL-E 和 OpenAI 的战略,而不是我们自己。但 DALL-E 的退役确实印证了我们构建平台时的核心理念。

在 Genra,我们在后台集成了多个图像和视频生成模型。当你通过 Genra 创建内容时,我们的多模型编排层会根据你的具体请求选择最佳可用模型 — 综合考虑图像类型、风格需求、分辨率要求和速度等因素。当 DALL-E 于5月12日退役时,Genra 用户不会有任何感知。编排层将简单地停止向 DALL-E 端点路由请求,继续向 GPT Image 1.5、GPT-Image-2(待上线时)以及我们技术栈中的其他模型路由。

这就是在平台层级工作相较于直接对接单个模型 API 的优势。模型会来来去去,产品会被退役。在多模型之上构建抽象层的平台能够提供单一模型集成无法保证的业务连续性。

核心要点

  • DALL-E 2 和 DALL-E 3 API 将于2026年5月12日关停。两个端点都将停止接受请求。如果你有生产级集成,迁移是必须的,不是可选的。
  • ChatGPT 用户已在使用 GPT Image 1.5。面向消费者的过渡在2025年12月已完成。5月12日主要影响 API 用户和 Azure OpenAI 部署。
  • GPT Image 1.5 是当前的直接替代方案。它已上线、可通过 API 访问,且在对话上下文感知和迭代优化方面是真正的升级。
  • GPT-Image-2 即将推出。预计2026年4月下旬至5月中旬发布,具备 99% 文字渲染准确率、4K 分辨率和已解决的色偏问题。这才是 DALL-E 的真正继任者。
  • 架构转型的方向是从独立到集成。OpenAI 正在将图像生成从独立模型转变为 LLM 的原生能力。Google 也在 Gemini/Imagen 上走同样的路径。
  • Sora + DALL-E 退役展现了清晰的战略。OpenAI 正在从独立创意工具撤退,转而将这些能力集成到 ChatGPT 和 API 中。预计这一趋势将持续。
  • 竞争格局对其他玩家有利。Midjourney、Flux、Ideogram、Nano Banana 和 Stable Diffusion 都将在 DALL-E 退出独立图像生成领域后获得市场份额。
  • API 稳定性是日益增长的隐忧。两个月内两次重大模型退役将推动开发者转向抽象层和多模型平台,以隔离上游变更的影响。

常见问题

DALL-E 具体什么时候关停?

DALL-E 2 和 DALL-E 3 API 将于2026年5月12日停止接受请求。该日期之后,任何指定 DALL-E 模型的 API 调用都将返回错误。ChatGPT 的图像生成不受影响,因为它在2025年12月已经切换至 GPT Image 1.5。

我之前用 DALL-E 生成的图像会被删除吗?

不会。你之前用 DALL-E 生成的图像属于你,不会被移除。退役仅影响通过 DALL-E 端点生成新图像的能力。存储在你 OpenAI 账户历史记录中或已下载到本地的图像均可继续访问。

DALL-E 3 API 的直接替代方案是什么?

GPT Image 1.5 是当前的替代方案,可通过 OpenAI 的 API 使用。GPT-Image-2 预计在2026年4月下旬至5月中旬推出,作为进一步升级。API 结构与 DALL-E 3 相似但不完全相同 — 你需要更新模型名称、检查参数变更,并适应基于 token 的定价。

GPT Image 1.5 比 DALL-E 3 好吗?

对于大多数使用场景,是的。GPT Image 1.5 提供了更好的对话上下文感知、更快的生成速度、改进的文字渲染和更强的复杂提示词遵循能力。部分用户怀念 DALL-E 3 独特的插画美学和输出的可预测性。DALL-E 2 的编辑端点(内补绘制、外扩绘制、变体生成)目前尚无直接对应。

Sora 怎么了?与 DALL-E 关停有关吗?

OpenAI 于2026年3月关停了文本生成视频模型 Sora。虽然 OpenAI 没有明确将两个决定联系起来,但它们遵循了相同的模式:退役独立的创意 AI 产品,将这些能力整合到 ChatGPT 和 API 中的集成式多模态系统中。两个决定都反映了 OpenAI 从为每种创意模态维护独立模型的战略转向。

Azure OpenAI 的 DALL-E 部署也受影响吗?

是的。通过 Azure OpenAI Service 部署 DALL-E 2 或 DALL-E 3 的 Azure 客户同样受到2026年5月12日关停日期的影响。微软已为 Azure 客户发布了迁移指南。请查阅 Azure OpenAI Service 文档了解 Azure 特定的迁移路径和替代模型部署。

DALL-E 2 的内补绘制和外扩绘制端点即将退役,我该用什么替代?

你有几个选择:使用 GPT Image 1.5 的对话式编辑能力(用自然语言描述你想要的编辑),集成替代方案如 Flux Fill 或 Stable Diffusion 内补绘制用于程序化使用,或者等待预计包含增强编辑功能的 GPT-Image-2。具体方案取决于你是需要 API 级别的程序化访问,还是可以在对话界面中完成工作。

这对使用多个 AI 模型的平台(如 Genra)有什么影响?

多模型平台受单个模型退役的影响最小。像 Genra 这样在后台集成多个图像生成模型的平台,可以在模型退役时自动重新路由请求,确保用户不受任何干扰。这就是使用平台层而非直接集成单一模型 API 的实际优势之一。


关于作者
Genra AI 团队持续跟踪 AI 图像和视频生成领域的最新动态。关注 @GenraAI 获取关于快速演进中的 AI 创意工具领域的更新与分析。