你对文生图的印象还停留在 Nano Banana 吗?
可是孩子,时代又变了。

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@0115hippo https://x.com/0115hippo/status/2044722124611539160
4 月初,LM Arena 评测平台上出现了三个匿名图像模型,代号分别是 maskingtape-alpha、packingtape-alpha、gaffertape-alpha。几小时后它们消失了。
OpenAI 官方还没有正式宣布这个模型,但根据 API 返回的元数据和用户侧的测试记录,它已经有了一个被广泛接受的名字:GPT Image 2。

截图不能再当证据了
过去几年,AI 生图模型最明显的短板之一就是图片里的文字。DALL-E 3 时代,你让它在图里写「Hello」,出来的可能是「Hellp」甚至「Hl10」,字母像喝醉了一样东倒西歪。GPT Image 1 好了很多,能处理简单的英文标签。到 GPT Image 1.5 ,其对英文文字的渲染准确率已经接近 95%,但在中文、日文、韩文等非拉丁字母体系上仍有明显缺陷。
而 GPT Image 2 的泄露样图改变了这个印象。


@MrLarus https://x.com/MrLarus/status/2044824800909054181


@akokoi1 https://x.com/akokoi1/status/2044789531615056175
图片里的文字,该是什么就是什么。中文清晰,字形准确,笔画完整。有人测试生成一张身份证样式的图片,姓名、地址、证件号码全部正确渲染,排版规整,初看像是真实文件的照片。

这是个好消息。文字渲染的进步,意味着生成信息图、海报、产品包装、排版复杂的图表,都变得更可靠了。
但硬币总有另一面。一个能生成以假乱真的证件样式图、精确渲染 UI 截图的模型,自然也让「截图可以作为证据」这件事变得越来越可疑。
对比来看,这也是 GPT Image 系列和其他模型的核心差异所在。Midjourney 至今在文字渲染上毫无建树,Stable Diffusion 系列也是老问题。根据泄露的 Arena 测试结果,GPT Image 2 在文字渲染、指令跟随、照片真实感和世界知识四个维度上均超过 Midjourney,后者的优势主要保留在艺术风格和美学控制上。

它真的知道这个世界长什么样吗
有测试者让模型生成一个假想的 GPT-8 产品定价页面,结果出来的图,排版确实是 OpenAI 官网的风格,按钮位置和字体选用像是从真实界面截取的,价格表格的层级逻辑也是对的。

GPT Image 2 能生成与真实软件界面极为相似的图像,包括浏览器窗口、移动端应用界面、数据可视化图表,保真度是上一代产品无法比拟的。

@johnAGI168 https://x.com/johnAGI168/status/2044781168151724067

@levelsio https://x.com/levelsio/status/2040333489476681758
这将带来一些很有意思的实际用途。设计师在做产品原型的时候,不需要先打开 Figma 画一堆框架,直接用文字描述想要的界面,出来的就是一张可以用来和团队讨论的参考图。做投资人 Deck 时,不需要等工程师写代码就能展示一个「产品截图」。写文档的时候,用来配图的示例界面可以直接生成,不用对着空白页面想截图从哪里找。



@marmaduke091 https://x.com/marmaduke091/status/2040338311873515597
生图这件事,已经不只是「生图」了
OpenAI 已经宣布 DALL-E 2 和 DALL-E 3 将于 2026 年 5 月 12 日正式停止服务。Azure OpenAI 的 DALL-E 3 已经在 2 月提前退役了。
DALL-E 是很多人第一次接触 AI 生图的地方,从那些模糊的早期作品到今天,才短短几年。
与此同时,2026 年初刚刚凭借 Nano Banana Pro 确立行业地位的 Google,或许将感受到压力。早期测试报告显示,GPT Image 2 在真实感、文字渲染和世界知识三个维度上同时超越了 Nano Banana Pro,这种三连胜并不常见。
对于创作者来说,感受是复杂的。插图师、平面设计师、摄影师,已经不是第一次面对这个话题了。自 GPT Image 1 发布以来,自由职业平面设计职位数量下降了约 18%。AI 在某些场景下确实取代了「我要雇一个人做这件事」的决策,但它也在创造新的工作方式,让一个人能做的事变多了。
生图模型的进化速度,已经不再给人留出太多适应时间了。GPT Image 1 从上线到 1.5,不过几个月。1.5 到 2,大概也就半年。每一代都在解决上一代的核心短板,同时打开新的可能性。
GPT Image 2 现在还处于 A/B 测试阶段,部分 ChatGPT 用户已经随机获得了访问权限。正式发布的时间窗口,普遍预测就在 5 月 DALL-E 退役前后。想要提前体验的话,目前可以在 LM Arena 评测平台碰碰运气。

Test Address: https://arena.ai
根据社区反馈和该模型的已知优势,以下提示模板可以最大限度地提高你的成功几率:
UI/截图提示:一张照片级逼真的手机银行应用截图,清晰显示交易记录,其中日期、金额和商户名称清晰可辨。iPhone 16 屏幕,自然手持手机,咖啡店背景。
产品标签提示:一张照片级精酿啤酒瓶产品照片,标签细节清晰,显示酒厂名称「Oakridge Brewing Co.」,酒精度 6.8%,山脉标志及配料表。棚内布光,白色背景。
标识提示:一张东京夜间巷道的街景照片,可见多处日英双语霓虹灯招牌,包括写有「Ichiban Ramen — Est. 1987」的拉面店招牌、卡拉 OK 酒吧招牌以及各种发光的广告牌。雨后湿滑的人行道上映着灯光。
界面/世界知识提示:一张照片级真实的 YouTube 视频截图,展示了一段名为「如何在 2026 年组装电脑」的视频,该视频拥有 230 万次观看,配有逼真的评论区、侧边栏推荐视频以及频道信息。桌面浏览器视图。
宽屏触发提示:这是一张电影般的宽银幕照片,拍摄了宜家门店黄昏时分的外观,展示了发光的宜家招牌、停车场里有逼真的汽车,以及进进出出的购物者。黄金时刻灯光,格式 16:9。
未标注图片来源及参考:https://miraflow.ai/blog/how-to-use-duct-tape-ai-model-arena-gpt-image-2-guide
本文来自微信公众号“APPSO”,作者:发现明日产品的
免责声明:本文提供的信息不是交易建议。BlockWeeks.com不对根据本文提供的信息所做的任何投资承担责任。我们强烈建议在做出任何投资决策之前进行独立研究或咨询合格的专业人士。