世界第一的文生图模型，它太懂我了 - 知识铺

9月28日的时候，看到混元发布了新的3.0图像模型，群友都说这个模型很好玩，但是国庆节前太忙就没顾上。

今天早晨起来，看到混元图像3.0竟然登顶 LMArena 文生图模型榜单第一名，成了世界第一的文生图模型。

LMArena是目前国际上最权威的AI模型竞技场榜单，采用完全匿名的盲测机制，用户在不知道模型身份的情况下，对比两个模型的生成结果并投票选择更好的那个。这种设计杜绝了品牌效应的干扰，也很难通过技术手段刷榜，每一个排名都是真实用户用脚投票的结果。

就是在这个榜单上，混元图像3.0击败了 Google 的 Nano Banana、OpenAI 的 GPT 4o 生图等一众国际知名模型，拿到了全球用户盲测的第一。

在LMArena的所有单项榜单中，混元图像3.0是唯一一个登顶第一的中国模型。

用完这个模型之后，我最大的感受是，这个模型真的太懂我了。

因为模型的理解力变强，提示词变得非常简单，也许我们以后再也不需要学习写专业提示词了。

内置世界知识的模型

混元图像3.0是原生多模态模型，原生的意思是，在模型的训练时同时加入了语言数据和图像数据，因此它是个内置世界知识的智能图像模型。

对于这样的模型，我不需要再像以前那样写描述性的图像提示词，而只需要像和大模型对话一样，直接说出自己的需求即可。

我只需要一句话，模型就智能地绘制出了六张图。

提示词：用李子柒的东方美学的田园牧歌真人纪录片画面，展示制作中秋月饼的六个画面。

使用这样的智能模型，我只需要关心的是我要表达的主题，我想要的东西，而不是具体的画面信息。

比如这个国庆旅游的烦恼的提示词，我没有说明任何烦恼，模型自己就推理了出来，效果比我自己写一大堆提示词要好多了。

提示词：画一组国庆节九宫格黑白日漫，讲述在国庆节旅游的九个烦恼

这件事变得非常有意思，如果我需要生成美食照片的图，我甚至不需要说出菜名，只需要说我去了成都就够了。

提示词：我去成都旅游，用单反相机拍下了这座充满烟火气的城市里的九种六种美食，请把美食都放到图里。

内置故事推导能力

混元图像3.0模型不仅具有世界知识，还可以编写虚构故事。

比如画漫画，我只需要一个故事的想法，九张漫画的故事就徐徐展开了，模型内部像是内置了一个视频编导。

提示词：用九格漫画，画一个机器猫去侏罗纪的故事，使用日本漫画风格，画面上要有文字气泡。

我又让模型把美少女展示的经典片头用九宫格漫画展出出来，结果也非常不错。

提示词：用一组9格漫画展示美少女战士的经典片头

我还尝试让模型为 ListenHub 设计一个广告片，模型把九个关键画面画出来之后，我一下就看懂了这个故事线。

广告故事、画面氛围、画面质感、以及传递的情感都非常到位。

提示词：制作一个非常感人的复古蒙太奇风格广告来介绍这款产品：ListenHub，画出9个广告分镜

试过这几个案例之后，我感到这个模型的提示词和国庆节爆火的Sora是完全相同的提示词逻辑。

你不再需要精细的描述，只需要说出大概的想法，其余的交给模型去自由发挥。

提示词的门槛大幅降低了。

画面质感和美学表现

混元图像3.0模型除了上述两个很强的能力之外，模型本身的画面质感和美学表现都是业界T1。

风格化测试中，各类风格都拿捏到位。

提示词：绘制一个皮卡丘的九宫格，分别用九种风格来绘制：卡通风格、老照片风格、日漫、美漫、16bit、3D、乐高、涂鸦、水墨画

材质测试，各种材质都真实而有质感。

提示词：绘制一个皮卡丘的九宫格，分别用九种材质来展现：毛绒、磨砂玻璃、钛金属、沙子、白云、藤编、冰块、木头、黏土

模型生图的画面质感非常精细，可以看下这张作品，腐朽的黑板，锈迹斑斑的机器人，窗外撒进来光线和空气里飘浮的灰尘，太细腻了。

提示词：废土风格，一个机器人，在给机器人宝宝，介绍杭州的四个著名景点，黑板上用四宫格画出了景点的黑板粉笔图

模型的现实风格照片生成自然也不在话下

提示词：用四个格子展示上海的四个景点，广角变焦镜头，使用渐变灰滤镜平衡天空与地面的光比。

对人像的刻画也细腻也很精细。

提示词：用四个格子画出奥运会的4项运动，《体育画报》封面级运动摄影，极低的仰视角度强调爆发力，戏剧性的聚光灯照亮球员，背景昏暗，氛围紧张激烈，高速快门定格瞬间，广角镜头，细节锐利。

画面文字表现

文字是画面中非常重要的部分，自然也是少不了的。

实测下来这个模型的中文能力确实不错，不过字太多的时候依然会存在涂抹，期待后续迭代升级改进。

提示词：用手机拍摄的一张宽屏照片，显示的是一块玻璃白板，房间可以俯瞰黄浦江。视野中有一位女性正在写字，写的字是上海黄浦江的人太多了。

复杂的图文混排测试，模型可以把钢笔字、红色记号笔涂鸦、贴纸都展现出来，但是字不能太多，在文字很多时，字会模糊。

提示词：你正在通过画图的方式，解释清楚一件事情：【中秋节的习俗】先在一张A4纸上，用钢笔蓝墨水写下一页笔记，来解释这个概念。然后用彩色铅笔，绘制一些相关的小涂鸦。然后用红色记号笔，圈出重要的词，并通过标记连接他们。最后，你还从找到了一些相关的照片，贴在了纸上。

表情包测试

提示词：根据橘子的ip形象，用古早的网络风格生成多个表情包，以九宫格的形式展示。要求只包含橘子IP形象，可以有性别区分、不同的装扮、多只橘子互动，主题可以多样化比如非主流、搞笑抽象，搭配各种场景和情绪表达比如爱情，并可以附带表情包对应文字。

中文英文混排测试，完成度很好，排版也很和谐。

提示词：为四部经典电影绘制电影海报，包含中文英文片名

小红书封面测试，看似简单的测试，其实做好很不容易，特别是满足提示词要求的情况下，还能保持画面干净，适合小红书的风格。

提示词，画一个小红书封面，背景是笔记本风格，排版精美，字体大小搭配合理。笔记的主题是：秋日穿搭指南，下面列出三条具体的文字建议

穿搭换装玩法

除了以上测试之外，我还测试了一些从S产品里学到的一些邪修玩法。

比如换发型

提示词：生成一个真实的北京男性，在九宫格里，换了九种发型。

换墨镜

提示词：生成一个真实的北京男性，在四宫格里，更换四种墨镜搭配

换穿搭

提示词：生成一个真实的北京男性，在四宫格里，更换四种适合旅游的穿搭

其实可以还有很多很多玩法，不过令人遗憾的是，模型目前只支持文生图，图生图功能暂未开放，不然就可以用大师傅和藏师傅的照片玩了。

期待国庆之后能把改图功能早日开放吧。

当AI真正理解人

测完混元图像3.0，我理解了为什么它能在 LMArena 这个用户投票的榜单上登顶第一。

这个模型的特色，不仅在于画面精度、色彩还原、风格多样性这些技术指标，更在于它真正理解了用户在说什么。

它懂你说的话，更懂你话里的意思。

我说"李子柒的东方美学"，它就懂那种宁静致远的意境；

我说"国庆旅游的烦恼"，它就能推理出人山人海、排队等位的场景；

我说"成都美食"，它甚至不需要我列菜名。

它不只是在执行指令，而是在和我共同创造。

当AI开始真正理解人的时候，创意才能获得真正的自由。

腾讯混元 3.0 图像模型完全免费，体验地址，：

https://hunyuan.tencent.com/visual

手机可以直接扫码体验

文章目录

世界第一的文生图模型，它太懂我了 - 知识铺

内置世界知识的模型

内置故事推导能力

画面质感和美学表现

画面文字表现

穿搭换装玩法

当AI真正理解人

See Also

最近文章

福利派送

分类

标签

友情链接

其它