9月28日的时候,看到混元发布了新的3.0图像模型,群友都说这个模型很好玩,但是国庆节前太忙就没顾上。

今天早晨起来,看到混元图像3.0竟然登顶 LMArena 文生图模型榜单第一名,成了世界第一的文生图模型。

图片

LMArena是目前国际上最权威的AI模型竞技场榜单,采用完全匿名的盲测机制,用户在不知道模型身份的情况下,对比两个模型的生成结果并投票选择更好的那个。这种设计杜绝了品牌效应的干扰,也很难通过技术手段刷榜,每一个排名都是真实用户用脚投票的结果。

就是在这个榜单上,混元图像3.0击败了 Google 的 Nano Banana、OpenAI 的 GPT 4o 生图等一众国际知名模型,拿到了全球用户盲测的第一。

在LMArena的所有单项榜单中,混元图像3.0是唯一一个登顶第一的中国模型。

用完这个模型之后,我最大的感受是,这个模型真的太懂我了。

因为模型的理解力变强,提示词变得非常简单,也许我们以后再也不需要学习写专业提示词了。

内置世界知识的模型

混元图像3.0是原生多模态模型,原生的意思是,在模型的训练时同时加入了语言数据和图像数据,因此它是个内置世界知识的智能图像模型。

对于这样的模型,我不需要再像以前那样写描述性的图像提示词,而只需要像和大模型对话一样,直接说出自己的需求即可。

我只需要一句话,模型就智能地绘制出了六张图。

提示词:用李子柒的东方美学的田园牧歌真人纪录片画面,展示制作中秋月饼的六个画面。

图片

使用这样的智能模型,我只需要关心的是我要表达的主题,我想要的东西,而不是具体的画面信息。

比如这个国庆旅游的烦恼的提示词,我没有说明任何烦恼,模型自己就推理了出来,效果比我自己写一大堆提示词要好多了。

提示词:画一组国庆节九宫格黑白日漫,讲述在国庆节旅游的九个烦恼

图片

这件事变得非常有意思,如果我需要生成美食照片的图,我甚至不需要说出菜名,只需要说我去了成都就够了。

提示词:我去成都旅游,用单反相机拍下了这座充满烟火气的城市里的九种六种美食,请把美食都放到图里。

图片

内置故事推导能力

混元图像3.0模型不仅具有世界知识,还可以编写虚构故事。

比如画漫画,我只需要一个故事的想法,九张漫画的故事就徐徐展开了,模型内部像是内置了一个视频编导。

提示词:用九格漫画,画一个机器猫去侏罗纪的故事,使用日本漫画风格,画面上要有文字气泡。

图片

我又让模型把美少女展示的经典片头用九宫格漫画展出出来,结果也非常不错。

提示词:用一组9格漫画展示美少女战士的经典片头

图片

我还尝试让模型为 ListenHub 设计一个广告片,模型把九个关键画面画出来之后,我一下就看懂了这个故事线。

广告故事、画面氛围、画面质感、以及传递的情感都非常到位。

提示词:制作一个非常感人的复古蒙太奇风格广告来介绍这款产品:ListenHub,画出9个广告分镜

图片

试过这几个案例之后,我感到这个模型的提示词和国庆节爆火的Sora是完全相同的提示词逻辑。

你不再需要精细的描述,只需要说出大概的想法,其余的交给模型去自由发挥。

提示词的门槛大幅降低了。

画面质感和美学表现

混元图像3.0模型除了上述两个很强的能力之外,模型本身的画面质感和美学表现都是业界T1。

风格化测试中,各类风格都拿捏到位。

提示词:绘制一个皮卡丘的九宫格,分别用九种风格来绘制:卡通风格、老照片风格、日漫、美漫、16bit、3D、乐高、涂鸦、水墨画

图片

材质测试,各种材质都真实而有质感。

提示词:绘制一个皮卡丘的九宫格,分别用九种材质来展现:毛绒、磨砂玻璃、钛金属、沙子、白云、藤编、冰块、木头、黏土

图片

模型生图的画面质感非常精细,可以看下这张作品,腐朽的黑板,锈迹斑斑的机器人,窗外撒进来光线和空气里飘浮的灰尘,太细腻了。

提示词:废土风格,一个机器人,在给机器人宝宝,介绍杭州的四个著名景点,黑板上用四宫格画出了景点的黑板粉笔图

图片

模型的现实风格照片生成自然也不在话下

提示词:用四个格子展示上海的四个景点,广角变焦镜头,使用渐变灰滤镜平衡天空与地面的光比。

图片

对人像的刻画也细腻也很精细。

提示词:用四个格子画出奥运会的4项运动,《体育画报》封面级运动摄影,极低的仰视角度强调爆发力,戏剧性的聚光灯照亮球员,背景昏暗,氛围紧张激烈,高速快门定格瞬间,广角镜头,细节锐利。

图片

画面文字表现

文字是画面中非常重要的部分,自然也是少不了的。

实测下来这个模型的中文能力确实不错,不过字太多的时候依然会存在涂抹,期待后续迭代升级改进。

提示词:用手机拍摄的一张宽屏照片,显示的是一块玻璃白板,房间可以俯瞰黄浦江。视野中有一位女性正在写字,写的字是上海黄浦江的人太多了。

图片

复杂的图文混排测试,模型可以把钢笔字、红色记号笔涂鸦、贴纸都展现出来,但是字不能太多,在文字很多时,字会模糊。

提示词:你正在通过画图的方式,解释清楚一件事情:【中秋节的习俗】 先在一张A4纸上,用钢笔蓝墨水写下一页笔记,来解释这个概念。 然后用彩色铅笔,绘制一些相关的小涂鸦。 然后用红色记号笔,圈出重要的词,并通过标记连接他们。 最后,你还从找到了一些相关的照片,贴在了纸上。

图片

表情包测试

提示词:根据橘子的ip形象,用古早的网络风格生成多个表情包,以九宫格的形式展示。要求只包含橘子IP形象,可以有性别区分、不同的装扮、多只橘子互动,主题可以多样化比如非主流、搞笑抽象,搭配各种场景和情绪表达比如爱情,并可以附带表情包对应文字。

图片

中文英文混排测试,完成度很好,排版也很和谐。

提示词:为四部经典电影绘制电影海报,包含中文英文片名

图片

小红书封面测试,看似简单的测试,其实做好很不容易,特别是满足提示词要求的情况下,还能保持画面干净,适合小红书的风格。

提示词,画一个小红书封面,背景是笔记本风格,排版精美,字体大小搭配合理。笔记的主题是:秋日穿搭指南,下面列出三条具体的文字建议

图片

穿搭换装玩法

除了以上测试之外,我还测试了一些从S产品里学到的一些邪修玩法。

比如换发型

提示词:生成一个真实的北京男性,在九宫格里,换了九种发型。

图片

换墨镜

提示词:生成一个真实的北京男性,在四宫格里,更换四种墨镜搭配

图片

换穿搭

提示词:生成一个真实的北京男性,在四宫格里,更换四种适合旅游的穿搭

图片

其实可以还有很多很多玩法,不过令人遗憾的是,模型目前只支持文生图,图生图功能暂未开放,不然就可以用大师傅和藏师傅的照片玩了。

期待国庆之后能把改图功能早日开放吧。

当AI真正理解人

测完混元图像3.0,我理解了为什么它能在 LMArena 这个用户投票的榜单上登顶第一。

这个模型的特色,不仅在于画面精度、色彩还原、风格多样性这些技术指标,更在于它真正理解了用户在说什么。

它懂你说的话,更懂你话里的意思。

我说"李子柒的东方美学",它就懂那种宁静致远的意境;

我说"国庆旅游的烦恼",它就能推理出人山人海、排队等位的场景;

我说"成都美食",它甚至不需要我列菜名。

它不只是在执行指令,而是在和我共同创造。

当AI开始真正理解人的时候,创意才能获得真正的自由。

腾讯混元 3.0 图像模型完全免费,体验地址,:

https://hunyuan.tencent.com/visual

手机可以直接扫码体验

图片