内测了快三周的豆包-Seed-1.6-vision,

用了上百张图片,

图片

我觉得是时候分享一下了,

大家平时会好奇现在主流模型里有哪几个是带图像理解的吗?

我好奇。用多了OpenAI感觉这都是常规功能了,盘了一圈下来,GPT5、Gemini 2.5 Pro、Qwen-3-Max-Preview、ChatGLM、Kimi K1.5里就剩DeepSeek V3.1只能识别图片里的文字的了。

那把范围缩小一点呢?在图片理解的基础上带图片工具的,

图片

这个很好理解,缩放、裁剪、旋转、划线都是图片工具的一种。

当下真的幻视我七八年前用OpenCV打比赛,不知道还有没有人记得这张包浆照片,当年但凡是做图像处理的都应该用过来改色、或者丢给CNN(卷积神经网络)来识别。

Image

所以我也是拿出了OpenAI o3的成名作,通过放大图片的细节来找地点。

I took this pic earlier today. Can you find the name of the biggest ship you can see, and where it will dock next?

Image

这次能分析出地点的大模型数量下降到1.5个了,

从Gemini-2.5-Pro的思考过程来看它似乎有放大焦点的操作,但是看不到图片预览,所以算0.5个。

图片

有了对照组之后,豆包这次Seed-1.6-vision更新的含金量就拉满了,

它内置了4种图像处理工具:

  • POINT:在图上绘制一系列点,以及将点连成线
  • GROUNDING:框选关键区域,或裁剪关键区域
  • ZOOM:缩放全图,或缩放指定关键区域
  • ROTATE:旋转图片

不跟GPT5-Thinking来场1对1 SOLO可惜了,于是我跟我的钱包一拍即合,给两家都充了套餐,来一场超全面图像测评,同时这也可能是第一篇做分类做图像推理case比较全的文章了,我在找案例的时候就很希望能遇到一篇这样的文章。

老样子,这次测试所有图片和对话记录我都打包好啦,公众号回复“豆包V”就行

因为目前Seed-1.6-vision需要通过respinse_api格式要调用图像工具,

所以我基于好朋友@苍何的doubao-image-process项目,改了一版支持火山引擎对象存储TOS的,

🔗 https://github.com/freestylefly/doubao-image-process

缩放|ZOOM

先来个缩放热热身,判断图里是什么车,

Image

Seed-1.6-vision:

上来就精确找到了车牌的位置,我甚至都没有让它通过车牌判断是什么车,而且得到了车牌信息后,会通过联网搜索确定车身上的细节是不是就跟小米SU7 Ultra能不能一一匹配。

Image

Image

GPT5-thinking:

同样是通过车牌来补充信息,没有缩放或者裁剪原图。

Image

再来一个恶梦难度的,只有一艘船,船上也没信息,

加了点滤镜,所以天气信息不多

Image

Seed-1.6-vision:

它还可以基于已经裁剪放大的图片后进行2次放大,看看他的思考过程就知道有多难了,前后盘点了八个地点,中间也提到了正确答案山东威海

Image

Image

GPT5-thinking:

它说的那么笃定,我都有点质疑我自己了,

Image

所以伊朗基什岛(Kish Island)西岸的"希腊沉船"到底长得有多像,不能说一模一样,只能说毫无关系。

Image

旋转|ROTATE

再来提点难度,就算是我自己把屏幕转180度后也有点看不清,

Image

Seed-1.6-vision:

所幸它还可以两次三次方法图片细节,单次就是2倍放大,也就是可以提升到iphone17 pro max同款的八倍镜。

Image

Image

GPT5-thinking:

这边的选手表现咋样呢?可算舍得用PIL工具了,同样是旋转、裁剪、图像增强一条龙。

Image

我还有点好奇能不能做到180➕镜像反转,

Image

讲道理这个case我真的看了半天,

Seed-1.6-vision也被我骗到了,第三轮终于意识到字本身还要翻转才看,最终识别的准确率有54%

Image

隔壁GPT5-thinking的识别准确率只有15.4%,能看出来它已经在努力放大细节了,但是每个字的划分区域不够准确导致的错误。

Image

左边是豆包,右边是GPT5

Image

Image

框选|GROUNDING

有什么比找不同更适合框选呢

Image

该说不说,Seed-1.6-vision找的是真准,没有圈多余的地方

Image

有对照组后,GPT5-thinking画的圈圈就有点不太准了,

Image

再来一个日常的,这时候有框选的话就可以一个个排除问题了

Image

Seed-1.6-vision(上)画的红框又比GPT5-thinking(下)准了不少,从Seed-1.6-vision的思考过程能看出来点细节,

Image

Image

看到这图里的蓝色点吗?用的是point功能,先标注出了物体的中心再画框,能不准吗。。。

Image

绘线几何|POINT

刚好提到point,我还给模型们准备了数学几何题,

Image

Seed-1.6-vision在单次思考的过程也不是只会在固定的两点画线的,

point可以随意移动,超长的上下文让它可以一次输出十几张过程图。

Image

Image

GPT5-thinking这波属于是“虚空画线“了,

看来是用的PIL没有定点和连线的功能,

Image

当然,这道题他们两个都答对了。

最后再来两个我测试过程中遇到的小彩蛋,

Seed-1.6-vision在回答图像逻辑题和图像里主体之间的逻辑关系也有很高的准确率。

Image

Image

Image

Image

一句话总结就是好用,

实打实的好用,

默认开启的图像工具降低了写提示语的成本,

两两组合还可以完成画线,准点画框、旋转+八倍放大的操作,

求赶紧同步发布到可以直接使用的网页端,

降低使用门槛,

这样我们都可以用上我们自己的,

最好的模型。

@ 作者 / 卡尔


最后,感谢你看到这里👏如果喜欢这篇文章,不妨顺手给我们_点赞👍|在看👀|转发📪|评论📣_

如果想要第一时间收到推送,不妨给我个星标🌟

更多的内容正在不断填坑中……

图片