知识铺的博客

专注于Android、Java、Go语言(golang)、移动互联网、项目管理、软件架构

文章目录

实测豆包新上线视觉大模型1.6-vision，OpenAI GPT5要失眠了 - 知识铺

2025年10月5日

| 阅读

内测了快三周的豆包-Seed-1.6-vision，

用了上百张图片，

我觉得是时候分享一下了，

大家平时会好奇现在主流模型里有哪几个是带图像理解的吗？

我好奇。用多了OpenAI感觉这都是常规功能了，盘了一圈下来，GPT5、Gemini 2.5 Pro、Qwen-3-Max-Preview、ChatGLM、Kimi K1.5里就剩DeepSeek V3.1只能识别图片里的文字的了。

那把范围缩小一点呢？在图片理解的基础上带图片工具的，

这个很好理解，缩放、裁剪、旋转、划线都是图片工具的一种。

当下真的幻视我七八年前用OpenCV打比赛，不知道还有没有人记得这张包浆照片，当年但凡是做图像处理的都应该用过来改色、或者丢给CNN（卷积神经网络）来识别。

所以我也是拿出了OpenAI o3的成名作，通过放大图片的细节来找地点。

I took this pic earlier today. Can you find the name of the biggest ship you can see, and where it will dock next?

这次能分析出地点的大模型数量下降到1.5个了，

从Gemini-2.5-Pro的思考过程来看它似乎有放大焦点的操作，但是看不到图片预览，所以算0.5个。

有了对照组之后，豆包这次Seed-1.6-vision更新的含金量就拉满了，

它内置了4种图像处理工具：

POINT：在图上绘制一系列点，以及将点连成线
GROUNDING：框选关键区域，或裁剪关键区域
ZOOM：缩放全图，或缩放指定关键区域
ROTATE：旋转图片

不跟GPT5-Thinking来场1对1 SOLO可惜了，于是我跟我的钱包一拍即合，给两家都充了套餐，来一场超全面图像测评，同时这也可能是第一篇做分类做图像推理case比较全的文章了，我在找案例的时候就很希望能遇到一篇这样的文章。

老样子，这次测试所有图片和对话记录我都打包好啦，公众号回复“豆包V”就行

因为目前Seed-1.6-vision需要通过respinse_api格式要调用图像工具，

所以我基于好朋友@苍何的doubao-image-process项目，改了一版支持火山引擎对象存储TOS的，

🔗 https://github.com/freestylefly/doubao-image-process

缩放｜ZOOM

先来个缩放热热身，判断图里是什么车，

Seed-1.6-vision：

上来就精确找到了车牌的位置，我甚至都没有让它通过车牌判断是什么车，而且得到了车牌信息后，会通过联网搜索确定车身上的细节是不是就跟小米SU7 Ultra能不能一一匹配。

GPT5-thinking：

同样是通过车牌来补充信息，没有缩放或者裁剪原图。

再来一个恶梦难度的，只有一艘船，船上也没信息，

加了点滤镜，所以天气信息不多

Seed-1.6-vision：

它还可以基于已经裁剪放大的图片后进行2次放大，看看他的思考过程就知道有多难了，前后盘点了八个地点，中间也提到了正确答案山东威海

GPT5-thinking：

它说的那么笃定，我都有点质疑我自己了，

所以伊朗基什岛（Kish Island）西岸的"希腊沉船"到底长得有多像，不能说一模一样，只能说毫无关系。

旋转｜ROTATE

再来提点难度，就算是我自己把屏幕转180度后也有点看不清，

Seed-1.6-vision：

所幸它还可以两次三次方法图片细节，单次就是2倍放大，也就是可以提升到iphone17 pro max同款的八倍镜。

GPT5-thinking：

这边的选手表现咋样呢？可算舍得用PIL工具了，同样是旋转、裁剪、图像增强一条龙。

我还有点好奇能不能做到180➕镜像反转，

讲道理这个case我真的看了半天，

Seed-1.6-vision也被我骗到了，第三轮终于意识到字本身还要翻转才看，最终识别的准确率有54%

隔壁GPT5-thinking的识别准确率只有15.4%，能看出来它已经在努力放大细节了，但是每个字的划分区域不够准确导致的错误。

左边是豆包，右边是GPT5

框选｜GROUNDING

有什么比找不同更适合框选呢

该说不说，Seed-1.6-vision找的是真准，没有圈多余的地方

有对照组后，GPT5-thinking画的圈圈就有点不太准了，

再来一个日常的，这时候有框选的话就可以一个个排除问题了

Seed-1.6-vision（上）画的红框又比GPT5-thinking（下）准了不少，从Seed-1.6-vision的思考过程能看出来点细节，

看到这图里的蓝色点吗？用的是point功能，先标注出了物体的中心再画框，能不准吗。。。

绘线几何｜POINT

刚好提到point，我还给模型们准备了数学几何题，

Seed-1.6-vision在单次思考的过程也不是只会在固定的两点画线的，

point可以随意移动，超长的上下文让它可以一次输出十几张过程图。

GPT5-thinking这波属于是“虚空画线“了，

看来是用的PIL没有定点和连线的功能，

当然，这道题他们两个都答对了。

最后再来两个我测试过程中遇到的小彩蛋，

Seed-1.6-vision在回答图像逻辑题和图像里主体之间的逻辑关系也有很高的准确率。

一句话总结就是好用，

实打实的好用，

默认开启的图像工具降低了写提示语的成本，

两两组合还可以完成画线，准点画框、旋转+八倍放大的操作，

求赶紧同步发布到可以直接使用的网页端，

降低使用门槛，

这样我们都可以用上我们自己的，

最好的模型。

@ 作者 / 卡尔

最后，感谢你看到这里👏如果喜欢这篇文章，不妨顺手给我们_点赞👍｜在看👀｜转发📪｜评论📣_

如果想要第一时间收到推送，不妨给我个星标🌟

更多的内容正在不断填坑中……

原文作者：知识铺
原文链接：https://index.zshipu.com/ai/post/202510/%E5%AE%9E%E6%B5%8B%E8%B1%86%E5%8C%85%E6%96%B0%E4%B8%8A%E7%BA%BF%E8%A7%86%E8%A7%89%E5%A4%A7%E6%A8%A1%E5%9E%8B1.6-visionOpenAI-GPT5%E8%A6%81%E5%A4%B1%E7%9C%A0%E4%BA%86--%E7%9F%A5%E8%AF%86%E9%93%BA/
版权声明：本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可，非商业转载请注明出处（作者，原文链接），商业转载请联系作者获得授权。
免责声明：本页面内容均来源于站内编辑发布，部分信息来源互联网，并不意味着本站赞同其观点或者证实其内容的真实性，如涉及版权等问题，请立即联系客服进行更改或删除，保证您的合法权益。转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com

See Also

AI技术