实测豆包新上线视觉大模型1.6-vision,OpenAI GPT5要失眠了 - 知识铺
内测了快三周的豆包-Seed-1.6-vision,
用了上百张图片,
我觉得是时候分享一下了,
大家平时会好奇现在主流模型里有哪几个是带图像理解的吗?
我好奇。用多了OpenAI感觉这都是常规功能了,盘了一圈下来,GPT5、Gemini 2.5 Pro、Qwen-3-Max-Preview、ChatGLM、Kimi K1.5里就剩DeepSeek V3.1只能识别图片里的文字的了。
那把范围缩小一点呢?在图片理解的基础上带图片工具的,
这个很好理解,缩放、裁剪、旋转、划线都是图片工具的一种。
当下真的幻视我七八年前用OpenCV打比赛,不知道还有没有人记得这张包浆照片,当年但凡是做图像处理的都应该用过来改色、或者丢给CNN(卷积神经网络)来识别。
所以我也是拿出了OpenAI o3的成名作,通过放大图片的细节来找地点。
I took this pic earlier today. Can you find the name of the biggest ship you can see, and where it will dock next?
这次能分析出地点的大模型数量下降到1.5个了,
从Gemini-2.5-Pro的思考过程来看它似乎有放大焦点的操作,但是看不到图片预览,所以算0.5个。
有了对照组之后,豆包这次Seed-1.6-vision更新的含金量就拉满了,
它内置了4种图像处理工具:
- POINT:在图上绘制一系列点,以及将点连成线
- GROUNDING:框选关键区域,或裁剪关键区域
- ZOOM:缩放全图,或缩放指定关键区域
- ROTATE:旋转图片
不跟GPT5-Thinking来场1对1 SOLO可惜了,于是我跟我的钱包一拍即合,给两家都充了套餐,来一场超全面图像测评,同时这也可能是第一篇做分类做图像推理case比较全的文章了,我在找案例的时候就很希望能遇到一篇这样的文章。
老样子,这次测试所有图片和对话记录我都打包好啦,公众号回复“豆包V”就行
因为目前Seed-1.6-vision需要通过respinse_api格式要调用图像工具,
所以我基于好朋友@苍何的doubao-image-process项目,改了一版支持火山引擎对象存储TOS的,
🔗 https://github.com/freestylefly/doubao-image-process
缩放|ZOOM
先来个缩放热热身,判断图里是什么车,
Seed-1.6-vision:
上来就精确找到了车牌的位置,我甚至都没有让它通过车牌判断是什么车,而且得到了车牌信息后,会通过联网搜索确定车身上的细节是不是就跟小米SU7 Ultra能不能一一匹配。
GPT5-thinking:
同样是通过车牌来补充信息,没有缩放或者裁剪原图。
再来一个恶梦难度的,只有一艘船,船上也没信息,
加了点滤镜,所以天气信息不多
Seed-1.6-vision:
它还可以基于已经裁剪放大的图片后进行2次放大,看看他的思考过程就知道有多难了,前后盘点了八个地点,中间也提到了正确答案山东威海
GPT5-thinking:
它说的那么笃定,我都有点质疑我自己了,
所以伊朗基什岛(Kish Island)西岸的"希腊沉船"到底长得有多像,不能说一模一样,只能说毫无关系。
旋转|ROTATE
再来提点难度,就算是我自己把屏幕转180度后也有点看不清,
Seed-1.6-vision:
所幸它还可以两次三次方法图片细节,单次就是2倍放大,也就是可以提升到iphone17 pro max同款的八倍镜。
GPT5-thinking:
这边的选手表现咋样呢?可算舍得用PIL工具了,同样是旋转、裁剪、图像增强一条龙。
我还有点好奇能不能做到180➕镜像反转,
讲道理这个case我真的看了半天,
Seed-1.6-vision也被我骗到了,第三轮终于意识到字本身还要翻转才看,最终识别的准确率有54%
隔壁GPT5-thinking的识别准确率只有15.4%,能看出来它已经在努力放大细节了,但是每个字的划分区域不够准确导致的错误。
左边是豆包,右边是GPT5
框选|GROUNDING
有什么比找不同更适合框选呢
该说不说,Seed-1.6-vision找的是真准,没有圈多余的地方
有对照组后,GPT5-thinking画的圈圈就有点不太准了,
再来一个日常的,这时候有框选的话就可以一个个排除问题了
Seed-1.6-vision(上)画的红框又比GPT5-thinking(下)准了不少,从Seed-1.6-vision的思考过程能看出来点细节,
看到这图里的蓝色点吗?用的是point功能,先标注出了物体的中心再画框,能不准吗。。。
绘线几何|POINT
刚好提到point,我还给模型们准备了数学几何题,
Seed-1.6-vision在单次思考的过程也不是只会在固定的两点画线的,
point可以随意移动,超长的上下文让它可以一次输出十几张过程图。
GPT5-thinking这波属于是“虚空画线“了,
看来是用的PIL没有定点和连线的功能,
当然,这道题他们两个都答对了。
最后再来两个我测试过程中遇到的小彩蛋,
Seed-1.6-vision在回答图像逻辑题和图像里主体之间的逻辑关系也有很高的准确率。
一句话总结就是好用,
实打实的好用,
默认开启的图像工具降低了写提示语的成本,
两两组合还可以完成画线,准点画框、旋转+八倍放大的操作,
求赶紧同步发布到可以直接使用的网页端,
降低使用门槛,
这样我们都可以用上我们自己的,
最好的模型。
@ 作者 / 卡尔
最后,感谢你看到这里👏如果喜欢这篇文章,不妨顺手给我们_点赞👍|在看👀|转发📪|评论📣_
如果想要第一时间收到推送,不妨给我个星标🌟
更多的内容正在不断填坑中……
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai/post/202510/%E5%AE%9E%E6%B5%8B%E8%B1%86%E5%8C%85%E6%96%B0%E4%B8%8A%E7%BA%BF%E8%A7%86%E8%A7%89%E5%A4%A7%E6%A8%A1%E5%9E%8B1.6-visionOpenAI-GPT5%E8%A6%81%E5%A4%B1%E7%9C%A0%E4%BA%86--%E7%9F%A5%E8%AF%86%E9%93%BA/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com