测试背景与来源

近日在X、Reddit、HackerNews等社交媒体中,Google Gemini 3.0的内测体验引发外国网友热议。少部分开发者通过Google AI Studio的A/B test来使用Gemini 3.0,尽管触发条件较为随机,但是开发者通过在AI Studio中多次输入相同的提示词,直到界面出现A/B test左右分窗,其中一侧可能为尚未发布的Gemini 3.0。通过F12或者右键检查打开浏览器开发者工具,在网络请求里查看模型ID,如果ID以“da9”或“d17”开头,则推测为Gemini 3.0Pro的灰度测试。这种“撞A/B”的方式使得部分开发者得以在过去几天对Gemini 3.0进行不稳定的试用,他们在网络上分享了实际使用反馈和3.0给出的结果。

前端与代码方面的性能非常亮眼

Gemini 3.0在前端开发和复杂代码任务上的表现尤为瞩目。据多位体验者反馈,Gemini 3.0擅长根据一句话的简洁指令生成复杂的HTML/CSS/SVG前端界面,在稳定性、代码质量、完成度上相比前代Gemini2.5有质的飞跃。有的测试者要求模型重现Apple官方网页布局,Gemini 3.0输出的单页HTML文件在结构、排版和界面元素上几乎与原站一致,其对像素细节的还原能力远超其他竞品;另一项热议的挑战是源自开发者SimonWillison提出的,使用SVG代码绘制一只骑自行车的鹈鹕。根据内部测试者反馈,Gemini 3.0在该任务上领先其它模型一个身位。有用户在X平台惊叹地表示Gemini 3.0生成的鹈鹕骑车SVG“属于目前最好的SVG作品之一”,“鹈鹕骑车”这一模型基准测试的任务,能够检验AI生成复杂矢量图的能力,3.0展现出对图形结构和美感的深入理解与把控,俨然有艺术家风范。

一位测试者在X上分享了Gemini 3.0生成SVG图形的经历,并感叹“这太疯狂了”。他让模型绘制包含第一代宝可梦图鉴的SVG,结果令他十分惊喜;同样有测试者让Gemini 3.0用纯前端技术构建macOS Sonoma风格的桌面界面,带有半透明的菜单栏和时钟等元素,模型也在一次对话中完成了页面生成,效果卓绝,令人啧啧称奇。

此外,Gemini 3.0可在几秒内代码生成如“Space Invaders”之类的经典小游戏或者复杂的网页交互界面,有人同时将同样的前端任务扔给Gemini 2.5Pro和Gemini 3.0,结果Gemini 3.0在首次尝试中就完成了小霸王游戏的实现,而Gemini 2.5多次尝试仍不能达到同等效果。新一代模型对前端需求的理解、组件布局的生成乃至动态效果的编程,都展现出此前模型(哪怕是Openai的GPT-5或者Anthropic的Claude 4.5)都不具备的的“一键出图”能力。正因如此,不少开发者认为Gemini 3.0或许将重构前端开发流程。甚至有网友放出狂言:“前端开发的游戏结束了,Gemini 3.0 Pro似乎是一个编码怪兽!”

Gemini 3.0 Pro在完成常规SVG生成之外,还能够将其扩展为三维像素版本,令体验者大为震撼,要知道,3D场景生成和物理引擎模拟一直被认为纯语言模型的常规能力无法企及的领域,但Gemini 3.0展示出的能力无疑打破了这一印象。上图展示的就是其生成的“鹈鹕骑车”3D像素风格图像,有用户也让Gemini3.0编写前端代码,在浏览器中模拟带物理效果的3D小球碰撞,Gemini 3.0亦能产出合乎物理规律的结果。

动图封面

当然,目前这些结果可能是Gemini3.0整合了谷歌自身的多模态库(如Embedding图像模型等)的能力,但从开发者角度看,Gemini 3.0在前端页面、SVG图像、简单3D动画上的代码生成能力都较前代有显著提升。许多参与内测的网友由衷评价其在前端开发上真正做到了所见即所得。

相比Gemini 2.5Pro的升级与突破

作为Gemini2.5Pro的更新一代,Gemini 3.0明显对上一代的诸多不足进行了改进。首先,在代码与复杂任务规划方面,Gemini 2.5Pro虽然已具备较高的水准,但在长任务上经常出现半途而废或执行方法不当等看上去很“弱智”的问题。一些开发者的实测表明(这同时也是我自己的体感),Gemini 2.5在涉及多步骤的工具函数调用时经常出错:要么错误地将函数调用内容当作普通文本回复,不真正执行函数;要么在前后文较长、连续收到工具报错时直接拒绝继续,给出敷衍或是自暴自弃式的回答。在衡量模型Agent能力的SWE排行榜上,哈基米2.5仅排在第九位,与前五名差得不是一点半点。

有用户在论坛抱怨:“Gemini 2.5的函数调用行为几乎无法预测,一些我们期待它调用函数的地方,它却只是照着schema输出文字”,还有开发者反馈Gemini 2.5经常丢失长对话的上下文,在IDE或AI Studio中对大型项目聊着聊着就忘记前面内容。例如,一位Reddit用户分享了他让Gemini 2.5连续编辑一个4000行大型代码文件的经历。起初模型还能逐步修改代码,但在进行到一定阶段时,它突然输出了最初版本的整份代码,把几个小时的改动全部覆盖掉,让测试者抓狂。随后无论如何要求继续,模型都无法正常衔接任务,甚至多次重复先前内容,稳定性问题严重。只有在Gemini Cli中这类问题才不那么常见。

针对这些短板,Gemini 3.0有望在多方面取得突破。Google官方博客曾发帖声明他们留意到开发者对于Gemini 2.5在Agent工具使用上的不满,并在后续模型中作出了改进。据媒体winbuzzer报道,Gemini 3.0内集成了的“Agent模式”:允许模型直接调用浏览器等插件执行操作。Google已在Gemini Code Assist产品中逐步加入浏览器自动化功能,这意味着Gemini 3.0可能在正式发布时具备类似ChatGPT Plugins或AutoGPT那样的多步骤任务执行能力。此外,从近期社区曝光的信息看,Gemini 3.0很可能采用了和deepseekR1类似的MoE混合专家架构,参数规模达到万亿(T)级,每次请求仅激活其中一部分专家(约15–20B),从而在保证推理质量的同时优化响应速度。根据deepseek的经验来看,这可能就是Gemini 3.0在复杂推理和代码生成的速度和准确度上表现优异的原因之一。另一大升级方向是上下文长度:同时媒体透露,Gemini 3.0将上下文窗口从2.5Pro的一百万token扩大到数百万级别。这意味着它可以处理整本书或超大型代码库而不丢失上下文,有利于长对话和多文件任务的连贯性,这也将利好使用api接入roocode等辅助编码插件,或者是接入到Claude Code、Codex等终端中进行编码。

失败案例与不足

尽管目前的讨论大多称赞Gemini 3.0的强劲表现,但也有测试者提供了一些失败表现性不佳的结果,给狂热的讨论氛围泼冷水。前文似乎把哈基米2.5贬低得一文不值,但必须承认,2.5版本并非一无是处,某些情况下它甚至与3.0分不分伯仲。有用户在AIStudio中进行了一系列多语言长文本翻译测试,结果显示Gemini 3.0的译文质量并不如其他领域的那样飞跃,而是和2.5Pro并无显著差别,均难达到人类顶尖译者的水准。

这表明3.0虽强,但在有些任务上提升可能较小,而非所有领域都有颠覆性的突破。另外,由于A/B测试存在多个不同版本,有些网友怀疑部分性能不佳的输出其实来自其他正在开发的小模型。正如一位参与测试的Reddit用户所说:“并不是每个[A/B测试中的]模型都很出色。有些输出其实比不上2.5 Pro,可能是Flash-Lite模型或者别的实验版本”。因此,目前流传的一些Gemini 3.0“失手”例子也许并非最终性能,但仍值得关注其暴露的潜在问题。

在复杂多轮对话方面,Gemini 3.0目前的信息不多,但可以参考2.5的已知问题的前车之鉴。Gemini 2.5Pro在对话轮次特别多、上下文特别长时,有时会突然中断回答或遗忘前文。不少开发者吐槽过AIStudio上2.5模型经常把回复截断,在对话中途就毫无征兆地停止(既非达到长度限制,也非用户打断),一些用户甚至开发出了对抗截断的插件/脚本。

虽然现在Gemini2.5已经没有这一问题,但这类Bug如果在3.0中延续,将严重影响其用于长对话编程助理的体验。一些观察人士指出,Google进行的大规模A/B测试本身意味着不同版本质量良莠不齐,“某个测试版本也许在某方面极强,但在另一些方面表现很糟”。因此,当前我们看到的Gemini 3.0亮眼与不足并存:惊艳案例令人拍案叫绝,同时也出现了个别输出错误、内容不完整或风格不稳定的情况。这些局限性提醒我们,在正式版发布前切勿过度神化3.0的能力。正如一位Reddit网友的忠告:“不要轻易掉进AI炒作的陷阱……还是让产品说话,用最终成品来下评判”。

思考:“怪兽模型”还是理性创新?

尽管论坛和社交媒体上对Gemini 3.0的吹捧铺天盖地不胜枚举,也出现了一些冷静的声音。有些博主将其称作打造“AGI雏形”的里程碑,甚至用“怪兽模型”形容其威力。我们更应该关注的是其AI模型的真正实力,通过量化指标、排行榜排名和实际用户体验来验证,不要被夸张的称号和媒体的宣传牵着鼻子走。当前各大论坛和社交媒体对Gemini 3.0的讨论主要还是基于零星的泄露信息和个人体验案例,难免有幸存者偏差和噱头成分,甚至不能确定体验到的A/B test究竟是不是Gemini 3.0。一位长期关注AI模型演进的网友就提醒道:“Twitter上充斥着各种炒作账号……还是让开发团队安心打磨产品,等正式发布后我们再看真实表现”。

与其在还未正式发布的时候就把Gemini 3.0炒作为万能的AGI、怪兽般的编程AI,不如期待它能在更多各项指标上超越GPT和Claude之类的竞品——比如代码正确率、更少的bug、对复杂需求的理解等等。实践是检验真理的唯一标准,只有这些硬指标经受住了用户的检验,才能真正冠以“最强前端模型”之名(或许并非前端)。

总而言之,作为Vibe coding重度使用者,我想说,哈基米…不对,这里应该尊称Gemini 3.0,你崛起吧!天下苦Anthropic久矣,又是代码审查,又设置周限胡乱涨价,还打什么LLM安全牌,公开声称中国为“敌对国家”,不止引发国内使用者的愤怒,也让其员工颇有微词,真觉得自己天上天下唯我独尊了?让市场的铁拳好好打压一下A畜的嚣张气焰,让它看看编码领域不是只有他一家独大。