谷歌 DeepMind 周一宣布推出第三代通用的世界模型 Genie 3 ,可以生成前所未有的多样化交互式环境,给出文本提示,Genie 3 可以生成动态世界,可以以每秒 24 帧的速度实时导航,并以 720p 的分辨率保持几分钟的一致性。

与前代模型(如 Genie 1/2)和视频生成模型(如 Veo 2,Veo 3对直觉物理学的深刻理解)相比,Genie 3 是第一个允许实时交互的世界模型,同时与 Genie 2 相比,其一致性和真实感也得到了提升

谷歌此次推出 Gemma3,是一系列轻量级、最先进的开放式模型,采用与 Gemini 2.0 模型相同的研究和技术构建而成。该模型能够直接在设备(从手机、笔记本电脑到工作站)上快速运行,帮助开发人员在人们需要的任何地方创建 AI 应用程序。本次的Gemma 3 有多种尺寸(1B、4B、12B 和 27B),可以在单个CPU或者端侧硬件上直接部署运行。

根据谷歌官网的技术报告显示,官方开放人员进行的测试结果中,多个基准上处于SOTA领先状态:Gemma 3 在其尺寸上提供了最先进的性能,在 LMArena 排行榜上的初步人类偏好评估中优于 Llama3-405B、DeepSeek-V3 和 o3-mini。这有助于创建适合单个 GPU 或 TPU 主机的引人入胜的用户体验。

同时gemma3提供了一个 128k 令牌的上下文窗口,可以让应用程序处理和理解大量信息。也支持函数调用和结构化输出,这一点对于开发人员和使用者在调用输出上的处理是个很有帮助的。

该图表按 Chatbot Arena Elo 分数对 AI 模型进行排名;分数越高(最高数字)表示用户偏好越高。点显示估计的 NVIDIA H100 GPU 要求。Gemma 3 27B 排名靠前,只需要一个 GPU,而其他 GPU 最多需要 32 个。

gemma本次让我最喜欢的一个特点就是方便二次开发,它提供了140多种语言的预训练支持,并且同步推出了 ShieldGemma 2,这是一款基于 Gemma 3 基础构建的强大 4B 图像安全检查器。同时Gemma 3 附带改进的代码库 ,其中包括用于高效微调和推理的配方。我们可以使用如google ai studio、Vertex AI、甚至是本机电脑的cpu即可进行推理和微调。并且Gemma也对英伟达的芯片进行了专门的优化。

以下是利用gemini3生成的一些作品:

提示词:在佛罗里达的一条人行道上行走,一侧是双车道公路,另一侧是大海;飓风即将来袭,狂风呼啸,海浪不断拍打公路。左侧有栏杆将其与海面隔开。道路沿海岸延伸,前方可见一座小桥。海浪接连越过栏杆涌上道路。棕榈树在风中弯曲,雨势滂沱,角色身穿雨衣。真实世界,第一人称视角。

动图封面

提示词:在冰川湖畔奔跑,穿行于森林中岔路纵横的小径,跨越山间潺潺溪流;背景是白雪皑皑的群山和松林,丰富的野生动物让整个旅程妙趣横生。

提示词:化身折纸风格的蜥蜴

动图封面