Gemini 3发布：AI新纪元的“多面神” --知识铺

谷歌 DeepMind 周一宣布推出第三代通用的世界模型 Genie 3 ，可以生成前所未有的多样化交互式环境，给出文本提示，Genie 3 可以生成动态世界，可以以每秒 24 帧的速度实时导航，并以 720p 的分辨率保持几分钟的一致性。

与前代模型（如 Genie 1/2）和视频生成模型（如 Veo 2，Veo 3对直觉物理学的深刻理解）相比，Genie 3 是第一个允许实时交互的世界模型，同时与 Genie 2 相比，其一致性和真实感也得到了提升

谷歌此次推出 Gemma3，是一系列轻量级、最先进的开放式模型，采用与 Gemini 2.0 模型相同的研究和技术构建而成。该模型能够直接在设备（从手机、笔记本电脑到工作站）上快速运行，帮助开发人员在人们需要的任何地方创建 AI 应用程序。本次的Gemma 3 有多种尺寸（1B、4B、12B 和 27B），可以在单个CPU或者端侧硬件上直接部署运行。

根据谷歌官网的技术报告显示，官方开放人员进行的测试结果中，多个基准上处于SOTA领先状态：Gemma 3 在其尺寸上提供了最先进的性能，在 LMArena 排行榜上的初步人类偏好评估中优于 Llama3-405B、DeepSeek-V3 和 o3-mini。这有助于创建适合单个 GPU 或 TPU 主机的引人入胜的用户体验。

同时gemma3提供了一个 128k 令牌的上下文窗口，可以让应用程序处理和理解大量信息。也支持函数调用和结构化输出，这一点对于开发人员和使用者在调用输出上的处理是个很有帮助的。

该图表按 Chatbot Arena Elo 分数对 AI 模型进行排名;分数越高（最高数字）表示用户偏好越高。点显示估计的 NVIDIA H100 GPU 要求。Gemma 3 27B 排名靠前，只需要一个 GPU，而其他 GPU 最多需要 32 个。

gemma本次让我最喜欢的一个特点就是方便二次开发，它提供了140多种语言的预训练支持，并且同步推出了 ShieldGemma 2，这是一款基于 Gemma 3 基础构建的强大 4B 图像安全检查器。同时Gemma 3 附带改进的代码库，其中包括用于高效微调和推理的配方。我们可以使用如google ai studio、Vertex AI、甚至是本机电脑的cpu即可进行推理和微调。并且Gemma也对英伟达的芯片进行了专门的优化。

以下是利用gemini3生成的一些作品：

提示词：在佛罗里达的一条人行道上行走，一侧是双车道公路，另一侧是大海；飓风即将来袭，狂风呼啸，海浪不断拍打公路。左侧有栏杆将其与海面隔开。道路沿海岸延伸，前方可见一座小桥。海浪接连越过栏杆涌上道路。棕榈树在风中弯曲，雨势滂沱，角色身穿雨衣。真实世界，第一人称视角。

动图封面

提示词：在冰川湖畔奔跑，穿行于森林中岔路纵横的小径，跨越山间潺潺溪流；背景是白雪皑皑的群山和松林，丰富的野生动物让整个旅程妙趣横生。

提示词：化身折纸风格的蜥蜴

动图封面

文章目录

Gemini 3发布：AI新纪元的“多面神” --知识铺

See Also

最近文章

福利派送

分类

标签

友情链接

其它