AI Daily：腾讯发布环渊图像 3.0；快手推出 KAT 系列代理编码大型模型；苹果悄然开发类似 ChatGPT 的应用 --- AI Daily Tencent Unveils Huan Yuan Image 3.0; Kuaishou Launches KAT Series Agentic Coding Large Model; Apple Quietly D --知识铺

欢迎来到“AI Daily”版块！这里是您每天探索人工智能世界的指南。我们每天为您呈现 AI 领域的最新内容，聚焦开发者，帮助您了解技术趋势，学习创新 AI 产品应用。

新鲜 AI 产品 点击了解更多 ：https://app.aibase.com/zh

1. 快手发布 KAT 系列 Agentic Coding 大型模型，展现出色代码性能

快手 Kwaipilot 团队发布了 KAT 系列的两个革命性大型模型——KAT-Dev-32B 和 KAT-Coder。这些模型在代码智能领域表现出色，针对不同用户需求和应用场景。KAT-Dev-32B 在 SWE-Bench Verified 测试中实现了 62.4%的解决方案率，而 KAT-Coder 则实现了令人印象深刻的 73.4%的解决方案率。

AiBase 摘要：

🧠 KAT-Dev-32B 是一个拥有 32 亿参数的开源模型，解决方案的准确率为 62.4%。

💻 KAT-Coder 是一个闭源旗舰模型，解决方案的准确率高达 73.4%，表现出色。

🌐 KAT-Dev-32B 可在 Hugging Face 平台上使用，而 KAT-Coder 则可以通过 StreamLake 平台进行 API 调用访问。

更多详情：https://kwaipilot.github.io/KAT-Coder/ https://huggingface.co/Kwaipilot/KAT-Dev

2. 腾讯发布“元宇宙图像3.0”，引领多模态图像生成新时代

腾讯发布“元宇宙图像 3.0”，在多模态图像生成领域取得重大突破，为人工智能生成内容（AIGC）技术的发展注入新活力。

AiBase 摘要：

🧠 混元图像3.0是首个工业级开源的多模态图像生成模型，具备强大的语义解析能力。

🚀 3.0版本在2.0版本的基础上进一步提升了模型的复杂度和表现力，实现了毫秒级响应速度和超逼真的图像质量。

💡 腾讯的混元系列已形成完整的 AIGC 技术矩阵，涵盖 3D 生成、定制化图像生成等工具，推动行业创新。

3. 苹果悄然开发类似 ChatGPT 的应用，Siri 将进行重大更新

苹果正在开发一款类似 ChatGPT 的 iPhone 应用，以测试 Siri 的重大更新。此应用将提高 Siri 在个人数据搜索和操作中的效率，同时增强其语音识别和理解能力，为用户提供更智能、更人性化的服务。

AiBase 总结：

🍎 Siri 将通过新应用增强其搜索和操作能力，例如查找歌曲和编辑照片。

🤖 苹果正在开发一款类似 ChatGPT 的应用，以测试 Siri 的新功能。

📈 未来，Siri 的语音识别和理解能力将显著提升，提供更自然的对话体验。

4. 谷歌更新 Gemini 2.5 Flash Lite，成为最快的专有模型

谷歌对 Gemini 系列大型语言模型进行了重大更新，特别是 Gemini 2.5 Flash 和 Flash Lite，强调在速度和效率方面的提升。这些改进展示了谷歌在 AI 领域的持续进步，并为开发者提供了更多灵活性。

AiBase 总结：

🌟 Gemini 2.5 Flash Lite 已成为最快的私有模型，每秒输出 887 个标记。

🚀 新模型显著提升了输出质量和成本效率，尤其是 Flash Lite 将输出令牌减少了 50%。

🗣️ Gemini Live 的更新增强了语音助手的性能，提高了功能调用的准确性和对话的自然度。

5. 苹果推出新图像模型 Manzano，实现理解和生成双重能力

苹果的 Manzano 图像模型能够处理图像理解和生成，解决了当前开源模型中在两者之间选择的困境。该模型使用混合图像标记器，减少冲突，在文本密集型任务中表现良好。

AiBase 总结：

🌟 Manzano 是一种新型图像模型，能够同时进行图像理解和生成。

🔍 苹果的研究表明，Manzano 在处理复杂文本任务方面表现出色，接近商业系统的水平。

⚙️ 该模型使用混合图像分词器，减少了图像理解和生成之间的冲突。

更多信息：https://arxiv.org/abs/2509.16197

6. YouTube Music 测试 AI 音乐主持人功能：提供歌曲故事和粉丝趣事，正面迎战 Spotify AI DJ

YouTube Music 正在测试 AI 音乐主持人功能，为用户播放的音乐提供相关故事、粉丝趣事和评论。这一功能是对 Spotify AI DJ 的回应，旨在提升用户的沉浸式听觉体验。

AiBase 总结：

🎥 YouTube 音乐推出了 AI 音乐主持人功能，为用户提供音乐背后的故事和有趣内容。

🎧 Spotify 的 AIDJ 已经提供语音解说，YouTube 音乐正在尝试与类似功能竞争。

🌐 YouTube 实验室对所有用户开放，但目前只有有限的美国用户参与测试。

7. 从粗糙几何到逼真 3D 视频：VideoFrom3D 重新构想图形设计新时代

本文介绍了 VideoFrom3D 框架，这是一种通过整合图像和视频扩散模型生成高度逼真且风格一致的 3D 场景视频的技术。该框架不依赖于昂贵的成对 3D 数据集，极大地简化了设计过程，提高了生成效率，并在复杂动态场景中表现出色。

AiBase 总结：

🧠 稀疏锚点视图生成（SAG）模块使用图像扩散模型，根据参考图像和粗糙几何形状生成高质量的跨视图一致锚点视图。

🎥 几何引导生成插值（GGI）模块使用视频扩散模型，根据锚点视图插值中间帧，实现平滑的运动和时序一致性。

🚀 VideoFrom3D 不依赖于昂贵的成对 3D 数据集，极大地简化了设计过程，使设计师和开发者能够更高效、快速地探索创意并生成高质量的结果。

更多详情：https://kimgeonung.github.io/VideoFrom3D/

8. Moondream 3.0 发布，在多个基准测试中超越 GPT-5 等顶级模型

Moondream 3.0 凭借其高效的专家混合架构和轻量级设计，展现了卓越的视觉推理能力。在多个基准测试中，它超越了 GPT-5、Gemini 和 Claude4 等顶级模型，展现了其强大的性能。此外，该模型支持开放词汇物体检测、结构化输出和多场景应用，如安全监控、医学成像和文档处理。其开源特性使其易于部署和使用，适用于边缘计算环境。

AiBase 总结：

🧠 Moondream 3.0 采用高效的专家混合架构，仅激活 2 亿个参数，实现轻量级设计。

🔍 支持开放词汇物体检测和结构化输出，适用于各种复杂场景。

💻 开源设计，适用于边缘计算，开发者可以轻松解锁其强大功能。

文章目录

AI Daily：腾讯发布环渊图像 3.0；快手推出 KAT 系列代理编码大型模型；苹果悄然开发类似 ChatGPT 的应用 --- AI Daily Tencent Unveils Huan Yuan Image 3.0; Kuaishou Launches KAT Series Agentic Coding Large Model; Apple Quietly D --知识铺

See Also

最近文章

福利派送

分类

标签

友情链接

其它