AI Daily:腾讯发布环渊图像 3.0;快手推出 KAT 系列代理编码大型模型;苹果悄然开发类似 ChatGPT 的应用 --- AI Daily Tencent Unveils Huan Yuan Image 3.0; Kuaishou Launches KAT Series Agentic Coding Large Model; Apple Quietly D --知识铺
欢迎来到“AI Daily”版块!这里是您每天探索人工智能世界的指南。我们每天为您呈现 AI 领域的最新内容,聚焦开发者,帮助您了解技术趋势,学习创新 AI 产品应用。
新鲜 AI 产品 点击了解更多 :https://app.aibase.com/zh
1. 快手发布 KAT 系列 Agentic Coding 大型模型,展现出色代码性能
快手 Kwaipilot 团队发布了 KAT 系列的两个革命性大型模型——KAT-Dev-32B 和 KAT-Coder。这些模型在代码智能领域表现出色,针对不同用户需求和应用场景。KAT-Dev-32B 在 SWE-Bench Verified 测试中实现了 62.4%的解决方案率,而 KAT-Coder 则实现了令人印象深刻的 73.4%的解决方案率。
AiBase 摘要:
🧠 KAT-Dev-32B 是一个拥有 32 亿参数的开源模型,解决方案的准确率为 62.4%。
💻 KAT-Coder 是一个闭源旗舰模型,解决方案的准确率高达 73.4%,表现出色。
🌐 KAT-Dev-32B 可在 Hugging Face 平台上使用,而 KAT-Coder 则可以通过 StreamLake 平台进行 API 调用访问。
更多详情:https://kwaipilot.github.io/KAT-Coder/ https://huggingface.co/Kwaipilot/KAT-Dev
2. 腾讯发布“元宇宙图像3.0”,引领多模态图像生成新时代
腾讯发布“元宇宙图像 3.0”,在多模态图像生成领域取得重大突破,为人工智能生成内容(AIGC)技术的发展注入新活力。
AiBase 摘要:
🧠 混元图像3.0是首个工业级开源的多模态图像生成模型,具备强大的语义解析能力。
🚀 3.0版本在2.0版本的基础上进一步提升了模型的复杂度和表现力,实现了毫秒级响应速度和超逼真的图像质量。
💡 腾讯的混元系列已形成完整的 AIGC 技术矩阵,涵盖 3D 生成、定制化图像生成等工具,推动行业创新。
3. 苹果悄然开发类似 ChatGPT 的应用,Siri 将进行重大更新
苹果正在开发一款类似 ChatGPT 的 iPhone 应用,以测试 Siri 的重大更新。此应用将提高 Siri 在个人数据搜索和操作中的效率,同时增强其语音识别和理解能力,为用户提供更智能、更人性化的服务。
AiBase 总结:
🍎 Siri 将通过新应用增强其搜索和操作能力,例如查找歌曲和编辑照片。
🤖 苹果正在开发一款类似 ChatGPT 的应用,以测试 Siri 的新功能。
📈 未来,Siri 的语音识别和理解能力将显著提升,提供更自然的对话体验。
4. 谷歌更新 Gemini 2.5 Flash Lite,成为最快的专有模型
谷歌对 Gemini 系列大型语言模型进行了重大更新,特别是 Gemini 2.5 Flash 和 Flash Lite,强调在速度和效率方面的提升。这些改进展示了谷歌在 AI 领域的持续进步,并为开发者提供了更多灵活性。
AiBase 总结:
🌟 Gemini 2.5 Flash Lite 已成为最快的私有模型,每秒输出 887 个标记。
🚀 新模型显著提升了输出质量和成本效率,尤其是 Flash Lite 将输出令牌减少了 50%。
🗣️ Gemini Live 的更新增强了语音助手的性能,提高了功能调用的准确性和对话的自然度。
5. 苹果推出新图像模型 Manzano,实现理解和生成双重能力
苹果的 Manzano 图像模型能够处理图像理解和生成,解决了当前开源模型中在两者之间选择的困境。该模型使用混合图像标记器,减少冲突,在文本密集型任务中表现良好。
AiBase 总结:
🌟 Manzano 是一种新型图像模型,能够同时进行图像理解和生成。
🔍 苹果的研究表明,Manzano 在处理复杂文本任务方面表现出色,接近商业系统的水平。
⚙️ 该模型使用混合图像分词器,减少了图像理解和生成之间的冲突。
更多信息:https://arxiv.org/abs/2509.16197
6. YouTube Music 测试 AI 音乐主持人功能:提供歌曲故事和粉丝趣事,正面迎战 Spotify AI DJ
YouTube Music 正在测试 AI 音乐主持人功能,为用户播放的音乐提供相关故事、粉丝趣事和评论。这一功能是对 Spotify AI DJ 的回应,旨在提升用户的沉浸式听觉体验。
AiBase 总结:
🎥 YouTube 音乐推出了 AI 音乐主持人功能,为用户提供音乐背后的故事和有趣内容。
🎧 Spotify 的 AIDJ 已经提供语音解说,YouTube 音乐正在尝试与类似功能竞争。
🌐 YouTube 实验室对所有用户开放,但目前只有有限的美国用户参与测试。
7. 从粗糙几何到逼真 3D 视频:VideoFrom3D 重新构想图形设计新时代
本文介绍了 VideoFrom3D 框架,这是一种通过整合图像和视频扩散模型生成高度逼真且风格一致的 3D 场景视频的技术。该框架不依赖于昂贵的成对 3D 数据集,极大地简化了设计过程,提高了生成效率,并在复杂动态场景中表现出色。
AiBase 总结:
🧠 稀疏锚点视图生成(SAG)模块使用图像扩散模型,根据参考图像和粗糙几何形状生成高质量的跨视图一致锚点视图。
🎥 几何引导生成插值(GGI)模块使用视频扩散模型,根据锚点视图插值中间帧,实现平滑的运动和时序一致性。
🚀 VideoFrom3D 不依赖于昂贵的成对 3D 数据集,极大地简化了设计过程,使设计师和开发者能够更高效、快速地探索创意并生成高质量的结果。
更多详情:https://kimgeonung.github.io/VideoFrom3D/
8. Moondream 3.0 发布,在多个基准测试中超越 GPT-5 等顶级模型
Moondream 3.0 凭借其高效的专家混合架构和轻量级设计,展现了卓越的视觉推理能力。在多个基准测试中,它超越了 GPT-5、Gemini 和 Claude4 等顶级模型,展现了其强大的性能。此外,该模型支持开放词汇物体检测、结构化输出和多场景应用,如安全监控、医学成像和文档处理。其开源特性使其易于部署和使用,适用于边缘计算环境。
AiBase 总结:
🧠 Moondream 3.0 采用高效的专家混合架构,仅激活 2 亿个参数,实现轻量级设计。
🔍 支持开放词汇物体检测和结构化输出,适用于各种复杂场景。
💻 开源设计,适用于边缘计算,开发者可以轻松解锁其强大功能。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai002/post/20251020/AI-Daily%E8%85%BE%E8%AE%AF%E5%8F%91%E5%B8%83%E7%8E%AF%E6%B8%8A%E5%9B%BE%E5%83%8F-3.0%E5%BF%AB%E6%89%8B%E6%8E%A8%E5%87%BA-KAT-%E7%B3%BB%E5%88%97%E4%BB%A3%E7%90%86%E7%BC%96%E7%A0%81%E5%A4%A7%E5%9E%8B%E6%A8%A1%E5%9E%8B%E8%8B%B9%E6%9E%9C%E6%82%84%E7%84%B6%E5%BC%80%E5%8F%91%E7%B1%BB%E4%BC%BC-ChatGPT-%E7%9A%84%E5%BA%94%E7%94%A8---AI-Daily-Tencent-Unveils-Huan-Yuan-Image-3.0-Kuaishou-Launches-KAT-Series-Agentic-Coding-Large-Model-Apple-Quietly-D/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com
See Also
- AI Daily:DeepSeek 发布 V3.2-exp 模型;Claude Sonnet 4.5 发布;ChatGPT 推出即时结账功能 --- AI Daily DeepSeek Releases V3.2-exp Model; Claude Sonnet 4.5 Released; ChatGPT Launches Instant Checkout Featu --知识铺
- AI Daily:阿里巴巴发布紧凑型 Qwen3-VL 模型;科大讯飞 AI 翻译耳机全球上市;Gemini 代码出现在 Veo3.1 --- AI Daily Alibaba Launches Compact Qwen3-VL Model; iFlytek AI Translation Earbuds Launch Globally; Gemini Code App --知识铺
- AI Daily:阿里巴巴发布多模态模型 Qwen3-Omni;谷歌发布 AP2 协议;百度发布千帆-VL 模型 --- AI Daily Alibaba Launches Multimodal Model Qwen3-Omni; Google Unveils AP2 Protocol; Baidu Launches Qianfan-VL Model --知识铺
- AI Daily:谷歌发布 Veo 3.1;同义千文推出 Qwen 聊天记忆功能;Sora2 免费用户可生成 15 秒视频 --- AI Daily Google Releases Veo 3.1; Tongyi Qianwen Introduces Qwen Chat Memory Feature; Sora2 Free Users Can Generate 15- --知识铺
- AI Daily:Ant 开源高性能思考模型 Ring-flash-2.0;通义 7 模型占据 Hugging Face 主导地位;Veo3 视觉能力升级 --- AI Daily Ant Open Sources High-Performance Thinking Model Ring-flash-2.0; Tongyi's 7 Models Dominate Hu --知识铺