AI Daily：美团发布推理大模型 LongCat-Flash-Thinking；阿里巴巴万维动画开源；字节跳动发布多宝翻译大模型 --- AI Daily Meituan Launches Inference Large Model LongCat-Flash-Thinking; Alibaba Wan-Animate Open-Sourced; ByteDanc --知识铺

欢迎来到“AI Daily”版块！这里是您每天探索人工智能世界的指南。我们每天为您带来 AI 领域的最新内容，重点关注开发者，帮助您了解技术趋势和创新的人工智能产品应用。

新鲜 AI 产品 点击了解更多 ：https://app.aibase.com/zh

1. 美团推出新的推理大型模型 LongCat-Flash-Thinking

美团推出的 LongCat-Flash-Thinking 模型在多个领域表现出卓越的性能和灵活的架构，为人工智能应用开发提供了新的可能性。

【AiBase 摘要：】

🧠 LongCat-Flash-Thinking 是一个基于混合专家架构的大型推理模型，拥有高达 560 亿个参数，可以动态激活 186 亿至 313 亿个参数。

📊 该模型在数学推理、通用推理和代码生成等任务中表现出色，甚至在某些测试中达到了顶尖的准确率。

🔧 该模型权重已开源，并提供了详细的聊天模板和专门的聊天网站，方便开发者使用和研究。

更多详情：https://longcat.chat/

2. 一张图片生成动画，角色替换无缝衔接！Wan-Animate 开源引发 AI 视频革命，阿里巴巴的黑色技术允许自由发挥？

Wan-Animate 模型的开源发布标志着 AI 视频生成技术的一项重大突破，凭借其双任务处理能力和多模态融合技术，为视频创作带来了革命性的变化。

【AiBase 摘要：】

🎭 双任务一键解决方案：Wan-Animate 可以同时解决角色动画生成和角色替换的问题。用户只需提供一张图片和参考视频，即可生成高精度动画视频。

💡 多模态融合驱动：该模型集成了骨骼信号控制以实现身体动作、面部隐含特征提取以及 Relighting LoRA 模块优化以实现环境光照，从而提高了唇同步准确性和全身动作复现效果。

🚀 广泛的应用前景：Wan-Animate 在娱乐和商业场景中具有巨大潜力，例如音乐视频制作、电子商务广告或企业培训，预计未来将扩展以支持多角色视频。

更多信息：https://github.com/Wan-Video/Wan2.2

3. 字节跳动发布 Doubao 翻译大型模型：28 种语言互译，与 GPT-4o 相当

字节跳动 Volc Engine 推出了一款名为 Doubao Translation Model 的新通用翻译大模型，支持 28 种语言的互译，其性能已达到或超过 GPT-4o 和 Gemini-2.5-Pro 等市场领先模型。此外，Doubao Translation Model 的定价也非常出色，每百万字符输入仅需 1.20 元，输出为 3.60 元。

【AiBase 摘要：】

🤖 双猫翻译模型支持 28 种语言的互译，与 GPT-4o 和 Gemini-2.5-Pro 相当。

💰 翻译价格极具竞争力，输入每百万字符仅需1.20元，输出每百万字符3.60元。

🔗定价信息可在 Volc Engine 的官方文档中找到，以获取详细信息。

更多详情：https://www.volcengine.com/docs/82379/1820188

4. 华为与浙江大学联合发布 DeepSeek-R1-Safe 大型模型：AI 安全与性能的完美平衡

海尔与浙江大学共同发布了基于 Ascend Qianka 计算平台的首个国内基础大型模型 DeepSeek-R1-Safe。该模型在 AI 安全与性能方面取得了重大突破，为未来 AI 产业生态系统的协调发展提供了新的方向。

【AiBase 摘要：】

🧠 DeepSeek-R1-Safe 基于 Ascend Qianka 计算平台构建，专注于解决 AI 安全和性能问题。

🛡️ 该模型在多个有害信息防御维度表现出色，总防御成功率接近100%。

🚀 在一般能力基准测试中，DeepSeek-R1-Safe 的性能损失控制在 1%以内，实现了安全和性能的平衡。

5. Qwen3-Omni 即将发布：终端升级的多模态模型

Qwen3-Omni 是阿里巴巴云 Qwen 团队最新推出的跨模态模型，预计很快将正式发布。该模型已向 Hugging Face Transformers 库提交了 PR，标志着开源集成的实现。Qwen3-Omni 采用思考者-说话者双轨设计，以提高资源受限设备上的部署效率，适用于实时交互场景。

【AiBase 摘要：】

🔥 Qwen3-Omni 是阿里云最新推出的跨模态模型，旨在提升多模态处理能力。

💡该模型采用思考者-说话者双轨设计，确保高效流式处理，适用于实时交互场景。

🚀Qwen3-Omni 已向 Hugging Face Transformers 库提交支持 PR，标志着开源集成的实现。

6. xAI 发布 Grok4Fast：计算量减少 40%，单任务成本降至 98%！

xAI 发布的 Grok4Fast 模型在计算和运营成本上取得了重大突破，同时在性能测试中表现良好，为用户提供了一种高效经济的解决方案。

【AiBase 摘要：】

🧠 Grok4Fast 将计算需求降低 40%，提高了处理复杂任务的效率。

💰 运行单个任务的成本降低了98%，为企业节省开支提供了机会。

📊 它在 GPQA Diamond 和 AIME2025 基准测试中表现出色，展示了强大的性能。

7. YouTube 推出新工具和功能，助力创作者取得更大成功

YouTube 在其年度活动中宣布了多项新功能和工具，涵盖直播、盈利方式和 AI 辅助创作。这些更新旨在提高创作者的内容管理效率和观众参与度。

【AiBase 摘要：】

🎥 新工作室功能：引入灵感标签、标题 A/B 测试和肖像识别工具，帮助创作者管理内容。

🎮 直播升级：支持游戏、横屏和竖屏直播，以及 AI 自动突出显示功能，提升直播体验。

💰 新的盈利方式：通过品牌合作和购物计划，创作者可以获得更多收入机会。

8. IBM 推出Granite-Docling-258M模型，在文档转换技术方面取得突破。

IBM 发布了轻量级视觉语言 AI 模型Granite-Docling-258M，专为文档处理设计。该模型在识别精度、多语言支持和文档元素处理方面表现出色，保留原始文档布局结构并支持多种输出格式。

【AiBase 摘要：】

📄 轻量级模型：Granite-Docling-258M专为文件转换设计，拥有2.58亿参数。

🔍 高精度：该模型与传统 OCR 软件相比，显著提高了识别精度。

🌍 多语言支持：目前支持中文、阿拉伯语和日语，未来计划扩展到更多语言。

更多信息：https://huggingface.co/ibm-granite/granite-docling-258M

9. 中国科学院发布 SpikingBrain，一款类似人脑的大模型：数据量减少 2%，速度提升百倍

中国科学院发布的类似人脑的大模型 SpikingBrain 在处理长文本时展现出惊人的速度和效率。其创新的架构和算法为人工智能领域带来了重大突破。

【AiBase 摘要：】

🧠 SpikingBrain 模型采用混合线性注意力架构，将计算复杂度从二次方降低到线性。

💡 自适应阈值脉冲神经元机制显著降低能耗，实现高计算稀疏性。

🚀 模型处理长文本的速度比主流模型快100倍，仅使用2%的训练数据。

更多详情：https://github.com/BICLab/SpikingBrain-7B

10. OpenAI 首席执行官透露新计算密集型功能，仅限专业用户使用

OpenAI 首席执行官山姆·奥特曼宣布，公司将在未来几周内推出一系列需要更多计算资源的新服务，最初仅对专业订阅用户开放，可能涉及额外费用。尽管如此，奥特曼表示，OpenAI 的目标是降低智能服务的成本，使其更加广泛地获得。

【AiBase 摘要：】

🚀 OpenAI 将推出计算密集型的新服务，最初仅限于专业用户。

💰 新功能可能涉及额外费用，以应对高昂的计算成本。

💡 Altman 强调，降低智能服务的成本和提高可及性是一个长期目标。

文章目录

AI Daily：美团发布推理大模型 LongCat-Flash-Thinking；阿里巴巴万维动画开源；字节跳动发布多宝翻译大模型 --- AI Daily Meituan Launches Inference Large Model LongCat-Flash-Thinking; Alibaba Wan-Animate Open-Sourced; ByteDanc --知识铺

See Also

最近文章

福利派送

分类

标签

友情链接

其它