欢迎来到“AI Daily”版块!这里是您每天探索人工智能世界的指南。我们每天为您带来 AI 领域的最新内容,重点关注开发者,帮助您了解技术趋势和创新的人工智能产品应用。

新鲜 AI 产品 点击了解更多https://app.aibase.com/zh

1. 美团推出新的推理大型模型 LongCat-Flash-Thinking

美团推出的 LongCat-Flash-Thinking 模型在多个领域表现出卓越的性能和灵活的架构,为人工智能应用开发提供了新的可能性。

image.png

【AiBase 摘要:】

🧠 LongCat-Flash-Thinking 是一个基于混合专家架构的大型推理模型,拥有高达 560 亿个参数,可以动态激活 186 亿至 313 亿个参数。

📊 该模型在数学推理、通用推理和代码生成等任务中表现出色,甚至在某些测试中达到了顶尖的准确率。

🔧 该模型权重已开源,并提供了详细的聊天模板和专门的聊天网站,方便开发者使用和研究。

更多详情:https://longcat.chat/

2. 一张图片生成动画,角色替换无缝衔接!Wan-Animate 开源引发 AI 视频革命,阿里巴巴的黑色技术允许自由发挥?

Wan-Animate 模型的开源发布标志着 AI 视频生成技术的一项重大突破,凭借其双任务处理能力和多模态融合技术,为视频创作带来了革命性的变化。

image.png

【AiBase 摘要:】

🎭 双任务一键解决方案:Wan-Animate 可以同时解决角色动画生成和角色替换的问题。用户只需提供一张图片和参考视频,即可生成高精度动画视频。

💡 多模态融合驱动:该模型集成了骨骼信号控制以实现身体动作、面部隐含特征提取以及 Relighting LoRA 模块优化以实现环境光照,从而提高了唇同步准确性和全身动作复现效果。

🚀 广泛的应用前景:Wan-Animate 在娱乐和商业场景中具有巨大潜力,例如音乐视频制作、电子商务广告或企业培训,预计未来将扩展以支持多角色视频。

更多信息:https://github.com/Wan-Video/Wan2.2

3. 字节跳动发布 Doubao 翻译大型模型:28 种语言互译,与 GPT-4o 相当

字节跳动 Volc Engine 推出了一款名为 Doubao Translation Model 的新通用翻译大模型,支持 28 种语言的互译,其性能已达到或超过 GPT-4o 和 Gemini-2.5-Pro 等市场领先模型。此外,Doubao Translation Model 的定价也非常出色,每百万字符输入仅需 1.20 元,输出为 3.60 元。

image.png

【AiBase 摘要:】

🤖 双猫翻译模型支持 28 种语言的互译,与 GPT-4o 和 Gemini-2.5-Pro 相当。

💰 翻译价格极具竞争力,输入每百万字符仅需1.20元,输出每百万字符3.60元。

🔗定价信息可在 Volc Engine 的官方文档中找到,以获取详细信息。

更多详情:https://www.volcengine.com/docs/82379/1820188

4. 华为与浙江大学联合发布 DeepSeek-R1-Safe 大型模型:AI 安全与性能的完美平衡

海尔与浙江大学共同发布了基于 Ascend Qianka 计算平台的首个国内基础大型模型 DeepSeek-R1-Safe。该模型在 AI 安全与性能方面取得了重大突破,为未来 AI 产业生态系统的协调发展提供了新的方向。

image.png

【AiBase 摘要:】

🧠 DeepSeek-R1-Safe 基于 Ascend Qianka 计算平台构建,专注于解决 AI 安全和性能问题。

🛡️ 该模型在多个有害信息防御维度表现出色,总防御成功率接近100%。

🚀 在一般能力基准测试中,DeepSeek-R1-Safe 的性能损失控制在 1%以内,实现了安全和性能的平衡。

5. Qwen3-Omni 即将发布:终端升级的多模态模型

Qwen3-Omni 是阿里巴巴云 Qwen 团队最新推出的跨模态模型,预计很快将正式发布。该模型已向 Hugging Face Transformers 库提交了 PR,标志着开源集成的实现。Qwen3-Omni 采用思考者-说话者双轨设计,以提高资源受限设备上的部署效率,适用于实时交互场景。

image.png

【AiBase 摘要:】

🔥 Qwen3-Omni 是阿里云最新推出的跨模态模型,旨在提升多模态处理能力。

💡该模型采用思考者-说话者双轨设计,确保高效流式处理,适用于实时交互场景。

🚀Qwen3-Omni 已向 Hugging Face Transformers 库提交支持 PR,标志着开源集成的实现。

6. xAI 发布 Grok4Fast:计算量减少 40%,单任务成本降至 98%!

xAI 发布的 Grok4Fast 模型在计算和运营成本上取得了重大突破,同时在性能测试中表现良好,为用户提供了一种高效经济的解决方案。

image.png

【AiBase 摘要:】

🧠 Grok4Fast 将计算需求降低 40%,提高了处理复杂任务的效率。

💰 运行单个任务的成本降低了98%,为企业节省开支提供了机会。

📊 它在 GPQA Diamond 和 AIME2025 基准测试中表现出色,展示了强大的性能。

7. YouTube 推出新工具和功能,助力创作者取得更大成功

YouTube 在其年度活动中宣布了多项新功能和工具,涵盖直播、盈利方式和 AI 辅助创作。这些更新旨在提高创作者的内容管理效率和观众参与度。

image.png

【AiBase 摘要:】

🎥 新工作室功能:引入灵感标签、标题 A/B 测试和肖像识别工具,帮助创作者管理内容。

🎮 直播升级:支持游戏、横屏和竖屏直播,以及 AI 自动突出显示功能,提升直播体验。

💰 新的盈利方式:通过品牌合作和购物计划,创作者可以获得更多收入机会。

8. IBM 推出Granite-Docling-258M模型,在文档转换技术方面取得突破。

IBM 发布了轻量级视觉语言 AI 模型Granite-Docling-258M,专为文档处理设计。该模型在识别精度、多语言支持和文档元素处理方面表现出色,保留原始文档布局结构并支持多种输出格式。

image.png

【AiBase 摘要:】

📄 轻量级模型:Granite-Docling-258M专为文件转换设计,拥有2.58亿参数。

🔍 高精度:该模型与传统 OCR 软件相比,显著提高了识别精度。

🌍 多语言支持:目前支持中文、阿拉伯语和日语,未来计划扩展到更多语言。

更多信息:https://huggingface.co/ibm-granite/granite-docling-258M

9. 中国科学院发布 SpikingBrain,一款类似人脑的大模型:数据量减少 2%,速度提升百倍

中国科学院发布的类似人脑的大模型 SpikingBrain 在处理长文本时展现出惊人的速度和效率。其创新的架构和算法为人工智能领域带来了重大突破。

image.png

【AiBase 摘要:】

🧠 SpikingBrain 模型采用混合线性注意力架构,将计算复杂度从二次方降低到线性。

💡 自适应阈值脉冲神经元机制显著降低能耗,实现高计算稀疏性。

🚀 模型处理长文本的速度比主流模型快100倍,仅使用2%的训练数据。

更多详情:https://github.com/BICLab/SpikingBrain-7B

10. OpenAI 首席执行官透露新计算密集型功能,仅限专业用户使用

OpenAI 首席执行官山姆·奥特曼宣布,公司将在未来几周内推出一系列需要更多计算资源的新服务,最初仅对专业订阅用户开放,可能涉及额外费用。尽管如此,奥特曼表示,OpenAI 的目标是降低智能服务的成本,使其更加广泛地获得。

image.png

【AiBase 摘要:】

🚀 OpenAI 将推出计算密集型的新服务,最初仅限于专业用户。

💰 新功能可能涉及额外费用,以应对高昂的计算成本。

💡 Altman 强调,降低智能服务的成本和提高可及性是一个长期目标。