欢迎来到“AI Daily”版块!这是您每天探索人工智能世界的指南。每天,我们为您呈现 AI 领域的最新内容,聚焦开发者,帮助您了解技术趋势,学习创新 AI 产品应用。

新 AI 产品 点击了解更多https://app.aibase.com/zh

1. 谷歌 Gemini 3.0 Pro 开始限量发布:增强推理能力,官方发布可能在本月底

谷歌 DeepMind 团队已经开始向一些用户推送 Gemini 3.0 Pro 模型。该模型提升了推理能力和多模态处理,计划于 10 月底正式发布。

image.png

【AiBase 总结:】

🧠 Gemini 3.0 Pro 引入了 Deep Think 推理架构,增强了处理多步复杂任务的能力。

🌐 支持文本、图像、音频和视频等多种输入格式,并能生成完整的客户端代码。

🚀 谷歌计划推出轻量级的 Flash 变体版本,以满足移动设备和边缘计算的需求。

2. 百度推出全球领先的文档解析模型 PaddleOCR-VL,重塑 OCR 技术格局!

百度 PaddleOCR-VL 模型在文档解析领域表现优异,凭借其轻量级效率、多语言支持和高精度识别能力,成为 OCR 技术的新标杆。

image.png

【AiBase 摘要:】

🌍 支持109种语言,适用于各种文档处理任务。

⚙️ 核心参数仅为 0.9B,实现高效计算和准确识别。

🚀 推理速度显著提升,优于其他主流模型。

3. 爱仕科技完成 B+轮融资,融资金额达 1 亿元人民币:年度收入超过 4000 万美元,用户数超过 1 亿

爱视科技在 AI 视频生成领域取得显著进展,完成 B+轮融资,融资额达 1 亿元人民币,实现年度经常性收入超过 4000 万美元和超过 1 亿注册用户等里程碑。其产品战略和技术创新在市场上具有强大的竞争力。

image.png

【AiBase 摘要:】

🚀爱视科技完成 B+轮融资,融资额达 1 亿元,获得资本市场的认可与支持。

📈年经常性收入(ARR)超过 4000 万美元,用户数量超过 1 亿。

💡 持续的技术创新,PixVerse V5 版本提升生成效率和视频质量,引入了代理创建助手功能。

4. Anthropic 为 Claude 推出“技能”功能,提升 AI 工作效率

Anthropic 为 Claude AI 推出名为“技能”的新功能,旨在增强 AI 在工作场景中的实用性。此功能以文件夹的形式提供指令、脚本和资源,使 Claude 能够更高效地处理特定任务,例如 Excel 文档或品牌指南。用户还可以创建自定义技能并在多个平台上使用它们。这一功能与 OpenAI 的 AgentKit 相呼应,标志着 AI 在行业中的实际应用迈出了新的一步。

image.png

【AiBase 摘要:】

🌟 Anthropic 为 Claude 推出“技能”功能,增强 AI 在工作场景中的实用性。

🛠️ 用户可以创建自定义技能,以便更好地使 Claude 适应特定的办公环境。

🚀 这一举措与 OpenAI 的新功能 AgentKit 相一致,表明人工智能行业正继续向实用应用方向发展。

5. Pinterest 推出人工智能内容限制工具:用户可以自定义以减少生成的 AI 图像

Pinterest 推出了一款新的内容控制工具,允许用户限制其动态中人工智能生成内容的比例,以应对用户的不满。该平台通过引入人工智能修改标签并为用户提供可选设置,试图在人工智能创新与用户体验之间取得平衡。

image.png

【AiBase 摘要:】

🖼️ 用户可以自定义生成 AI 图像的显示比例。

🤖 Pinterest 推出了 AI 修改标签,用于识别 AI 生成的内容。

🌐 Pinterest 寻求在 AI 技术和用户体验之间寻求平衡。

6. 完全开源的 LLaVA-OneVision-1.5 多模态模型,超越 Qwen2.5-VL,首次亮相

LLaVA-OneVision-1.5 是一个开源的多模态模型,能够处理图像和视频等多种输入,在多个基准测试中表现良好,超越了 Qwen2.5-VL 模型。

image.png

【AiBase 摘要:】

🧠 LLaVA-OneVision-1.5 是一个新的多模态模型,能够处理图像和视频等多种输入形式。

📈 训练过程分为三个阶段,旨在高效提升模型对视觉和语言的理解能力。

🏆 在基准测试中,LLaVA-OneVision-1.5 表现出色,超越了 Qwen2.5-VL 模型。

详情链接:https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5 https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

7. OpenAI 视频生成模型 Sora 2 在微软 Azure 上上线:每秒定价 0.1 美元,进入公测阶段

微软宣布,OpenAI 的 Sora 2 视频生成模型已在 Azure AI Foundry 国际版上推出,进入公测阶段,标志着生成式 AI 视频工具的商业化。

image.png

【AiBase 摘要:】

🎥 Sora2 是一个多模态视频生成模型,支持文本、图像和视频输入,用于生成新的视频内容。

💰 价格为每秒 0.1 美元,采用基于生成时长的计费模式,适合企业用户大量使用。

🌐 Sora2 仅在 Azure AI Foundry 国际版上可用,中国用户目前无法直接访问。

8. 旅行搜索引擎 Kayak 推出“AI 模式”,以便于旅行规划和预订。

Kayak 推出了一项新的“AI 模式”,该模式通过集成的聊天机器人帮助用户研究、计划和预订旅行。此功能使用 ChatGPT 技术提供更具情境感知的搜索结果,并支持开放式问题以获取旅行建议。

image.png

【AiBase 摘要:】

🌍 Kayak 推出了“AI 模式”,允许用户通过聊天机器人方便地规划和预订行程。

🗣️ 此功能支持询问旅行建议和比较各种旅行服务,利用 ChatGPT 技术提供准确信息。

📅“AI 模式”最初仅支持英语,未来将扩展到更多语言和平台,并增加语音请求功能。