2025.10.08 果比AI日报 --知识铺

IR 导读

01 大模型：OpenAI在DevDay上宣布将ChatGPT打造成可调用第三方应用的操作系统，并发布了AgentKit工具包、开放Codex与GPT-5 Pro模型API以提升体验。
02 评测：Cursor新模型Cheetah性能评测不佳，而Anthropic开源的AI审核工具PETRI在初步测试中显示Claude Sonnet 4.5部分表现优于GPT-5。
03 智能体：OpenAI发布AgentKit模块化工具集以简化智能体工作流构建，并推出Apps SDK帮助开发者在ChatGPT内集成自定义应用。
04 工具：统一浏览器指纹的BotBrowser、整合下载任务的Varia以及功能类似Google Keep的笔记应用Glass Keep。
05 资源：C语言学习手册《The Little Book of C》为初学者提供了简洁全面的学习路径，并提供多种格式资源和开源示例代码。
06 提示词：一种以XML标签为核心的结构化提示工程框架被提出，通过明确任务和角色等方式可将AI输出准确率从73%提升至91%。
07 技术：最新研究揭示强化学习能分层提升大语言模型推理能力，而Cut2Next框架则致力于生成具有视觉一致性和叙事流畅性的多镜头视频。
08 案例：陶哲轩借助ChatGPT在十分钟内解决了悬置30年的Erdős问题，展示了AI在半自动化文献搜索与数据处理方面的研究潜力。
09 分享：AI Agent的核心构成、扩展LLM上下文长度的技术方案，以及通过优化上下文工程提升AI在复杂代码库中表现的实践。
10 其他：ChatGPT实现与Spotify等应用的深度集成，苹果正为AI部门寻找新负责人，同时OpenAI与前苹果设计师合作开发AI硬件。

01 大模型

ChatGPT 操作系统全新体验

OpenAI 在 DevDay 上宣布将 ChatGPT 打造成一个操作系统，现有的 8 亿用户将迎来全新体验。新的功能包括在对话中直接调用第三方应用，如 Spotify 和 Canva，用户无需下载额外应用。开发者可以利用全新的 Apps SDK 构建应用。与此同时，OpenAI 发布了 AgentKit 工具包，简化了多 Agent 工作流的创建，支持可视化搭建。Codex 也全面开放，允许用户用自然语言编写代码。此外，GPT-5 Pro 模型的 API 现已开放，语音交互和视频生成能力也得到了增强。整体上，这些更新旨在进一步提升用户和开发者的体验。

02 评测

Cheetah 模型性能评测

Cursor 的新模型 Cheetah 的性能被评价为一般。该模型在执行 “鞭炮连锁爆炸” 测试时表现不佳，未能成功完成，且连续六次生成代码时均出现卡住现象。

相关链接：网页链接

开源 AI 审核工具 PETRI

Anthropic 开源了 AI 审核工具 PETRI，旨在自动化评估先进 AI 模型的潜在风险行为。传统的人工审计方法无法覆盖所有可能的假设和边缘案例，而 PETRI 通过部署智能体进行并行探索，大幅提高审核效率。研究者只需输入 “种子指令”，工具便能自动生成计划、执行多轮对话并汇总结果。PETRI 的开源特性鼓励社区参与，降低了风险评估的门槛。初步实验显示，Claude Sonnet 4.5 在多项行为评估中表现优于 GPT-5，但结果仍有限，无法覆盖所有场景。

相关链接：网页链接

03 智能体

OpenAI 发布 AgentKit：智能体工具集

OpenAI 在 2025 年 DevDay 发布了 AgentKit，一个模块化的智能体工具集，旨在帮助开发者和企业高效构建、部署和优化智能体工作流。AgentKit 解决了智能体开发中的问题，如工具碎片化和复杂的工作流编排，支持从简单任务到复杂研究的端到端应用。核心组件包括：Agent Builder、ChatKit、Guardrails 和 Evals，分别用于构建多智能体工作流、集成聊天界面、提供安全层和评估平台。实际应用中，用户反馈显示，使用 AgentKit 能显著缩短迭代周期和开发时间，提升智能体的准确性和效率。AgentKit 以标准 API 定价，降低了非工程师参与智能体设计的门槛，适合于客户支持和销售自动化等场景。

相关链接：网页链接

OpenAI 发布 Apps SDK

OpenAI 在 2025 年的开发者大会上发布了 Apps SDK，旨在帮助开发者在 ChatGPT 内构建和集成自定义应用。该 SDK 基于 MCP 标准，支持 ChatGPT 无缝连接外部工具和数据，从而提升用户交互体验。核心设计原则强调对话式、智能和简约，应用展示模式多样，包括内联卡片和全屏等。开发者需遵循信任、安全和隐私的要求，确保应用合规，避免误导用户。Apps SDK 现已开放预览，开发者可开始测试和构建应用，晚些时候将接受应用发布申请。

相关链接：网页链接

04 工具

开源浏览器工具 BotBrowser

在进行自动化测试时，不同操作系统下的浏览器指纹差异成为开发者的一大挑战。BotBrowser 是一款开源浏览器工具，旨在通过统一指纹解决这一问题，确保在不同操作系统（Windows、macOS、Linux）下获得相同的浏览器指纹。该工具基于最新的 Chromium 内核，支持 Playwright 和 Puppeteer 自动化框架的集成，并具备智能配置和丰富的 CLI 参数功能，能够自动检测时区和语言设置。尽管其指纹配置是加密的，但用户需谨慎使用以防潜在的安全隐患。

相关链接：网页链接

开源下载管理器 Varia

Varia 是一款开源下载管理器，能够整合文件、种子和视频流的下载任务，极大地方便用户。它不仅支持常规文件和 BT 下载，还能直接从主流视频网站下载音视频，并提供浏览器插件，实现一键下载。该工具基于 aria2 和 yt-dlp，确保了下载的稳定性和兼容性，此外，还具备下载完成后自动关机等实用功能。Varia 支持 Windows 和 Linux 系统，适合有需要的用户尝试使用。

相关链接：网页链接

开源笔记应用 Glass Keep

发现了一款开源笔记应用 Glass Keep，功能丰富，类似 Google Keep。该应用界面简洁美观，支持 Markdown 格式和待办清单功能，并且支持多用户协作及离线使用。用户可以通过 Docker 一键部署或本地 npm 安装使用，亦支持将数据从 Google Keep 迁移至 Glass Keep。此外，该应用支持 PWA，方便在桌面和手机上使用。

相关链接：网页链接

05 资源

C 语言学习手册 在大学软件专业中，学习 C 语言是编程入门的必修课，但厚重的教材常常让初学者感到畏惧。为此，《The Little Book of C》作为一本精心整理的学习手册，为学习者提供了一条清晰的 C 语言学习路径。该书专注于基础语法、核心概念和实用技巧，内容简洁而全面。此外，书中提供了多种格式的学习资源，包括 PDF、EPUB 和在线网页，满足不同学习需求，同时还提供了 LaTeX 源码以便用户自定义内容。所有示例代码均为开源，适合初学者和希望系统学习 C 语言的开发者，值得收藏。相关链接：网页链接

06 提示词

提示工程核心框架

Chris Laub 通过分析 Anthropic 官方提示库的示例，提出了一种以 XML 标签为核心的高效提示工程框架。该框架强调结构化提示，可以显著提高 AI 输出的一致性和准确性，准确率从 73% 提升至 91%。关键技巧包括使用标签明确划分角色、任务和约束，分离推理与输出，深度定义角色，提供完整示例结构，以及内置错误处理等。该方法被认为将颠覆传统提示设计，并且在准确性和速度上优于非结构化提示。

相关链接：网页链接

07 技术

强化学习提升大语言模型推理能力

近期研究表明，强化学习（RL）能显著提升大语言模型（LLM）的推理能力。香港科技大学、滑铁卢大学和清华大学的研究者通过 DeepSeek 的 GRPO 算法，揭示了 LLM 推理的层次化结构：模型首先巩固底层执行能力，再探索高层策略规划。这一过程通过「长度缩放效应」和「顿悟时刻」等现象表现出来，模型在训练中逐渐增强了高层规划能力。研究团队提出的分层感知信用分配机制（HICRA）优于传统方法，强调策略规划的重要性，为理解 RL 在提升推理能力中的作用提供了新视角。

相关链接：网页链接

AI 预测下一个镜头的应用研究

多镜头电影级叙事的视频生成框架 Cut2Next 由新加坡南洋理工大学和其他机构合作开发，旨在实现高质量镜头生成，强调视觉一致性和叙事流畅性。该研究提出的 “下一个镜头的预测”（NSG）方法创新性地使用了 Diffusion Transformer 和层次化提示策略，克服了现有 AI 视频生成模型在叙事一致性和高质量细节方面的不足。研究团队构建了两个数据集，以提升模型训练效果。Cut2Next 有望为影视、互动游戏和具身智能等领域提供应用工具，并在故事板生成和短剧制作中展现潜力。

相关链接：网页链接

08 案例

陶哲轩与 ChatGPT 破解 Erdős 问题

陶哲轩与 ChatGPT 联手，成功解决了第 259 号 Erdős 问题，这个问题悬而未决已超过 30 年。通过利用 AI 工具，陶哲轩在不到 10 分钟内计算出相关级数的前几项，随后在在线整数数列百科全书（OEIS）中找到匹配文献，确认该问题早已被华人数学家破解。此次合作展示了 AI 在数学研究中的潜力，尤其是在半自动化文献搜索和数据处理方面。陶哲轩还发起了一个众包项目，旨在系统性地连接 Erdős 问题与 OEIS，以促进公众参与数学研究。

相关链接：网页链接

09 分享

AI Agents 概念简介

AI Agents 是一种由大语言模型（LLM）主导的动态执行系统，主要由模型、指令和工具三要素构成。它们不仅能回应用户输入，还能进行推理和自主规划。误区在于将其视为简单的工具调用，实际上，AI Agents 拥有更高的自治性。进阶组成部分包括记忆、存储、知识和推理，能够提升交互的可靠性和准确性。实际示例有 ChatGPT 和 Claude，而 OpenAI 的 Agent Builder 更像工作流构建器。建议从简单场景入手，逐步扩展功能，以验证需求。

相关链接：网页链接

LLM 上下文长度扩展解决方案

在 OpenAI Research Scientist 面试中，面试官询问如何将大型语言模型（LLM）的上下文长度从 2K 扩展至 128K tokens。简单回答 “用长文档微调模型” 不够全面，核心挑战在于传统 Transformer 的注意力机制导致内存需求呈二次方增长。提出了两种解决方案：一是使用稀疏注意力，限制 token 关注范围以降低计算复杂度；二是利用 Flash Attention，通过 GPU 优化减少数据移动，提高计算效率，保持准确性。现代 BERT 模型通过混合策略实现序列长度扩展并提升性能，Flash Attention 已有开源实现。

相关链接：网页链接

Claude Code 上下文工程优化

Claude Code 通过优化上下文工程实践，显著提升了 AI Agent 在复杂代码库中的表现。Jason Zhou 分享了使用 “.agent docs” 系统的方法，声称能够将 AI Agent 的性能提升十倍，尤其适用于大型和遗留项目。上下文工程涉及多个输入元素的有效管理，以避免信息过载。此外，子智能体的设计增强了信息提取和管理效率，而良好的文档系统则是提升性能的关键。动态更新机制确保文档与代码的同步，进而提升整体操作效率。

相关链接：网页链接

10 其他

1. OpenAI 在 DevDay 中宣布，ChatGPT 将支持直接在对话界面中调用多个第三方应用，如 Spotify、Canva、Zillow、Booking.com、Expedia、Figma 和 Coursera。用户可以通过简短的指令，例如「帮我在 Canva 上设计一个宠物遛狗品牌海报」，ChatGPT 即可自动生成设计。此外，用户还可以无缝衔接其他任务，比如创建融资 Pitch Deck。更令人惊讶的是，ChatGPT 还可与 Zillow 结合，生成互动房源地图，用户可以在对话框中直接选择、询问或比较房价，从而极大地提升了用户体验和操作效率。
2. 苹果公司正在为其人工智能部门寻找新负责人，以替换现任主管 John Giannandrea。报道称，苹果的高层管理者已将目光投向公司外部，意图在 AI 行业中寻找顶尖人才来填补这一重要职位。目前，一位来自竞争对手 Meta 的高级 AI 主管正成为苹果的重点考察对象。
3. OpenAI 正在与苹果前设计总监乔纳森・伊夫合作，开发一款神秘的人工智能硬件，预计于 2026 年推出。该设备构想为无屏幕、手掌大小，通过音频和视觉提示感知环境，并响应用户请求。设备与智能手机大小相似，用户可通过摄像头、麦克风和扬声器与其互动，旨在实现「始终在线」，持续收集数据以构建虚拟助手的记忆。目前，项目面临算力等技术瓶颈，可能导致发布推迟。
相关链接：网页链接

文章目录

2025.10.08 果比AI日报 --知识铺

IR 导读

01 大模型

02 评测

03 智能体

04 工具

05 资源

06 提示词

07 技术

08 案例

09 分享

10 其他

See Also

最近文章

福利派送

分类

标签

友情链接

其它