IR 导读

01 大模型:OpenAI在DevDay上宣布将ChatGPT打造成可调用第三方应用的操作系统,并发布了AgentKit工具包、开放Codex与GPT-5 Pro模型API以提升体验。
02 评测:Cursor新模型Cheetah性能评测不佳,而Anthropic开源的AI审核工具PETRI在初步测试中显示Claude Sonnet 4.5部分表现优于GPT-5。
03 智能体:OpenAI发布AgentKit模块化工具集以简化智能体工作流构建,并推出Apps SDK帮助开发者在ChatGPT内集成自定义应用。
04 工具:统一浏览器指纹的BotBrowser、整合下载任务的Varia以及功能类似Google Keep的笔记应用Glass Keep。
05 资源:C语言学习手册《The Little Book of C》为初学者提供了简洁全面的学习路径,并提供多种格式资源和开源示例代码。
06 提示词:一种以XML标签为核心的结构化提示工程框架被提出,通过明确任务和角色等方式可将AI输出准确率从73%提升至91%。
07 技术:最新研究揭示强化学习能分层提升大语言模型推理能力,而Cut2Next框架则致力于生成具有视觉一致性和叙事流畅性的多镜头视频。
08 案例:陶哲轩借助ChatGPT在十分钟内解决了悬置30年的Erdős问题,展示了AI在半自动化文献搜索与数据处理方面的研究潜力。
09 分享:AI Agent的核心构成、扩展LLM上下文长度的技术方案,以及通过优化上下文工程提升AI在复杂代码库中表现的实践。
10 其他:ChatGPT实现与Spotify等应用的深度集成,苹果正为AI部门寻找新负责人,同时OpenAI与前苹果设计师合作开发AI硬件。

01 大模型

ChatGPT 操作系统全新体验

OpenAI 在 DevDay 上宣布将 ChatGPT 打造成一个操作系统,现有的 8 亿用户将迎来全新体验。新的功能包括在对话中直接调用第三方应用,如 Spotify 和 Canva,用户无需下载额外应用。开发者可以利用全新的 Apps SDK 构建应用。与此同时,OpenAI 发布了 AgentKit 工具包,简化了多 Agent 工作流的创建,支持可视化搭建。Codex 也全面开放,允许用户用自然语言编写代码。此外,GPT-5 Pro 模型的 API 现已开放,语音交互和视频生成能力也得到了增强。整体上,这些更新旨在进一步提升用户和开发者的体验。

02 评测

Cheetah 模型性能评测

Cursor 的新模型 Cheetah 的性能被评价为一般。该模型在执行 “鞭炮连锁爆炸” 测试时表现不佳,未能成功完成,且连续六次生成代码时均出现卡住现象。

相关链接:网页链接

开源 AI 审核工具 PETRI

Anthropic 开源了 AI 审核工具 PETRI,旨在自动化评估先进 AI 模型的潜在风险行为。传统的人工审计方法无法覆盖所有可能的假设和边缘案例,而 PETRI 通过部署智能体进行并行探索,大幅提高审核效率。研究者只需输入 “种子指令”,工具便能自动生成计划、执行多轮对话并汇总结果。PETRI 的开源特性鼓励社区参与,降低了风险评估的门槛。初步实验显示,Claude Sonnet 4.5 在多项行为评估中表现优于 GPT-5,但结果仍有限,无法覆盖所有场景。

相关链接:网页链接

03 智能体

OpenAI 发布 AgentKit:智能体工具集

OpenAI 在 2025 年 DevDay 发布了 AgentKit,一个模块化的智能体工具集,旨在帮助开发者和企业高效构建、部署和优化智能体工作流。AgentKit 解决了智能体开发中的问题,如工具碎片化和复杂的工作流编排,支持从简单任务到复杂研究的端到端应用。核心组件包括:Agent Builder、ChatKit、Guardrails 和 Evals,分别用于构建多智能体工作流、集成聊天界面、提供安全层和评估平台。实际应用中,用户反馈显示,使用 AgentKit 能显著缩短迭代周期和开发时间,提升智能体的准确性和效率。AgentKit 以标准 API 定价,降低了非工程师参与智能体设计的门槛,适合于客户支持和销售自动化等场景。

相关链接:网页链接

OpenAI 发布 Apps SDK

OpenAI 在 2025 年的开发者大会上发布了 Apps SDK,旨在帮助开发者在 ChatGPT 内构建和集成自定义应用。该 SDK 基于 MCP 标准,支持 ChatGPT 无缝连接外部工具和数据,从而提升用户交互体验。核心设计原则强调对话式、智能和简约,应用展示模式多样,包括内联卡片和全屏等。开发者需遵循信任、安全和隐私的要求,确保应用合规,避免误导用户。Apps SDK 现已开放预览,开发者可开始测试和构建应用,晚些时候将接受应用发布申请。

相关链接:网页链接

04 工具

开源浏览器工具 BotBrowser

在进行自动化测试时,不同操作系统下的浏览器指纹差异成为开发者的一大挑战。BotBrowser 是一款开源浏览器工具,旨在通过统一指纹解决这一问题,确保在不同操作系统(Windows、macOS、Linux)下获得相同的浏览器指纹。该工具基于最新的 Chromium 内核,支持 Playwright 和 Puppeteer 自动化框架的集成,并具备智能配置和丰富的 CLI 参数功能,能够自动检测时区和语言设置。尽管其指纹配置是加密的,但用户需谨慎使用以防潜在的安全隐患。

相关链接:网页链接

开源下载管理器 Varia

Varia 是一款开源下载管理器,能够整合文件、种子和视频流的下载任务,极大地方便用户。它不仅支持常规文件和 BT 下载,还能直接从主流视频网站下载音视频,并提供浏览器插件,实现一键下载。该工具基于 aria2 和 yt-dlp,确保了下载的稳定性和兼容性,此外,还具备下载完成后自动关机等实用功能。Varia 支持 Windows 和 Linux 系统,适合有需要的用户尝试使用。

相关链接:网页链接

开源笔记应用 Glass Keep

发现了一款开源笔记应用 Glass Keep,功能丰富,类似 Google Keep。该应用界面简洁美观,支持 Markdown 格式和待办清单功能,并且支持多用户协作及离线使用。用户可以通过 Docker 一键部署或本地 npm 安装使用,亦支持将数据从 Google Keep 迁移至 Glass Keep。此外,该应用支持 PWA,方便在桌面和手机上使用。

相关链接:网页链接

05 资源

C 语言学习手册 在大学软件专业中,学习 C 语言是编程入门的必修课,但厚重的教材常常让初学者感到畏惧。为此,《The Little Book of C》作为一本精心整理的学习手册,为学习者提供了一条清晰的 C 语言学习路径。该书专注于基础语法、核心概念和实用技巧,内容简洁而全面。此外,书中提供了多种格式的学习资源,包括 PDF、EPUB 和在线网页,满足不同学习需求,同时还提供了 LaTeX 源码以便用户自定义内容。所有示例代码均为开源,适合初学者和希望系统学习 C 语言的开发者,值得收藏。 相关链接:网页链接

06 提示词

提示工程核心框架

Chris Laub 通过分析 Anthropic 官方提示库的示例,提出了一种以 XML 标签为核心的高效提示工程框架。该框架强调结构化提示,可以显著提高 AI 输出的一致性和准确性,准确率从 73% 提升至 91%。关键技巧包括使用标签明确划分角色、任务和约束,分离推理与输出,深度定义角色,提供完整示例结构,以及内置错误处理等。该方法被认为将颠覆传统提示设计,并且在准确性和速度上优于非结构化提示。

相关链接:网页链接

07 技术

强化学习提升大语言模型推理能力

近期研究表明,强化学习(RL)能显著提升大语言模型(LLM)的推理能力。香港科技大学、滑铁卢大学和清华大学的研究者通过 DeepSeek 的 GRPO 算法,揭示了 LLM 推理的层次化结构:模型首先巩固底层执行能力,再探索高层策略规划。这一过程通过「长度缩放效应」和「顿悟时刻」等现象表现出来,模型在训练中逐渐增强了高层规划能力。研究团队提出的分层感知信用分配机制(HICRA)优于传统方法,强调策略规划的重要性,为理解 RL 在提升推理能力中的作用提供了新视角。

相关链接:网页链接

AI 预测下一个镜头的应用研究

多镜头电影级叙事的视频生成框架 Cut2Next 由新加坡南洋理工大学和其他机构合作开发,旨在实现高质量镜头生成,强调视觉一致性和叙事流畅性。该研究提出的 “下一个镜头的预测”(NSG)方法创新性地使用了 Diffusion Transformer 和层次化提示策略,克服了现有 AI 视频生成模型在叙事一致性和高质量细节方面的不足。研究团队构建了两个数据集,以提升模型训练效果。Cut2Next 有望为影视、互动游戏和具身智能等领域提供应用工具,并在故事板生成和短剧制作中展现潜力。

相关链接:网页链接

08 案例

陶哲轩与 ChatGPT 破解 Erdős 问题

陶哲轩与 ChatGPT 联手,成功解决了第 259 号 Erdős 问题,这个问题悬而未决已超过 30 年。通过利用 AI 工具,陶哲轩在不到 10 分钟内计算出相关级数的前几项,随后在在线整数数列百科全书(OEIS)中找到匹配文献,确认该问题早已被华人数学家破解。此次合作展示了 AI 在数学研究中的潜力,尤其是在半自动化文献搜索和数据处理方面。陶哲轩还发起了一个众包项目,旨在系统性地连接 Erdős 问题与 OEIS,以促进公众参与数学研究。

相关链接:网页链接

相关链接:网页链接

相关链接:网页链接

相关链接:网页链接

09 分享

AI Agents 概念简介

AI Agents 是一种由大语言模型(LLM)主导的动态执行系统,主要由模型、指令和工具三要素构成。它们不仅能回应用户输入,还能进行推理和自主规划。误区在于将其视为简单的工具调用,实际上,AI Agents 拥有更高的自治性。进阶组成部分包括记忆、存储、知识和推理,能够提升交互的可靠性和准确性。实际示例有 ChatGPT 和 Claude,而 OpenAI 的 Agent Builder 更像工作流构建器。建议从简单场景入手,逐步扩展功能,以验证需求。

相关链接:网页链接

LLM 上下文长度扩展解决方案

在 OpenAI Research Scientist 面试中,面试官询问如何将大型语言模型(LLM)的上下文长度从 2K 扩展至 128K tokens。简单回答 “用长文档微调模型” 不够全面,核心挑战在于传统 Transformer 的注意力机制导致内存需求呈二次方增长。提出了两种解决方案:一是使用稀疏注意力,限制 token 关注范围以降低计算复杂度;二是利用 Flash Attention,通过 GPU 优化减少数据移动,提高计算效率,保持准确性。现代 BERT 模型通过混合策略实现序列长度扩展并提升性能,Flash Attention 已有开源实现。

相关链接:网页链接

Claude Code 上下文工程优化

Claude Code 通过优化上下文工程实践,显著提升了 AI Agent 在复杂代码库中的表现。Jason Zhou 分享了使用 “.agent docs” 系统的方法,声称能够将 AI Agent 的性能提升十倍,尤其适用于大型和遗留项目。上下文工程涉及多个输入元素的有效管理,以避免信息过载。此外,子智能体的设计增强了信息提取和管理效率,而良好的文档系统则是提升性能的关键。动态更新机制确保文档与代码的同步,进而提升整体操作效率。

相关链接:网页链接

10 其他

1. OpenAI 在 DevDay 中宣布,ChatGPT 将支持直接在对话界面中调用多个第三方应用,如 Spotify、Canva、Zillow、Booking.com、ExpediaFigmaCoursera。用户可以通过简短的指令,例如「帮我在 Canva 上设计一个宠物遛狗品牌海报」,ChatGPT 即可自动生成设计。此外,用户还可以无缝衔接其他任务,比如创建融资 Pitch Deck。更令人惊讶的是,ChatGPT 还可与 Zillow 结合,生成互动房源地图,用户可以在对话框中直接选择、询问或比较房价,从而极大地提升了用户体验和操作效率。
2. 苹果公司正在为其人工智能部门寻找新负责人,以替换现任主管 John Giannandrea。报道称,苹果的高层管理者已将目光投向公司外部,意图在 AI 行业中寻找顶尖人才来填补这一重要职位。目前,一位来自竞争对手 Meta 的高级 AI 主管正成为苹果的重点考察对象。
3. OpenAI 正在与苹果前设计总监乔纳森・伊夫合作,开发一款神秘的人工智能硬件,预计于 2026 年推出。该设备构想为无屏幕、手掌大小,通过音频和视觉提示感知环境,并响应用户请求。设备与智能手机大小相似,用户可通过摄像头、麦克风和扬声器与其互动,旨在实现「始终在线」,持续收集数据以构建虚拟助手的记忆。目前,项目面临算力等技术瓶颈,可能导致发布推迟。
相关链接:网页链接