几乎都在挂羊头卖狗肉,AI Agent的泡沫现在到底有多大? --知识铺
本文将深入探讨Agent泡沫的现状、成因以及未来的发展趋势,分析在技术受限、行业规律和市场环境的多重影响下,Agent产品如何在竞争中寻找生存和发展的空间。
Agent、Agent?Agent!说起今年的AI浪潮,除了年初DeepSeek引领的一波强化学习热,行业内最受关注的,莫过于各种各样的AIAgent以及“类Agent”。
不知从什么时候开始,Agent变成了一种万能公式,什么都可以套进去一下。但,Agent真的有那么好吗?真的有竞争力吗?
“Manus前阵子刚推出的新功能WideResearch,我觉得非常不具备竞争力,对提高产品竞争力没有什么用。”某大型金融企业AI技术专家王显(化名)向知危表示。
从“次日即旧”的榜单到被基础模型一轮升级清场的产品,2025年的Agent创业,热闹背后是可怜的留存率与渐趋同质的体验。
几乎所有Agent产品都在讲“更聪明、更全能、更自动化”,但用户只试用一次就离开的比例居高不下,Demo能飞,落地常摔,这是否意味着通用型Agent的叙事正在透支?
本文,知危把镜头拉远,看看泡沫究竟来自资本驱动、技术错配,还是场景误判?
我们将邀请来自大型企业、创业公司的多位一线实践者,以Manus近期的新产品WideResearch和公司跑路、撤资事件为引,追问国内外Agent泡沫乱象现实、背后的原因,以及未来Agent赛道的生存规则。
在交流过程中,知危发现,通用与垂直的取舍和统合是决定去留的关键。
实际上,今年Agent大火,主要是在tool-use上取得突破,《知识图谱:认知智能理论与实战》、《知识增强大模型》与《比RAG更強-知識增強LLM型應用程式實戰》作者、大模型技术专家王文广向知危表示,“具体来看,从编程到browser-use,再到computer-use,以及随着MCP通用接口普及率的提升,Agent的tooluse能力得到增强,能够更高效地从外部获取信息,以及与外部系统进行交互。”
平安保险技术平台组负责人张森森进一步向知危解释道,“技术层面上,协议逐渐成熟,能力外延扩大,可以通过MCP协议等方式应用到更多场景。应用层面上,有些长尾场景得到了覆盖,比如从浏览器信息助手到执行动作的转变:过去只是提供答案,现在能帮助完成动作。生态层面也降低了一些成本。”
“过去厂商比拼模型参数,现在还要比拼模型加生态工具的组合能力,市场竞争焦点已经发生转移。”
但这其中,以Manus为代表的通用Agent类产品一直饱受争议。
一方面,资本甚是青睐,另一方面,用户诟病不止。直到最近,Manus先是跑路,把公司总部从国内搬迁到新加坡,随后推出了WideResearch产品,再之后又被曝出将可能因为安全审查问题被强制撤销融资。
在整个赛道中,炒作了大半年的Agent概念,也开始面临越来越显性的质疑。
王显向知危详细解释了为何WideResearch缺乏竞争力,“第一,WideResearch确实提高了并行处理的效率,但也非常消耗计算资源和调用额度,所以它的定价非常贵。”
“第二,没有看到它与单体高性能的DeepResearch在性能准确度、成本效率上的公开对比或测试,所以不能确定它在使用大量并行任务后,效果是否真的得到提升。”
“最重要的一点是,它仍然没有解决场景壁垒的问题。”
“它没有专业数据、没有专属工具链、没有行业认证、没有与业务深度绑定的集成,也没有与高价值业务场景的绑定,也就是任何人都能做。所以,它更偏向工程能力的延伸,而不是在构建场景护城河。”
“当然,早期采用浅而宽的策略来获客没有问题,但长期来看,Manus无法抵御模型厂商的下沉和垂直厂商的渗透。”
“所以在我看来,Manus自始至今,从产品角度而言,思路是完全失败的。”
AI技术专家和创业者陈为也基本持一致的观点:“WideResearch的本质是‘规模化通用任务执行器’,效率高,但没有解决‘决策’问题。”
“用户会发现,当他们遇到真正复杂的问题时,这个通用Agent还是帮不上忙,最终不得不转向专业的垂直产品或人工服务,导致用户留存率不高。”
如果扩大到任意的通用Agent,则它们都具备一个看似有吸引力但实则致命的特点:任务范围模糊。
知言吉智CEO付瑞吉向知危表示,“任务范围模糊一定会对产品带来不利的影响。一方面,当一个Agent宣称能做所有事情时,它往往在任何一个领域都做不到最好;另一方面,任务范围模糊,意味着用户对于这个Agent到底能帮自己解决什么问题也会有困惑,那么这个产品的认知成本就非常高。”
Agent泡沫的资本逻辑
付瑞吉进一步向知危解释了近期Agent泡沫兴起的创业者心态:“大模型的出现让大家觉得开发门槛降低了,感觉‘人人都能做Agent’。许多开发者和创业公司认为将其包装成一个能解决各种问题的‘超级助手’,能迅速吸引大量C端用户。通用型Agent的核心卖点就是‘解决所有问题’。但现实是,目前为止没有任何一个Agent能真正做到这一点。”
王显更是认为这场泡沫的兴起是创业公司和资本共谋的产物,“Manus根本不是在做产品,而是在走资本路线,通过不断推高市场知名度以获得更高融资。至于创始人是拿到融资后真正深入场景做产品还是卷钱跑路,只有创始人自己才知道。产品非常失败,但营销可以说非常成功。”
付瑞吉补充道,“营销只能负责将大众的注意力吸引过来,但Agent不同于内容类的产品(如短视频)只要用户的注意力就够了,它还是要解决用户的实际问题的,如果用户发现产品‘华而不实’,则很难留存。”
沐瞳科技大数据负责人薛赵明则认为这种产品模式有一定合理性,但还是要区分ToC和ToB的逻辑,“ToC和ToB是两种逻辑,ToC需要具备多样性,这个多样性也代表了用户选择的多样性,产品力不足的会很快在市场的浪潮中褪去,因为这是一个非常烧钱的赛道,没有用户的沉淀和付费是很难长期坚持的。ToB又是另一个商业逻辑,必须强调可落地和可交付,否则便是无用的。”
王显以WideResearch为例解释了为何通用Agent产品现阶段对于企业用户无用,“对于企业而言,WideResearch并没有说明Agent是如何分工、如何合作、如何整合各自结果的,它们之间的协调协议和调度机制也不明确。那我最后怎么去做审计呢?作为企业,我必须审计这个过程是否合规,以及在执行过程中到底发生了什么。所以我没办法信任它给出的最终结果。”
“尤其是在金融行业,我们可能花了很长时间跑出一个结果,如果它直接告诉我买哪只股票、投哪家公司,我不可能只凭这个结果就去执行。”
Manus虽然接受了中外多个基金的投资,但运营主要面向海外市场,而且总部已经搬迁到新加坡,其代表的只是Agent泡沫的一小部分组成。
但聚焦到国内,情况也并不乐观,甚至可以说有太多相似之处。
薛赵明表示,“实际上,当前无论是创业公司,还是一线的云厂商的产品,大部分的产品都还是在一个特定场景下去演示,真正的规模化落地还是偏少。”
张森森表示,“国内很多Agent产品功能繁多,但基本都是快速堆叠,痛点不聚焦。”
“比如有大量集成了写文案、做PPT、查资料、生成图片等功能的产品,不乏大厂参与其中。它们都有通用Agent的特点,功能多但不精。写代码准确率不高,数据分析缺少可解释性,设计产出质量参差不齐。初次使用可能觉得新鲜,但要长期依赖则难以实现。很少有明确与工作流、KPI绑定的可交付结果。”
“具体到一些金融类工具型APP(公司主体一般没有正式的金融业务牌照),比如炒股平台,会提供所谓的智能投顾功能。当我打开某只股票时,它可能提示该股票出现‘红三兵’,未来可能上涨,但这样的判断缺乏准确性。”
“因为它只是摘录过去的一些市场信息,而二级市场的信息来源非常多,决策点也很多,这类产品完全无法体现这些复杂因素。看起来像是做了一个智能投顾,但实际上既没有真正实现投资组合优化、风险控制,也无法对接交易系统,无法支撑其宣传的定位。”
“目前市面上没有一家能真正把智能投顾功能做好。实际上,大部分经纪公司都有相关部门去做这件事。问题在于,一方面他们觉得必须做,另一方面看到大模型似乎能解决问题,就开始投入开发,完成后立刻做宣传,声称接入了大模型并具备某种能力。”
“但这里的问题在于,他们的宣传能力与实际能力并不匹配,并非能力完全无用,而是存在明显落差。”
王文广表示,“成功演示的往往是任务中那20%的标准化部分,而真正构成工作核心的,是那80%的、充满‘长尾异常’的复杂现实。”
就连大家目前普遍主动或被动接触过的AI搜索,其实也还很初级,JinaAI前CTO王楠向知危表示,“Agent目前能够多轮使用简单工具或者单轮使用复杂工具,但是多轮使用复杂工具(例如搜索工具)的能力还没有达到生产可用。从BrowseCompBenchmark上看,搜索大模型在使用搜索工具方面还有很大的提升空间。这种差距的原因在于大模型在使用通用工具上的能力还没有迎来ChatGPT时刻。”
白鲸开源CEO郭炜向知危总结道,“目前整体来看,各种Agent产品给人的惊喜度确实不够。因为现在Agent技术本身还没有进入成熟或真正可用阶段,技术生态不完善。甚至关于Agent的理念,大家都还没有想清楚。”
“国内大多数所谓的Agent其实并不是真正的Agent,只是为了吸引眼球而这么命名。在我理解中,能够替代ToBSaaS和ToCAPP的那种Agent产品还没有出现。国内品牌都是如此。”
“换句话说,现在的Agent大多是套了自然语言交互外壳的RPA(软件机器人流程自动化),普遍缺乏深度。那为什么不直接用RPA呢?RPA还没有幻觉。”
这种“名不副实”的现象,王文广指出,是所谓的“智能体洗白”(AgentWashing),在行业中已非常普遍。“
这是‘能力泡沫’的直接产物。公司利用市场对‘Agent’一词的追捧来吸引投资和用户。最直接的例子是,有权威报道指出,全球几乎所有在2022年底ChatGPT之前就在所谓的RPA等赛道上有所成就的企业,都在挂智能体的羊头卖RPA的狗肉。”
Gartner今年6月的市场分析报道表明,其在测试的‘数千款’所谓的Agent产品中,只有约130款真正符合标准。
“所以,可以做个简单的排除法,寻找智能体或大模型落地的供应商,首先排除掉以往做过RPA的企业,这可以避免一半的坑。投资也是一样。”
王文广还总结了C端和B端Agent泡沫的一般特征,“ToC泡沫主要由对‘通用个人助理’的梦想驱动,ToB泡沫更多是由企业的提高生产力、降低成本的焦虑所驱动。”
“ToC的这种愿景极具吸引力,容易引发病毒式传播和媒体的广泛关注,从而在短期内催生出极高的估值和用户增长预期,但当产品体验达不到预期,用户会毫不犹豫地离开。”
“ToB领域则由于企业软件的销售周期长、决策链条复杂,并且一旦部署,即使效果不佳,替换成本也相对较高,从而显得其泡沫更具欺骗性,也更慢地显现。”
如果将国内外的Agent泡沫现象综合起来,则又是另一番景象。
张森森解释道,“国内外的Agent泡沫表现并不相同。比如美国,其优势是在B端,但泡沫不在B端,而是在C端,一些通用型消费级助手类Agent的投资方可能来自硅谷大基金。这些机构在早期投资时,美国对数据安全还没有严格限制。但随着数据隐私法比如GDPR、CCPA等监管措施落地,尤其是在跨境场景下,AI的安全审核要求变高,很多竞争者被迫增加合规与差异化投入,结果加快了行业洗牌速度,把不少做通用型APP的企业淘汰出局。”
“国内的泡沫很特殊,虽然用户集中在C端,但泡沫几乎只存在于B端。原因是B端企业受补贴、国产化等政策影响,同时市场内卷严重,用户更注重实用性而非炒作。B端用户相对冷静,因此很多ToB初创公司迅速倒闭,一些去年还在讨论的公司今年已经消失,泡沫破灭速度会很快。”
Agent产品缺陷的根本原因
当前的Agent产品普遍缺陷明显,可以从产品、工程、场景等多方面理解。
产品层面主要是可靠性不足。对于为何大部分ToCAgent产品中,90%的用户用一次就离开,郭炜表示,“这很正常,因为它还不如直接用APP。真正的Agent应该比APP更方便、更简单。”
“而如果是ToB产品,必须比现有软件更简单、准确、方便。本来用户点三下鼠标就能完成的事,现在用Agent却要用自然语言先说一句话,然后再跟它说十句话,才能替代原本三次点击的工作。这样的体验让人宁愿直接点鼠标。”
王文广表示,“换句话说,最根本的原因是,对于大多数真实世界任务,用户为验证和修正AIAgent输出所付出的心智成本和时间成本,超过了Agent本身所节省的成本。”
“‘通用个人助理’承诺的是一个科幻级别的未来。其所要处理的任务,如预订家庭旅行、管理个人财务、安排重要会议,都具有一个共同点:高信任要求。例如,用户需要确信Agent不会订错机票、不会泄露财务信息、不会搞砸会议时间。”
“然而,当前大模型的‘幻觉’、知识陈旧等问题和Agent执行的脆弱性,使得其可靠性极低。”
“这种‘高信任要求’与‘低可靠性’之间的巨大鸿沟,或未能稳定地跨越从‘新奇玩具’跨越到‘可靠工具’,是C端通用Agent无法获得用户长期留存的根本原因。用户可以容忍一个聊天机器人讲错一个历史知识,但绝不能容忍一个Agent订错一张机票。”
而且目前Agent产品有从订阅制走向按结果付费的趋势,这其实也给通用Agent创业公司带来了压力。“这种商业模式的演进,本质上是一次风险转移,将产品无效的风险从客户身上转移到了服务提供商身上,而ToC的通用Agent的不可靠性使其极难承受这种风险。反倒是ToB领域,可以选择合适的场景,通过效果所创造的价值进行分成,是有利的。”
张森森从工程角度总结了许多Agent产品无法落地的原因:“第一,真实环境非常复杂,不可能像实验环境那样数据干净。现实中数据质量往往较差,接口口径不一致。”
[fancyadid=”45″]
“第二,很多接口需要跨系统权限访问,要做SSO(单点登录),还涉及数据脱敏,这些环节很容易卡住,导致平台间的对接受阻。工具本身存在脆弱性,比如浏览器系统自动化可能对DOM版本极其敏感,API的速率限制等问题也可能导致频繁重试。”
“第三,存在状态和记忆缺失的问题。就像长链路任务中缺乏持久状态,上下文无法保存,状态机失效,无法接着上次任务继续,只能从头开始。”
“第四,缺少验证和回滚机制,没有二次校验或回滚策略。”
“第五,SLA(服务商与客户之间对质量标准、性能指标等的约定)和成本存在约束。企业使用时必须考虑成本,服务需要有保障,确保TCO(总拥有成本)大于业务收益。”
“第六,缺乏合规与审计能力。生产过程要可追溯、可解释,并具备权限与操作流程控制。但在各个平台的演示中几乎看不到这一点,而这恰恰是企业最重要的需求。”
在场景层面,郭炜认为,这个原因可以非常简单,“没有真正深入到用户场景中去做。”
“大部分Agent仍是由处在特别早期阶段的创业者在推动。但真正有价值的Agent,需要在某个业务领域有深厚积累的人或公司来做。”
张森森持相似观点,“实际上,国内外当前都太把技术当回事了,太关注技术使得大家在做大模型和Agent都是围绕技术来构建的。通俗来说就是,技术有什么东西,我做什么东西。”
王文广补充道,“当前,AI公司往往不了解业务,业务公司则没有准确理解AI智能体技术。对AI方或业务方来说,都应该了解技术边界,知道智能体能做什么不能做什么,同时结合业务,才会做好这事。”
但Agent不只是独立地去攻克一个个场景就可以了,其带来的变革是生态级别的。
郭炜表示,“Agent本身是一个大的生态,就像软件或SaaS生态一样。未来它会形成一个完整的生态体系,只有这个生态真正建立起来,才能形成所谓的AgenticStack,在Agent时代承接并转化原有生态。”
“这个生态规模很大。以ToC的手机端为例,目前手机端还没有出现通用型APP,需要在垂直领域中出现对应的Agent,例如类似国内的携程、小红书等级别并且更方便的Agent,才能支撑起生态的第一层。”
“生态的第二层才是通用型Agent,通用Agent的核心在于入口,例如AppleIntelligence就是一个入口。”
“而入口之争本质是流量之争,而不是技术或产品本身。谁能够抢占新一代Agent的流量,谁就能在通用Agent领域占据优势。”
从这个角度看,似乎Manus的流量打法也有一定的合理性?但王显并不这么认为,他指出应用层的创业公司没有机会去抢占这个流量入口。
也就是说,创业公司无法绕过生态的第一层,直接跳到第二层,成为流量入口。“创业公司现有的Agent产品要结合到生态链中去,比如苹果或者微信的生态,再把AI能力融合进去,相当于通过AI对已有生态链做增强。要实现这一点,要么拥有场景,要么拥有数据。”
如果想直接跳跃到第二层生态,就会面临Manus当前的困境,“从用户视角来看,Manus这类产品已经出现用户数量下滑、使用意愿不足的情况。无论是创业公司还是老牌公司,首先要解决的就是生存问题。产品必须有正向ROI,要能价值兑现,且使用成本不能太高。但Manus的产品正好存在价值兑现不足的问题,而且时间、学习和金钱成本都过高。”
王显还认为,流量入口也不是OpenAI这类公司的发展方向。“OpenAI是创业公司,但也是大模型厂商,肯定不会去做流量入口。相比Anthropic、Google,OpenAI更面向大众,比如ChatGPT、Sora这样的产品,特征是注重体验、规模化和生态扩展。他们的目标是底层基础设施供应,同时在C端和长尾B端场景做推广。”
郭炜表示,“像苹果这样的公司,天然具备优势去打造移动端的完全通用型Agent。理想状态下,用户只需说一句‘帮我订一张去上海的机票’,通用助手Agent就能自动调用多个APP或Agent服务协同完成整个流程。”
“在ToB领域也是类似的逻辑,每个垂直方向的SaaS都会出现对应的Agent,需要是真正意义上属于Agent时代的软件,之后才会出现入口级通用Agent。否则,入口级通用Agent即使想做,也无法与底层垂直领域的Agent有效衔接。即便使用MCP的Server来连接,中间也会损失大量信息,导致结果不准确,无法满足客户需求。”
“现阶段应优先在垂直领域启动Agent落地,无论是ToB还是ToC,都应在原有赛道中先行深耕,逐步培育生态。”
Agent发展限制
以上,我们描述了Agent泡沫的总体情况,可以看到,造成这一现象的根本,还是在技术受限、行业规律甚至一些痼疾的背景下,创业公司和大厂对Agent产品在生态中的定位有着错误的认识。
接下来,知危将对这些背景进行更加细致的阐述。
其中,技术受限包括MCP协议限制、AI幻觉限制、多智能体扩展限制、上下文长度限制、大模型智能限制等。
行业规律、痼疾则指向资本炒作、大模型行业竞争的残酷规律以及国内特有的老问题。
Limit1:MCPvsA2A
郭炜表示,“关于使用MCPServer会导致信息损失,这一点非常重要。最终,Agent应该采用A2A(AgenttoAgent)的协议,服务于垂直Agent之间的通信,才能完整完成任务。”
“而MCP是通用Agent与外部数据源之间的通信协议。当调用MCP时,不可避免地会将自然语言信息转换成结构化的query或结构化的ADB请求来执行操作,这一转换的准确率需要由调用方来保证。但通用Agent要在专业领域内准确地将专业词汇翻译成精确指令,再交由原有程序执行,在现实中非常困难。”
“以我们正在做的DataAgent为例,这项工作需要较长时间推进,因为必须自底向上完成建设。过去的数据底层通常是裸数据,例如CSV文件,里面是各种原始数据。未来需要将这些数据转化为带有语义的ContextualDataUnit(CDU),才能被上层Agent有效消费。因此必须了解企业所有表的字段含义及数据意义,需要非常专业的数据获取厂商来完成。”
“例如,‘消费金额’必须明确对应哪个系统、什么业务的消费金额,Agent才能理解。否则,如果上层Agent仅接到‘获取消费金额’的指令,它必须再去解析并定位到Salesforce系统中的特定交易表及其规则。比如让MCPServer将请求翻译成SQL再下发到Salesforce查询数据,但它并不知道‘消费金额’在当前语境下的具体含义,是来自Salesforce、SAP,还是其他系统。它甚至不了解Salesforce、SAP分别是什么。”
“这不仅是当前Agent技术无法实现的,甚至人类在缺乏上下文的情况下也很难完成。”
“因此,通用ToBAgent并不是‘在MCP上套一层通用Agent’就能实现的,而必须由基于A2A的多个专业领域的Agent相互协作(Agent+Agent)实现。”
“相比之下,提示词专业性、token成本爆炸等都是更加次要的,会随着时间自然解决。”
Limit2:AI幻觉限制
Agent还有一个永远无法解决的问题,那就是底层大模型的幻觉。已有研究证明,大模型无法从理论上完全消除幻觉。
“在现有大模型技术下,有许多场景尝试进行完全Agent化,但效果并不理想。”
“以自动编码为例,各种号称能够代替人类编码的工具,无论是带Agent的ClaudeCode、Cursor,还是AugmentCode等,都无法真正替代程序员的工作。无论是初级、中级还是高级岗位,都仍需配备人类程序员进行检验和监督。否则一旦幻觉出现且缺乏有效控制,风险极高。例如,近期某公司在使用自动化工具Replit时出现误操作,导致数据库被删除。”
“目前也没有特别好的方式来自动定位和追溯幻觉。在校验中,虽然无法校验所有环节,但可以抽检一两个关键点,并用传统方法或知识库进行纠错和约束。”
“幻觉在前期沟通阶段有一定优势,因为它可能带来一些创新性想法。但在企业落地执行阶段,应尽量控制甚至避免使用大模型。在Agent执行任务时,为缓解幻觉,只有借助workflow才能保证足够的确定性。”
“总之,大模型和Agent在目前更多是作为效率工具,显著提升了开发能力。例如,我自己现在几乎没有时间写代码,对一些新发布的Python函数也不了解,但大模型能够知晓并直接为我生成代码,还能解释逻辑。这样我只需验证逻辑是否正确并运行,就能快速完成任务。这种方式不仅比我亲自编写代码更快,有时生成的算法思路甚至比我原本设想的更好。”
王文广指出,思维链的幻觉其实在Agent产品中也非常常见,“这通常被称为过程幻觉,即AI编造了一个它并未执行或执行失败的操作过程。”
“它输出的不是真实的操作日志,而是它生成的一个‘看起来像是成功了的’操作日志。例如,它声称‘我已经成功运行了测试,所有测试都通过了’,但实际上它可能根本没有能力或权限去运行测试,或者实际测试运行失败了。”
“从这点也可以看出,在许多情况下,单纯依靠大模型,存在非常多无法解决的问题。如果把所有问题当做一个平面,大模型能够解决的问题是平面上的布,无法解决的问题是孔,那么可以看到,这个平面是千疮百孔的。”
Limit3:多智能体扩展限制
在Agent框架设计方面,目前领域内有一个被过分炒作的概念,那就是多智能体。
当前实际应用中,智能体之间的交互主要限于两个智能体。编程体验后来居上的ClaudeCode也没有使用多智能体协作机制。
张森森表示,“单智能体或双智能体已经能覆盖80%的企业业务场景,此外,限于双智能体也是出于成本考量。”
“具体来说,多智能体会显著增加复杂度,容错设计难度提升,开发、维护、算力成本更高,收益和成本不匹配。引入更多智能体未必能提升效果,同时也难以抵消延迟,并会使得系统更加不稳定。用户体验最终取决于响应速度,稳定性方面,智能体越多越容易跑偏,可能出现循环对话、信息丢失等问题,还需要额外监督和约束,复杂度会越来越高。”
“多智能体的案例也有,比如一些游戏公司在做AI团队游戏,在沙盒环境里尝试多智能体交互。但对大部分企业而言,并不需要这种复杂度。”
王文广补充道,“虽然在一些对协调和优化要求极高的特定领域,已经出现了更复杂的、已实际落地的多智能体系统案例,但绝大多数情况下,应该优先解决简单的问题。”
Limit4:上下文长度限制
基础模型能力方面,当前非常核心的一个限制还是上下文长度。虽然OpenAI、Anthropic、谷歌等AI公司一直宣称模型上下文达到数十万、上百万token,但Reddit社区反馈其中水分很大,有时几万token输入下,模型准确率就大幅下降。
张森森表示,“实际体验来看,大部分厂商宣称的上下文长度确实水分很大,别说两三千行代码,甚至一千多行时就开始丢失信息了。”
“上下文长度代表了基础模型能力的天花板,特别在CodingAgent场景中,基本就是硬天花板的程度。”
“在企业内部优化这个问题不仅很难,而且也不是靠企业自己能完全解决的。可选的方案有:代码检索以及更加智能的代码检索;动态上下文管理,只加载与本次修改相关的依赖文件。但这些都治标不治本。”
“对资深程序员来说影响不大,他们能很快发现逻辑缺口。”
“但对初学者来说,一旦项目规模大,IDE频繁加载就会崩溃。项目规模一大,就会涉及很多模块和依赖,甚至是跨模态的复杂系统。模型不得不频繁丢失上下文、重新加载信息,导致迭代过程完全断裂,忘记之前的决策,甚至可能出现重复造轮子的情况。”
郭炜补充道,“当前的限制不仅来自模型本身,还与底层芯片架构有关,包括显存、外部存储等都需要进一步提升。”
王显认为,在硬件基础设施的限制下,上下文长度瓶颈对于国内而言将是更严峻的问题。
“国外芯片比如英伟达H100、A100这样的高端GPU,能够更高效地进行分片计算,处理几十万、上百万token上下文。同时它们也有软件层面的优化,比如FlashAttention工具、针对张量计算的优化配置等,这些都是通过软硬件结合来提升性能的。”
“相比之下,国内主要通过算法优化和软件工程做一些‘曲线救国’的工作。类似的,DeepSeek、Kimi等团队也在发布各种上下文剪裁、分层记忆、稀疏Attention等方法,其实都是一些面向低成本的方案。”
“一些国内厂商号称自己的高端GPU在浮点性能、显存、宽带等各方面和H100很相近,但其实还是有很大差距的。国外的顶配集群,比如H100加NVLinkSwitch,能轻松地应对百万级token推理。”
王文广表示,“实际上就是AI芯片的存储容量和带宽限制了推理的极限,不管是国内外都是这样的。”
“HBM是通用GPGPU最好的选择,但专用的推理芯片有很多不同的路线,比如使用3D堆叠的专门的AI芯片。
“国内有一些如CiMicro.AI这样非常前沿的AI芯片公司,和寒武纪、华为、海光等走了不同的路线,将3DDRAM用于AI推理芯片上,如果成功流片,带宽能够得到极大的提升,比英伟达用的HBM还高一个量级,从而大模型的推理速度将得到极大的提升,长上下文和深度思考则会对Agent有极大的促进。”
Limit5:智能上限限制
除了上下文长度之外,更大的限制,自然来自基础模型的智能极限了,特别是近期被诟病平庸的GPT-5发布后。
客观来看,GPT-5的更新点是在产品层面,把幻觉降得特别低,这在消费级用户看来不太友好,但对编程来说非常有用,可靠性很高。对于专业用户而言,有时甚至比Claude4还好用一些,因为GPT-5在AgenticCoding中倾向“精准定位问题”和“最小侵入修改”,而Claude4自主性更强,写的代码更复杂,需要特别提醒才会选用最简方案。
那么,从这个角度看,一直以消费级用户为主体的OpenAI未来是否想更多向B端推进?
张森森表示,“如果是,那也是不得已而为之。现在GPT-5是通过多模型路由来提高上限,基本意味着大模型的ScalingLaw几乎已经失效,单模型上很难再高效提升。其实GPT-5的发布本身就有点‘难产’的意味,更像是一种形式,而不是自然的过程。未来基础模型能否进一步进化,还需要观察。”
“这也是为什么大家都在强化Agent能力。相比基础模型,Agent的可解释性相对更好一些,能更好结合具体业务场景去提升实际能力。但基础模型往往也决定了Agent的上限。”
“后面大模型的走向可能更多会朝垂直方向发展,参数量未必再无限增大,而是聚焦在更细分的场景。”
大模型厂商经常在营销中刻意忽视模型当前的智能上限,而过分强调可以放心地依赖大模型全权执行工作,比如Claude甚至介绍了一种简单粗暴的使用经验,他们内部用ClaudeCode写代码的时候,有一个原则就是“不行就重来”。
王文广表示,“‘不行就重来’的策略,跟金钱和时间等无关,跟解决问题的复杂程度有关。简单来说,在原型探索阶段或者简单的应用中,是一种有效的捷径,但在严肃的、可维护的较为复杂的生产环境中,这是一种不可持续且极具破坏性的工作模式。”
对于基础模型本身,王文广则认为还会继续进步,“整个Agent生态系统,也都在等待基础模型的下一次重大突破。一旦新的、更强大的基础模型出现,它将立刻抬高整个Agent生态系统的能力天花板,催生出新的应用。”
Limit6:行业限制
除了工程和模型层面的技术问题,在行业层面,还存在几大问题,包括资本叙事泡沫、基模公司挤压、国内ToBSaaS的痼疾等。
张森森表示,“目前Agent赛道处于资本和叙事先行的阶段,VC过于乐观。但Agent实际可用性仍然较差,没有看到正向ROI的落地,总体拥有成本(TCO)明显大于收益。”
“投资热和用户体验背离的原因在于,投资端和市场更追求故事性,喜欢‘通往AGI的必经之路’、‘下一代操作系统’这样的愿景或字眼。”
“特别是早期投资人,更关注潜在市场规模和抢占入口的速度,而不是急于影响盈利,所以他们愿意把钱投在某类Agent上。”
“但资本存在一种盲目的信任。”
“很多投资人是从APP市场走过来的,相信有一天会出现一个Agent平台,形成类似微信、iOS级别的生态垄断。因此他们不愿意错过机会,而且存在‘你不投我就投’的竞争心理。”
“尤其是在当前市场环境下,资本方其实没有其它方向可以投。Agent类项目就成了几乎唯一可以投资、还能击鼓传花的故事。”
“所以,有些产品即使不行也会被拿出来讲故事。因此融资估值并不与实际产出效率挂钩,而是与产品覆盖面、DAU、MAU等指标挂钩。思路是先铺量,后续再做深。在公司内部,大家讨论的也是未来的提升,向老板讲的也是未来的故事,所以只要能带来可见的效率提升,大家都愿意试用。”
“在国内还有一个特点是,普通大众和客户对早期产品的bug和漏洞容忍度相对较高。”
“所以,投资端看到的是未来潜力,和当前体验之间存在时间差,这是客观存在的。但如果用户端的体验长期上不去,投资端很快会降温。这是一个动态博弈的过程。”
基模公司挤压则是Agent赛道乃至整个AI赛道过去、现在和未来都将一直面临的不确定性压力。
张森森表示,“大模型发展速度极快、日新月异,作为Agent供给侧给应用层带来的冲击很大。很多厂商,特别是千问、豆包等,每次迭代都会能力下沉,抹平通用层的一些差异,压缩了最初创造通用应用的生存空间。”
“GPT-5也有类似趋势,比如他们希望做教育改革,用AI帮助用户学韩语等,而这原本是多邻国、Speaker等平台的垂直市场。”
王文广表示,“通用Agent的通用能力其实来自于大模型本身,绝大多数非基础模型公司做出来的ToC产品,其实都不具备壁垒,这导致ToC的产品最终有很大概率是被基础模型公司收割的,OpenAI最新的AgentKit就是一个现实的正在发生的例子。”
业内普遍认为,类似Manus这类公司,实际上处在模型层和垂直应用层之间非常薄弱的工具层,但模型厂商和垂直厂商都容易对工具层形成挤压,所以它的竞争优势会非常脆弱。
王显表示,“不仅如此,虽然我是Cursor的长期付费会员,但也感觉到它的脆弱点很明显。”
“Cursor的优点在于交互体验确实比较好,比如内联对话、上下文定位等,早期的Cursor可以借此获得用户和粘性。”
“但Cursor没有生态绑定。而大厂比如微软有自己的生态,可以通过VisualStudio等工具形成绑定,再加上品牌信任度,大厂的关注度只会越来越高。或者一旦CloudCode、CodeX等在大厂工具的交互层做一些优化,Cursor的针对性就会被稀释。”
“所以,如果Cursor想维持优势,就不能只停留在交互和优化层面,而是必须和上下游开发流程深度绑定,走向更完整的产品闭环。例如:针对特定编程语言、框架和行业开发场景,提供深度优化和高精度上下文处理;绑定开发流程的全链路,从规划、生产到测试、部署都做集成;做成快速迭代、全流程协同的工具。”
王文广补充道,“大模型本身就带来了人机交互的变革,所以当前过多探索所谓的人机交互带来的价值不大,更重要的还是用大模型来解决实际的问题。”
资本叙事泡沫、基模公司挤压是全行业面临的普遍问题,但国内实际上还面临更多的限制。
要理解这一点,就要深入探讨前面提到的国内外Agent泡沫差异,在大模型和Agent时代,这个泡沫衍生出许多新的表象,但背后藏着不少老问题。
郭炜表示,“在国内做垂直Agent与在国外相比,困难并不主要来自Agent技术本身,而是行业环境的老问题。这与做SaaS或软件是同样的逻辑。”
“国内本身缺乏大型软件公司,SaaS发展也并不成熟,这使得软件的整体价值感尚未充分体现。由于人力成本相对较低,软件在提高效率方面的价值不够凸显,继而Agent的价值也就难以被充分认可。”
付瑞吉表示,“国内各行业SaaS普及率低、软件生态割裂,导致不同企业情况各不相同,使得Agent的开发也不得不做大量定制,开发成本高。”
郭炜补充道,“毕竟Agent并不是凭空出现的一种全新事物,而是原有软件形态的延续,无论是APP、SaaS,还是其他类型的软件。
张森森表示,“国外SaaS的理念和逻辑与中国不太一样,更强调结果(result)和集成(integration),注重整体集成度。特别是在北美、欧洲等地区的企业,更倾向于使用成熟的SaaS产品,很少自行研发,因此他们的接口基本都是通用的。”
“在这种情况下,国外在做Agent案例时更多考虑如何使用成熟的API协议,比如将MCP、A2A协议与现有的ERP、CRM进行集成,这对于他们而言成本相对较低。”
“国内软件生态更多是企业自研,而且企业与企业之间的协议差异很大,甚至同一企业内部的协议都可能不统一,数据打通难度极高。在这种复杂环境下,很难做出标准化、可复制的企业Agent。即使在A企业验证成功,迁移到B企业时也很难快速部署。所以可复制性和大规模扩展性在国内ToBAgent的发展中被严重抑制,这是目前的关键制约因素。”
“这种情况下,企业很多时候不得不重复造轮子。”
“目前来看,只有方法论层面的东西是可复制的,比如流程设计思路、Agent架构方法论等。但真正落地到企业使用层面,差距依然很大。”
既然各家企业都需要大量做自研,自然大概率会走向全栈型或通用型方向,很难推出在垂直场景中做出有突出竞争优势的产品。“所以,相比之下,国内更强调速度和覆盖率,因为市场很内卷,企业更倾向于快速占领用户心智,并尽可能覆盖更多场景。”
“或许未来随着类似MCP等协议的发展,情况会逐步改善,但至少在短时间内,我个人的判断是消极的。”
扩展到ToB、ToC和出海市场,则呈现普遍沉重的生存压力。B端SaaS基础不足,限制了Agent的发展,创业公司无法接入生态,只能转战C端,C端虽具传播性和资本叙事优势,却竞争激烈、留存差,因而最终企业纷纷选择出海,通过海外市场借力算力、合规与融资以谋求突围。
张森森表示,“国内B端用户情绪冷静,原因在于B端和C端用户诉求完全不同。企业采购强调ROI要明确,流程必须可控,功能要能管控。而通用Agent的案例往往任务定义模糊、场景识别度低、价值难以量化,所以很难支撑持续付费。”
“现在B端的通用型Agent多半是销售包装出来的。你会看到很多号称‘企业端UI’、‘企业教育智能体’等,但真正拿到企业流程里用时,问题就暴露出来:性能稳定性不足、合规性不过关、可追溯性差。”
“真正能活下来的,一定是垂直+深度集成的方案。既要利用Agent的灵活性,又要在某个行业里做到合规,同时结合企业的需求与机制,这样才能真正落地。”
王显表示,“但相比国外,国内做垂直Agent是很困难的。垂直Agent要深耕某个领域做大做强,在国内很难搞,因为要穿越各种壁垒去获取数据,但国内金融、医疗、政务等行业的数据壁垒很高,合规审核很严格和复杂,即便企业愿意开放数据也要经过多次审批和脱敏。”
付瑞吉表示,“在国内获取高质量的垂直数据面临诸多障碍,比如高质量医疗数据分散于医院而无法共享。”这一点知危较有体会,在与多位行业内医疗AI专家沟通时,经常提到的最大痛点就是数据隔离。
王显继续说道,“所以,国内大模型的训练速度就比国外要慢。”
“相比之下,国外很快就开始构建垂直Agent。垂直领域的初创公司就可以直接使用OpenAI这种公共API,但国内只能私有部署大模型,速度就进一步慢下来。”
“甚至可以说,国内模型厂商现在都主推的开源和轻量化大模型的策略,其实刚好是适应了国内的特有情况。”
“更令人担忧的是,大模型发展后期,国内大模型的发展会面临更加严峻的挑战,因为整体数据集质量太差了。”
“其次,客户差异、需求差异和定制化成本也比较高。”
“国内的同一垂直行业的不同企业,具有上述的ToBSaaS行业的所有缺陷,没有统一的标准化接口。比如国内的CRM系统到底有多少个?随便在网上搜一下,就是成千上万,甚至到了每家公司里面还要再定制,做私有化、二次开发。”
“而国外的Agent或垂直模型只要适配统一的标准化SaaS,即可覆盖大多数企业的业务场景。在这样的环境下,Agent的复制性和扩展性要比国内高得多。”
“第三是大厂作风,国内的行业生态也是封锁的,大厂都倾向于自建。头部企业也是自己做垂直Agent,不会跟其他公司一起做,使得创业公司很难切入核心的场景,无法接入行业生态。”
“相比之下,国外其实有很多开放生态与第三方市场的土壤,所以小公司与中小公司是有机会去做某个垂直细分领域来生存的。”
“最后在商业化周期上,也存在明显差异。垂直Agent的特点是落地初期需要长周期的行业积累和客户教育,本质上是‘慢工出细活’。国内投资环境,整体上缺乏耐心,更追求短期回报。这对垂直Agent不太友好,因为它们很难在短时间内看到显著的商业回报。”
“最终,因为ToB的场景成本和投入太高,实现的可能性太低,可复制性太低,导致整个中国市场更倾向于做ToC,而且ToC是最容易跟资本讲故事的。”
“但我看了一堆ToC产品,可以说没有一个产品是真正能让人持续付费订阅的。”
而为什么国内有很多企业在做ToC端的出海,甚至Manus把公司总部也搬迁到新加坡,也就不难理解了。
王显表示,“为什么那么多企业选择在海外做,有多个原因。”
“第一,国内市场竞争压力大。以Manus这类产品为例,国内通用型Agent产品很容易被竞争厂商或大厂快速复制。核心功能可能在一夜之间被模仿,导致差异化难以维持。”
“第二,用户群体的流失和留存。国内用户更容易切换到更好的同类产品,这是国内市场的一个特点,即产品的替代成本较低。通用型C端Agent往往具有‘一次性体验’的特征,缺乏复用价值。早期如果用户主要来自国内,一旦竞争加剧、出现价格战,产品在国内的战略市场会很快消失。”
“第三,Manus等公司会考虑数据隐私监管、算力供应等方面的问题。海外算力供应条件更好,国内算力会有‘卡脖子’问题。而且,要对标国际市场的话,新加坡无论是金融还是国际业务、跨境支付、多语言市场,都是一个比较好的纽带,往下走可以下沉到东南亚市场,往上走可以进入欧美市场,新加坡的国际型人才资源也是比较好的。”
“第四,方便做融资,迁到新加坡可以降低很多海外用户的数据安全需求。GDPR、CCPA等法规在新加坡对Manus的影响程度,肯定比在国内要好一点。虽然新加坡在东南亚市场也有相应的数据安全法规PDPA,但也会比国内要松一点。”
“第五,基础模型的差距还是存在的。搬迁到新加坡后,可以跟Amazon、OpenAI、Anthropic等公司合作,更方便地使用他们的API服务。这些服务在国内目前还是远超于DeepSeek、千问等模型API,能形成产品能力的补强。”
虽然此举可谓“机智”,但王文广并不认为这样做有足够意义,并指出了更为残酷的未来,“ToC的Agent,我认为,除了在中国和美国,其他地区毫无意义。”
“并且,在美国市场,通用Agent的生态位已经被基础模型厂商自己提前占据了。在中国,也很快会收敛到这个状态。因为,ToC的通用Agent的竞争力和护城河是大模型本身。”
“在我看来,实际上国内外做Agent都很难。国内做Agent更难的本质在于,硅谷现在钱多,而国内则是钱荒。”
生存规则
在技术、行业限制下,往后Agent赛道虽然泡沫依旧,甚至还会继续膨胀。但长期来看,也将树立起更加严苛的规则,只有顺着规则走,才能继续生存下来。
这些规则包括:在自身的行业认知内构建Agent,采用垂直大模型,权衡workflow和Agent,聚焦核心场景,最终为商业化成功铺路。
Rule1:行业knowhow
郭炜表示,“在行业中做Agent,难点不在于Agent的实现方式,因为从技术角度看,如何做Agent大家基本都能掌握。”
“无论是ToC还是ToB,真正的Agent应该是在行业中具备深厚knowhow的也就是在该行业有丰富积累的创业者或公司来做,而不是简单加一层薄壳。”
“比如在ToB端的通用Agent场景中,例如企业内部办公系统,已有在特定赛道深耕多年的企业具备天然优势。以飞书为例,它原本就有Wiki,并且已经按照体系整理并长期积累了内容。这样在底层上下文已经准备好的情况下,上层无论是通过工作流还是Agent来进行调用和处理,都能够更高效地完成任务。”
“这和APP的发展类似,之前能存活下来的APP,都是在新兴领域和新的交互方式下,出现一些创新,颠覆了原有的APP和生态模式,但它的量级至少要与某个成熟APP相当,解决问题的场景复杂度和提供的便利程度也要相当。只有达到这种程度,才能称为真正的Agent,目前还没有看到这样的Agent出现。”
“如果是纯粹的大模型厂商,为企业提供知识库服务,就会面临反向的挑战,需要投入大量精力将知识库按体系分类、打好标签。而像飞书这样的企业,早已完成了这些基础工作,无需重复建设。”
“我们做DataAgent也是类似的情况。我们的数据系统本身支持300多种数据库,原有的语言数据早已整理完毕,现在的任务是将其语义化,并让大模型能够理解。反观某些厂商在做DataAgent时,并没有如此丰富的数据接口和数据源,只是在上层做一层薄薄的封装,客户自然不会满意,因为数据访问受限,能力差距明显。”
“因此,未来能够在Agent领域做出成果的,很可能不是大模型厂商,而是原有的SaaS和工具型厂商。”
Rule2:垂直大模型
行业knowhow不仅会直接影响企业决策者的方向,也能通过沉淀到模型中,影响产品每一个细枝末节的走向。
从前述MCP与A2A的实际差异,就能看出垂直场景的模型能力对于Agent的重要性,ToB企业的Agent也确实会更加倾向于使用垂类大模型。
薛赵明表示,“因为ToB会带有很强的行业属性,当使用的不是通用LLM而是行业LLM的时候,其实反而是在降低AI的能力要求。在明确场景和规则下,在信息面和结果准确度上会有较大提升。”
张森森表示,“倾向使用垂类大模型的原因主要有几个点,第一是成本优势。通用大模型参数量大,而垂直大模型参数量更小,推理成本更低。”
“第二是幻觉方面。垂类模型更精准,更贴合企业自身的生态环境。相比之下,通用大模型依赖强泛化能力,往往需要更多人工校对,增加复核成本。”
“第三是部署和合规的便利性。垂直大模型更容易私有化部署,更符合数据合规和隐私要求。而通用大模型通常依赖云端调用,企业会有很多顾虑,不敢使用。同时,从可控性和灵活度来看,垂类模型可以针对行业定制,比如设置prompt、模板规则、引擎工具调用策略,从而实现更稳定的响应模式。”
“第四,通用大模型可以通过上下文工程做一些优化,但输出依然存在不确定性和不可控性,所以在ToB产品中运行时会有一定风险。因此,在客服知识问答、流程自动化等场景里,垂直大模型往往更适合。做ToBAgent时常用的策略是,让垂直大模型覆盖大约80%–85%的高稳定性需求,确保稳定可靠;而在剩下15%–20%的复杂问题上,再用通用大模型来兜底。”
从更加长期的角度来看,垂直领域肯定具备更大的商业价值,无论是直观上的经验,还是从数据规模和价值评估。
郭炜表示,“在数据量方面,互联网数据的规模远超企业级数据,差距达到几个数量级。但从商业价值的角度看,企业级数据的含金量更高,其信息熵或信息密度和价值远胜于互联网数据,因为这些数据直接关乎企业自身的经营命脉。”
张森森补充道,“关于垂类数据和互联网数据规模的比较,不同人的说法不一样。通用语料数据可能是万亿级token规模。单一的垂类数据一般在亿级或百亿级,不可能达到万亿级。但如果把所有行业的内部数据加在一起,比如金融、医疗、制造等领域,总量肯定会超过通用网络或通用语料数据。”
“但是,工业互联网的数据大多是垃圾数据,可用于训练的数据很少,尽管它的总量可能比通用互联网数据还多。”
Rule3:workflowvsAgent
当然,仅仅依靠垂直大模型是不够的。Agent的落地面临一个非常考验工程能力的问题,就是workflow和Agent的权衡取舍。
王楠表示,“Agent和workflow有显著的差异,Agent的核心在于利用LLM做决策,动态地构建workflow。相比之下,workflow是预先定义的、静态的。这个区别决定了两者适用的场景不同。”
“workflow由于缺乏灵活性和通用性,其实能够解决的实际问题有限。相比之下,Agent更加灵活、更加通用,能够更好地解决实际生产环境中的复杂问题。”
张森森表示,“广泛意义上,所有存在需求组合爆炸的情况,比如行程规划、医生排班、家政服务等,都是把workflow改造成Agent的契机。如果做的好,可以完全替代人力。”
“如果业务变量数量少、组合有限,可以穷举,就可以把流程固定下来,用workflow。如果环境静态或变化可预期,也可以把流程固定下来,用workflow。但如果变化维度非常多,比如几百个维度同时在变化,再用workflow设计、测试和维护,成本会急剧上升,这时就需要人工决策,或Agent的自主规划能力。另外,当环境频繁变化,比如航班延误、库存波动,Agent可以根据上下文实时调整决策,避免预设流程失效。这时就需要自主Agent。”
“因此,是否用workflow或Agent,要从成本、计算调用和维护成本来考量,特别是在运行环境复杂多变的情况下。”
但在大模型幻觉问题无法完全解决,以及Agent当前智能有限的限制下,想要一蹴而就实现理想决策是不可能的,何况workflow具有更高的确定性,这对于企业而言非常重要。
郭炜表示,“这也是行业knowhow要发挥作用的地方,决策者需要在复杂系统中权衡哪些部分使用固定的工作流,哪些部分进行适当Agentic化。”
张森森表示,“Agent的落地依赖于固有流程,最适合的是小规模的局部workflow改造。流程高度标准化、数据流转路径清晰、任务有明确输入输出,这些都是Agent落地的最佳条件。Agent的作用不是推翻重来,而是嵌入线性流程,做局部改造。这可以理解为‘低摩擦的轨道’,标准化流程本身就是低摩擦的轨道。”
王文广表示,“选择高价值、数据丰富、流程清晰、且允许一定容错(或易于监督)的业务环节,有助于Agent成功落地。”
张森森举例解释道,“比如,金融行业数字化水平较高,流程标准化程度很高,因此是Agent落地的非常好场景。”
“金融行业过去在风控、投研、合规等环节已经有智能化的应用,而Agent在这些环节里主要作为辅助模块嵌入,而不是取代整个业务系统。例如:银行在贷款审批环节使用Agent做资料自动提取,在合规环节做条款比对,在合同、财报数据处理中提取资料并输出审批结论、风险标签。这些环节的输入输出是固定的,比较容易嵌入Agent。”
“如果考虑风险因素,在一些风险高但流程完全可控的场景,比如金融交易、医疗诊断,即便变量很多,也可以在workflow基础上引入半自动化或部分Agent。这类场景对风险的容忍度低,更适合workflow+Agent的模式。但在一些风险容忍度较高的场景,比如旅行规划,就可以直接用Agent,而不需要依赖workflow。”
进一步看,Agent也分两种,工作流式的和自主式的,“工作流式的Agent是把执行规划固定下来,流程相对可控。非工作流式的Agent则可以做自主规划和执行,能自动调用工具(tooluse)与编排,能动态更新上下文,处理长尾和个性化需求。”
王楠补充道,“例如,只有检索-生成的RAG系统,就是典型的工作流式Agent,而具有反思和可以使用搜索工具的DeepResearch或Agenticsearch就是自主式Agent。”
从投资人视角,当前并不看好自主式的Agent,短期也是更看好工作流式的垂直领域Agent,张森森表示,“因为这类Agent在风险回报和落地速度上更有优势,所以这种倾向是合理的。”
付瑞吉表示,“在当前的发展阶段,workflow型Agent更切合实际。基于强化学习的自主式Agent还需要更长时间的探索,也许要等前者的广泛应用,为后者的训练提供大量数据后,才能真正普及。”
而在实际工程权衡下,企业可能还会更加实在,郭炜表示,“幻觉控制非常重要,尤其是在ToB场景中。用户真正关心的是结果,并不在乎是通过哪种技术路径实现的,无论是RAG、Agent+RAG,还是仅用Agent。因此未来的模式更可能是‘Agent+RAG+传统workflow(或RPA)’的组合。”
“这种模式能够在保证确定性的前提下,结合利用大模型和Agent处理与人的交互,以及理解用户意图。”
“Agent的主要作用是进行分工决策,确定由哪个Agent执行任务,以及向其提供哪些信息。但在实际执行阶段,往往是由workflow来完成的,甚至不一定涉及RAG。既然幻觉无法解决,那就尽量不用。”
张森森也认为,这是一个非常务实的方案,“目前企业里大多也是这样在用。”
郭炜继续解释道,“之所以如此分工,是因为意识到,大模型和Agent在场景中解决的最重要问题应该是交付。”
“多数情况下,人们很难准确表达自己的需求,需要通过与大模型多轮沟通,逐步明确‘到底想要什么’,传统软件和SaaS无法完成这种深度、多轮、渗透式的需求挖掘。这一能力在ToC和ToB场景中都同样重要。从个人感受来看,相对于传统搜索,效率提升至少是几倍的。”
“目前,大多数Agent更适合应对一些原本套路化、工程化、重复性较强的任务,并在交互上发挥更大价值,例如与客户对话、深入了解需求,并在此基础上设计完整的解决思路,然后生成RAG或workflow来执行。”
据此,郭炜认为,未来Agent的发展将分为两个阶段。
第一阶段,解决原本由垂直领域工具服务的业务场景,只有在这些场景中做到更高的便利性、更明显的痛点解决,Agent才能真正兴起。“毕竟Agent继承自原有SaaS软件形态,只不过在交互方式和技术能力上有了新的突破。”
第二阶段,在足够深入落地场景后,需要找到创新的切入点。“就像当年同样是做新闻,今日头条找到了全新的切入方式一样。”
“目前国内外并没有满足以上两点的Agent应用。”
薛赵明表示,“当前行业中的Agent产品,在人机交互方面依然很差。OpenAI也提出了2025年是上下文工程的元年,交互能力本质上是上下文理解能力。当然这里面也存在路线之争,比如是更多依赖用户的上下文,还是让模型自己来解决。”
Rule4:核心场景
对于Agent的应用场景,在ToC类场景中,何为刚需还不存在共识,目前整体还比较盲目,更多是围绕技术更新做尝试,而ToB场景已经有较为明确的优先方向。
张森森表示,“现在企业内部最迫切的Agent应用场景有三个。”
“第一,跨系统任务编排与自动化。例如把ERP、CRM、知识库、工单等业务系统通过自然语言连接起来。目前很多Agent只能做到对话式查询,没有形成完整的自动化执行链条。所以缺乏可视化编排和审批机制,企业不敢放心交付关键任务。”
“第二,高可信度的知识问答与决策。目前企业内部大多数Agent平台做的还是‘文档搜索+大模型总结’。问题是没有引用和溯源机制,没有版本控制,没有访问权限分级。结果是表面上大家轰轰烈烈做了一堆Agent,看起来很好,但最终根本无法真正投入使用。”
“最后,也是最重要的,就是DataAgent(以前叫ChatBI)。核心能力包括半自动或全自动的数据分析与报告生成;理解企业内部BI系统的数据模型;自动编写SQL,或调用数据分析API;输出可视化报表或业务报告等。”
“但现状是很多产品只做到了‘表格分析+自然语言生成表格’,生成的数据需要巨量人工校对,往往‘要了半条命’,成本极高,严重影响实用性。”
“在这些场景应用里,都需要训练或定制垂直化模型。因为企业内部有自己的语言体系(行业黑话、内部术语等)、业务生态(跨部门协作的专属逻辑)、流程规范(审批链条、合规规则等)、知识沉淀(文档、数据、经验库等)。”
郭炜介绍道,“在DataAgent场景中,传统的ETL操作非常繁琐,需要大量人工拖拽配置。而通过DataAgent,可以快速获取企业底层数据,不仅限于简单的ChatBI查询,而是能够直接访问更底层、更原始的数据,从而显著提升处理效率。”
“目前市面上大多数所谓的DataAgent,本质上只是将传统的BI或数据仓库加了一个‘ChatBI’式交互外壳,并未实现数据在语义层面的深度转化,仍停留在‘玩具’阶段,而多数客户此时只是抱着‘尝鲜’的心态进行试用。这种模式无法充分释放数据价值,也难以支撑真正的Agent生态。”
“要实现理想的DataAgent架构,主要面临两大挑战。”
“第一,数据底层处理的复杂性。底层系统存在成千上万种不同的数据源,要将其中的数据转化为可被大模型理解的上下文,是一项繁重且复杂的工作。大模型本身无法直接完成这些‘脏活累活’,这需要长期的积累与专业的处理能力。”
“第二,数据交互与转化。必须充分利用大模型的交互能力,让其具备推理和语言处理的能力,并将需求转化为对底层数据的精确调用。这要求在上层的自然语言需求与底层数据结构之间建立高效、准确的映射,这同样是一个高难度的技术挑战。”
“未来的目标是让用户能够通过自然语言快速完成任务,甚至无需自然语言输入,只需提供所需的SQL或数据描述,系统就能自动生成完整的workflow。这类功能能够真正解决用户的痛点问题。”
“Agent产品只有能解决这一类核心场景的问题,企业才会对其有付费意愿,并推动大规模部署。”
未来
总体来看,未来在Agent这个赛道,无论是ToC方向还是ToB方向,都还有很长的路要走。
王显总结道,“当前整体氛围上,大家还是想赚一波快钱。这其实是一个多赢局面,即资本方想赚快钱,企业等多方机构也希望帮自己讲一个AI的故事。”
“对于个人,在这个氛围影响下,就进入焦虑模式了,好像离开AI就不能活了,然后大家接下来就拼命地把工作跟AI结合起来。当然,这只是小赢,绝对不是大赢。等这轮泡沫消退、企业热度过去之后,大家会更加冷静地看待。我估计还需要一到两年时间。”
对于ToC赛道整体,张森森认为,“目前消费级通用Agent基本只能靠融资续命,商业化路径还没有跑通。”
那么,创业公司还能如何抓住机会呢?
关于创业方向选择,目前有一个理论是“补足大模型的最后一公里”,比如等医疗、法律等流程做到95分的时候,让大模型接手替代人。
这或许是当前的创业取巧之选或大型企业的无奈之举,王文广认为,“这个选择对于创业公司并不性感,就像外卖和快递员,但总会有人做的。”
王楠表示,“现在的确是创业的一个黄金期,但方向选择未必一定是不足最后一公里,也许是不足最后10公里,也许是大模型生态中的一环。大模型接受替代人并非要人做到95分,再由AI接替。也可以是人已经处理的很好的任务,完全交给AI处理,比如对比价格、情感陪伴或者做AI教师。这里的价值在于AI让人的能力能够scale。也可是人无法处理好的任务,比如写研报、写代码。”
“我会建议创业者去思考什么场景下AI能够做到十倍以上的效率提升。”
王楠还认为,创业公司仍然需要依靠速度构建护城河,同时也要认真做产品。比如Genspark在其产品中引入的改进策略包括:引入专业数据源、并行搜索、多代理交叉验证、专家审核内容、使用离线Agent确保准确性,并通过先发优势掌握了大量数据。“Genspark的策略基本上是市面上认真做做AgenticSearch和DeepResearch产品的公司普遍的做法。对于Genspark和Perplexity这样的公司,主要市场还是在通用搜索,所以掌控数据和搜索能力是自然的选择。和传统的搜索巨头相比,在产品迭代速度和执行力方面的也是创业公司的优势。再加上大模型能力和时代浪潮的加持,我们会看到更多的小公司快速崛起,分走大公司的蛋糕。”
AI创业者李峰则认为,“技术层面,ToC的Agent的护城河是大模型本身。要与ChatGPT竞争,首先要有一个跟ChatGPT匹敌或超越的大模型,显然,Manus没有。要避开竞争,就只能在场景层做小做精,选择一个或几个核心场景,做到极致的可靠和高效,这才会有长期的机会。”
“工程层面,Genspark确实真正在做落地的事情,并基于它所接触的需求,构建了一套高度复杂、精心编排的隐性工作流系统。它们正在利用先发优势来快速构建并完善这个复杂系统,从而形成事实上的护城河。设计、实现并调优这样一个包含众多模型、工具和数据源的复杂工作流系统,需要巨大的工程投入和时间。”
“即使基础模型公司要做好,也需要同样的工作。如果这个隐性工作流系统足够复杂,那就能够形成一定的竞争优势。”
张森森则认为,应用层的Agent创业公司,更容易从长尾产品入手。“写作、办公、搜索等主流场景,几乎被大厂牢牢占据,小公司很难在算力、数据、生态上正面竞争。而长尾场景虽然用户规模小,但需求独特、痛点尖锐。用户在高痛点的情况下,对解决方案的不完美有更高容忍度。哪怕只是部分缓解,也能让用户感到价值明显。”
“只要能解决关键问题,就能迅速形成用户粘性。而且长尾方案能够形成更强壁垒。因为这些场景需要结合高度专业化的数据,甚至涉及内部流程和工具,沉淀出的知识和技术很难被通用模型复制。经过长期迭代,还能向相似场景扩散,逐步形成护城河。”
“比如Figma,它最早并不是做UI设计的,而是解决了一个非常强的痛点:在线协作,再扩展到高频的设计需求,最终发展成行业龙头。Zoom也是类似的路径,它最初的产品需求是解决高质量视频传输的问题,先在这个点上做深度优化,然后才逐步扩展,最终进入并占领了通用的会议市场。”
“当然,如果只是单纯做一个Agent,是一定没有机会的。只是在技术或通用功能上去卷,就很容易被别人替代或干掉。”
最后,回到Agent泡沫本身,基于科技行业发展普遍规律,还是需要更加辩证地看待其存在意义。
郭炜认为,Agent泡沫确实客观存在,但实际上还不够多,“毕竟对于SaaS软件和日常使用的APP,还有大量的功能尚未实现。要真正把Agent做起来,还需要更多的泡沫推动,才能发展成熟。这也是早就存在的规律,每个新兴的创新领域在初期都会有大量资本驱动,最后才会有少数创业公司和想法存活下来。”
薛赵明表示,“Agent泡沫的存在是一定的。从远古的NLP阶段或人工智障时代,到ChatGPT时代,再到如今AI具备推理和工具使用能力的当下,虽然AI的更新很快,但是从事物的历史发展周期来说,当下还处在较为早期的阶段,这个阶段的特性就是泡沫横生,大家都在尝试做一些突破。特别是现在更多的投资还是比较前期的天使轮或者A轮,因此必然是一个‘百团大战’阶段。”
王文广表示,“这是所有颠覆性的新技术出现的必然过程,国内外没有什么不同。具体来说,新技术的应用一定会经历泡沫化,然后是幻灭与出清,紧随其后的长期、务实的渗透与融合。现在还是泡沫化的阶段,幻灭才有点苗头,出清还早。”
“关于Agent是否真正解决问题大家还无暇顾及,但必须先做起来,抢投资抢市场。”
“毕竟需要在这个市场活的足够久,才能找到‘在某个特定行业中,存在一个什么样的高价值、长期未被解决的难题?’、‘AIAgent的技术能否为这个问题提供一个全新的、比现有方案好2倍或者10倍的解法?’等问题的答案。”
“这与‘先做起来’并不完全是矛盾的。”
“但从长远看,唯有这种从真实、深刻的行业痛点出发的思考,才能找到真正有价值且具有护城河的落地场景。”
“现有的所谓的智能体的洗牌,应该会在接下来的三五年内出现。”
“整个行业终究将向着无处不在的Agent时代迈进。所以,不管怎么活着(靠融资活着也是一种很好的活法),能够或者走向未来就是最重要的。未来有什么潜在的突破口,现在的你我都不知道,但只有活着走到那个时候,才有机会。”
面向更长远的未来,郭炜展望道,“未来,Agent会非常普遍,几乎所有软件和APP都会嵌入模型,成为某种形式的Agent。这并不局限于替代特定场景,而是整体向Agent化演进。”
“从各专业领域的Agent都已出现并且运行良好,再基于此形成入口级Agent,这一过程可能需要5到10年。在此之前,专业领域的专业型Agent将率先落地并发挥作用。”
王文广则提醒道,“在AGI/ASI真正到来之前,请注意,AGI或ASI到来之前是个前提,基于大模型的智能体的的胜利,极大概率并不属于那些试图用一个通用Agent解决所有问题的‘平台’公司,而属于那些能将Agent作为一种能力与业务深度融合开发出该领域具备智能决策和自然语言交互的专业软件的公司。”
泡沫并非一定是坏事,真正的长期主义者反而能借助泡沫来生长。但唯有回答“为谁而作、在何处用、以何种方式稳态运行”,才足以穿越喧嚣,走进可复用的现实。
撰文:流大古 编辑:大饼
本文由人人都是产品经理作者【知危】,微信公众号:【知危】,原创/授权 发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于 CC0 协议。
- 原文作者:知识铺
- 原文链接:https://index.zshipu.com/ai002/post/20251015/%E5%87%A0%E4%B9%8E%E9%83%BD%E5%9C%A8%E6%8C%82%E7%BE%8A%E5%A4%B4%E5%8D%96%E7%8B%97%E8%82%89AI-Agent%E7%9A%84%E6%B3%A1%E6%B2%AB%E7%8E%B0%E5%9C%A8%E5%88%B0%E5%BA%95%E6%9C%89%E5%A4%9A%E5%A4%A7/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com