经过近一年的实践,企业对AI智能体的认识已经从最初的狂热转向理性。麦肯锡团队跟踪了50多个AI智能体的工作表现,发现了一些值得深思的现象:这些数字员工需要大量培训才能胜任工作,它们并非解决所有问题的灵丹妙药,而且产出的内容质量常常让人失望。

认清AI智能体的真实能力,把它们放在合适的位置,才是创造价值的关键。

工作流程重于工具本身

很多企业在部署AI智能体时犯了一个错误:过度关注工具本身,却忽略了整体工作流程。结果做出的系统虽然技术先进,但无法真正改善业务效果。

麦肯锡发现,成功的案例都有一个共同点:它们重新设计了整个工作流程,而不是简单地把智能体塞进现有流程。一家法律服务公司的做法很有启发性。他们知道法律推理在不断演变,新判例、司法解释层出不穷,很难把所有专业知识都预先编码。于是他们让系统在工作中学习——每次律师修改文档,系统都会记录并分析这些修改,工程师据此调整智能体的逻辑。时间越长,智能体掌握的专业知识越丰富。

图片

对于复杂的多步骤流程,比如保险公司的理赔处理,需要在不同环节部署不同的技术组合。智能体在其中扮演协调者角色,把各个系统的输出整合起来,减少人工干预。

选对场景比技术更重要

“评估智能体就像评估团队成员,“麦肯锡的专家说,“关键是搞清楚需要完成什么工作,以及每个工具的相对优势。”

标准化程度高、变化少的流程,比如投资者开户,有固定的规范和可预测的逻辑。在这些场景中,基于大语言模型的智能体反而可能增加不必要的复杂性。相反,变化大、标准化程度低的工作更适合智能体。一家金融机构用智能体提取复杂财务信息,大幅减少了人工验证的工作量。

关键是避免陷入"用不用智能体"的二元思维。有些智能体擅长特定任务,有些能辅助人类工作,很多情况下其他技术可能更合适。找到最佳的人机配合方式,才是价值所在。

质量问题动摇用户信任

“AI垃圾(slop)“是麦肯锡观察到的最普遍问题。智能体在演示时表现出色,实际使用却经常输出低质量内容,用户很快失去信任,最终放弃使用。

解决这个问题需要把智能体当作新员工来培养。它们需要明确的工作说明、系统的培训和持续的反馈。一家全球银行在改造KYC流程时,每当智能体的判断与人工不同,团队就会分析差异原因,完善决策标准。他们还通过连续追问"为什么"来确保分析深度,直到智能体的输出达到实用水平。

这种细致的调教工作耗时耗力,但不可或缺。专家必须持续参与测试和改进,没有"一劳永逸"这回事。

规模化部署的挑战

几个智能体时,监督相对简单。但当数量达到成百上千,问题定位就变得困难。很多公司只关注最终结果,出错时很难追溯原因。

一家法律服务商的经验值得借鉴。他们在工作流的每个环节都部署了监控工具。当系统处理新案例时准确率突然下降,通过这些工具,团队迅速发现是部分用户提交的数据格式不规范。找到原因后,他们改进了数据收集规范,调整了解析逻辑,性能很快恢复。

这种端到端的可观察性不是锦上添花,而是规模化部署的必要条件。

复用思维降低成本

急于求成的公司往往为每个任务开发专属智能体,造成大量重复工作。实际上,很多任务都包含相似的操作:数据摄取、信息提取、搜索分析等。

识别这些共性,开发可复用的组件,建立便于调用的资产库,能显著提高效率。麦肯锡的经验表明,这种做法能减少30%到50%的非必要工作。但这需要在快速迭代和长期架构之间找到平衡,考验的是判断力和前瞻性。

人机协作的新模式

智能体能做很多事,但人类仍不可替代。人们需要监督准确性、确保合规、处理特殊情况。更重要的是,随着智能体的引入,人类的角色和数量都会发生变化。

一家保险公司在设计人机界面时特别用心。审核员点击AI生成的结论,系统会自动跳转到相关页面并高亮关键信息。这种细节上的优化让协作变得自然流畅,用户接受度达到95%。

没有精心设计的人机协作,即使最先进的智能体系统也可能遭遇无声的失败、错误的累积和用户的抵制。

小结

AI智能体技术还在快速演进,今天的经验明天可能就会过时。但有些基本原则不会改变:理解技术的真实能力和局限,把它用在合适的地方,持续学习和改进。正如一位企业高管所说,他们年初制定的"完美"AI战略,到现在已经面目全非。

在这个快速变化的领域,保持学习心态比任何具体经验都更重要。否则,明年的"绩效考核"可能依然不及格。

来自:https://www.mckinsey.com/capabilities/quantumblack/our-insights/one-year-of-agentic-ai-six-lessons-from-the-people-doing-the-work

MIT报告:花了300-400亿美元,95%的企业AI项目都失败了

关注公众号回复“进群”入群讨论。