为什么95%的企业人工智能项目都会失败:没人愿意承认的架构问题
2024年,企业在人工智能领域花费了3650亿美元,其中95%的投入毫无成效。
各地模式如出一辙:复杂的模型,糟糕的基础设施,零投资回报率。人工智能行业当初向企业推销的是模型,而企业真正需要的是操作系统。如今,企业却在实验性的基础设施上运行生产工作负载,这些基础设施在实际使用中不堪重负。
无人提及的价值6440亿美元的基础设施问题
麻省理工学院刚刚发布的研究显示,95%的生成式人工智能试点项目未能实现预期价值。麦肯锡公司发现,尽管投入巨资,99%的公司仍未达到人工智能成熟阶段。Gartner预测,到2025年,人工智能支出将达到6440亿美元,同比增长76%。但价值究竟在哪里?
但没人说的是:你们的问题不在于模型,而在于基础设施。
整个人工智能行业就像用报纸盖住 的 狗屎,然后纳闷为什么它还臭。他们没有重新思考工作协调的方式,只是在现有的混乱局面上叠加对话式人工智能,就指望它能带来变革。当人工智能无法交付成果时,他们把责任推给技术本身,而不是意识到他们的整个架构与人工智能系统的实际运作方式不兼容。
这是架构问题,而不是人工智能问题。
卡内基梅隆大学发表了 一项关于未来主义的研究,结果显示人工智能代理 在执行基本任务时表现糟糕——成功率仅为20%,平均每项任务成本高达6美元。研究人员尝试让人工智能进行虚拟办公室参观、安排日程、撰写绩效评估以及浏览文件系统。结果可谓惨败。
但没人注意到这一点:这不是人工智能的故障,而是架构的缺陷。
他们试图让人工智能读取支持工单、重新生成绩效考核、在日历中添加内容以及访问 Slack 频道。失败后,他们指责人工智能出现了幻觉。但实际上,他们是在用人工智能模拟人类的官僚作风。
想想这项任务原本应该是什么样子:一个包含所有AI所需文件引用的JSON文件。整个过程只需3分钟即可完成,成本几乎为零。然而,他们却设计了一个让AI复制人类工作流程的系统——浏览界面、查看Slack频道、点击虚拟办公空间——然后当系统运行不正常时,他们却装作很惊讶的样子。
这就像雇佣一群患有失忆症的航空工程师一起造飞机。你刚跟他们说完,他们就全忘了。然后飞机起飞时坠毁,你还挺惊讶的。
为什么多智能体框架会失效
典型的多智能体框架会这样处理一个简单的任务:从 Readwise 获取高亮内容,创建大纲文档,发送摘要邮件。这应该很简单——大概只需要 30 秒的执行时间。三个操作。
多智能体框架方法将部署:
用于分解任务的规划代理
一名研究代理 ,负责分析背景信息
一个用于检索亮点信息的代理
一位写作代理 负责生成摘要
用于调用 API 的文档创建代理
邮件规划代理用于构建邮件结构
发送电子邮件代理执行投递
七个代理 。执行三个行动。
任何一家头脑正常的公司都不会雇佣7个人来做这件事。最多只会雇佣两个人。但如果一个多智能体框架需要7个智能体来完成2个人就能完成的工作,那就很难说这能提高效率了。
没人问的问题是:这种协调机制究竟是如何运作的?每个代理都需要知道前一个代理做了什么。它们通过对话式交接进行协调——代理之间通过消息传递,一个代理“告诉”下一个代理该做什么。没有集中式的模式定义工作流程,也没有显式的状态管理。只有自主代理通过对话协商下一步该做什么。
价值 47,000美元的无限循环:当架构设计失败时会发生什么
一个生产环境中的多智能体系统进入了一个无限对话循环,两个智能体连续“交谈”了 11 天,在无人察觉之前产生了 47,000 美元的 API 费用。
这并非个例,而是基于对话的协调的必然结果。
第1周:API费用127美元。看起来正常。
第 2-3 周:成本不断上升,但未配置任何警报。
第4周:18400美元。直到收到账单才注意到。
这些智能体并没有出故障。它们“正常”工作——只是不断地就市场调研进行无休止的对话,却始终无法完成实际任务。没有错误状态,也没有完成信号。只是两个智能体陷入了一场无人察觉的递归对话。
为什么没有设置紧急停止开关?为什么它能运行11天而无人察觉?
因为多智能体框架提供的可观测性非常有限。LangChain 的 LangSmith 控制面板仅显示一些基本指标:哪些智能体运行、成功/失败状态、消耗的总令牌数。但它不显示:实时令牌消耗率、每个智能体的对话循环次数,以及能够捕捉到两个智能体陷入递归对话的细粒度执行跟踪信息。
系统显示“运行中”,没有错误状态。从仪表盘来看,一切正常——客服人员正在沟通,令牌正在消耗,没有标记任何故障。由于没有实时监控对话模式或令牌消耗速度,直到收到月度账单,系统才意识到客服人员已经陷入了无限循环。
更糟糕的是:语言模型提供商无论如何都能拿到钱。当你的智能体陷入无限循环,不断累积 API 费用时,OpenAI 和 Anthropic 却能从这些浪费的计算资源中获利。他们既没有问责机制,也没有动力去阻止这种行为。这实际上是他们的一场有利可图的骗局——缺乏透明度意味着成本失控,从而带来更多收入。
为什么基于云的系统无法看到正在发生的事情
有一个重要的架构限制却鲜为人知:如果你的整个系统都基于云端,那么你的可观测性将受限于LLM提供商所公开的信息。你完全受制于他们。你只能看到他们在使用情况图表中展示的内容,而这些图表实际上什么也提供不了。
使用云 API,你只能看到服务提供商决定向你展示的内容。而且他们没有动力提供透明度——如果你直到收到账单才发现费用飙升,对他们来说更有利可图。
阻碍企业人工智能部署的核心问题
企业人工智能部署失败的根本原因并非模型智能不足,而是架构缺陷。当95%的人工智能试点项目失败,企业在无限循环中白白浪费4.7万美元时,问题不在于GPT-4不够智能,而在于企业在摇摇欲坠的架构之上构建系统:非结构化数据导致处理无法进行;将人类从错误的环节移除;目标模糊不清,甚至人类都无法执行;对实际运行情况完全缺乏可观测性;以及使用聊天机器人模拟人类官僚机构的多智能体框架,而非彻底消除协调开销。
数据结构问题:期望从混沌中炼出炼金术
企业以为只要把TB级的非结构化数据一股脑儿地塞进文件夹,就能指望人工智能从噪声中找到有效信息。他们把多年的Slack对话记录扔进训练集,却不明白为什么人工智能无法捕捉到他们的“品牌声音”。他们把数百万份文档扔给模型,却期望模型能对业务流程有清晰的理解。
但你期望模型能像炼金术士一样,而数据结构本身就让这几乎成为不可能。
即使是人类也需要结构化的信息才能将其付诸行动。这就是“第二大脑”方法论奏效的原因——它使知识既易于获取又可付诸实践。如果信息没有结构化以便于获取,人类也无法有效地协作。
现在,假设你把同样的问题扩展到复杂的、多步骤的工作流程中,并借助人工智能来解决。有人给人工智能一个模糊的提示,它就会做出反应,因为这就是它的工作方式,然后你就大规模地部署它。非结构化、混乱的数据架构和给人工智能一个模糊的提示一样糟糕——唯一的区别在于,现在你是在复杂的、多步骤的工作流程中大规模地处理这个问题。
阻碍协调的最大问题在于:信息流缺乏明确的结构。你没有定义信息如何在系统中流动。你期望人工智能能像炼金术士一样,神奇地找出所有信息的位置和连接方式。它做不到。任何人都做不到。
消除人为因素谬误
麻省理工学院发现,企业人工智能支出中超过50%用于销售和营销用例——聊天机器人、内容生成、线索评分。但最能衡量投资回报率的却是后台自动化:发票处理、数据核对、合规工作流程。
他们选择开发炫酷的面向客户的应用程序,而不是从事枯燥乏味、实际上可以省钱的后台工作。为什么?原因有二:
他们陷入了“将人从流程中移除”的谬误之中。
他们是白痴
根本性的误解在于:目标并非将人完全排除在外,而是将人置于他们真正创造价值的环节。
以内容创作为例:你可以让人工智能从零开始生成一篇完整的博客文章。它生成的文本语法正确,但内容平庸,缺乏鲜明的个人风格和视角。这就是所谓的“将人从流程中移除”——而这种方法之所以失败,是因为创意指导和个人风格都离不开人。
更优方案:由人提供洞见、示例和方向;人工智能构建框架并撰写草稿;人进行验证和完善。这种循环协作能够产生更优质的成果,因为人处于最恰当的位置——提供判断、表达和创意指导,而不是逐字逐句地敲击键盘。
像发票处理这样的后台自动化流程不需要人工干预或语音输入。将采购订单与发票匹配是一个确定性的工作流程,在这个环节中,人为因素没有任何作用。它应该完全自动化。
面向客户的内容创作需要人的声音和判断。这才是人类创造价值的地方。人工智能应该辅助,而不是取代。
企业的做法完全颠倒了。他们试图将人从那些需要人为干预的领域移除,却把人留在那些他们毫无价值的领域。
预期产出问题:为什么模糊的目标必然导致失败
观察人们与人工智能互动并对结果感到沮丧的情景。通常问题不在于人工智能本身,而在于 请求过于模糊,甚至连人类都难以理解。如果人类都无法理解目标,语言模型当然也无法理解。
人工智能系统能否成功运行,关键往往在于任务定义。每个可执行的任务都需要三个组成部分:
任务标识符——这是什么?
流程描述——需要发生什么?
预期产出——成功是什么样的?
第三个要素是大多数企业失败的地方。他们定义了流程,却没有定义结果。
含糊不清: “修改这篇文章”
“修正”指的是什么?语法?结构?语气?长度?
人工智能会进行猜测,但很可能猜错。
结果需要多次修改。
可执行目标
删除冗长的句式。需要删除的句式:当三个连续的句子都以“这些人”或“这种方法”开头时,将其合并成一个句子。通读全文,精简所有出现这种句式的地方。
有了可执行的目标,具体行为和成功标准就被明确定义了。人工智能无需猜测即可执行。
当企业提出“提高效率”之类的目标时——这是无法实现的。
具体需要改进哪些工作流程?
成功的衡量标准是什么?
前后状态分别是怎样的?
如果目标如此模糊,那就不是人工智能问题,而是规范问题。
当企业提出“提高效率”之类的目标时,这根本无法执行。具体应该改变哪些工作流程?成功的衡量标准是什么?改变前后的状态分别是什么样的?
如果目标如此模糊,那就不是人工智能问题,而是规范问题。
紧急停止开关必须可量化
避免 47,000 美元无限循环的关键在于:终止开关必须基于可量化的指标。你无法通过语言本身来强制执行语言模型行为——只能通过架构来实现。
语言是建议,是对用户需求的预测。架构是强制执行。这完全符合用户的需求,语言逻辑模型(LLM)别无选择。
对于一个成本为 4.7 万美元的循环问题,如果客服人员陷入对话僵局,那么当客服人员 3 和 4 连续 100 次交互后仍未切换到客服人员 5 时,就应该终止该循环。这并非主观判断(“他们是否取得了进展?”),而是具体判断:交互次数达到 100 次但状态未发生变化。
你不能直接告诉一个语言逻辑管理器(LLM)“不要无限循环”,然后指望它能正常工作。你必须设计这样的架构:“如果 X 次交互没有状态 Y,则停止执行。”架构强制执行语言只能建议的功能。
特权访问灾难:为什么会有数十个非人类账户?
这种现象的存在本身就说明设计上存在严重缺陷。语言模型为什么需要特权访问权限?如果采用集中式凭证管理,语言模型就完全没有必要参与特权访问。
为什么身份验证不是集中式的?
答案是:它们没有真正的架构或工具注册表。多代理框架中的每个代理都被视为一个独立的实体,需要自己的 API 凭证。
代理 1 需要 Salesforce 访问权限
代理 2 需要数据库凭据
代理 3 需要电子邮件访问权限
代理 4 需要 Slack 账号密码。
他们将其设计得像一个人类组织一样,每个员工都需要自己的登录账号。
为什么?因为整个行业都固守着这样一种观念:智能仅仅来源于语言模型。语言模型只是一个组成部分——一个没有身体的大脑。
优秀的AI基础设施之所以有效,部分原因在于不把语言模型当作人来对待,而是当作带有语言接口的函数来对待。因为它们本质上就是函数。
语言学习模块(LLM)的语言表达方式如同对话,因此人们认为它们可以模仿人类的工作流程和交互方式。他们忘记了,在界面之下——也就是你我看到的对话界面——其实只是一堆二进制代码。仅仅是代码而已。它恰好可以响应自然语言输入,但它仍然只是软件而已:
def language_model(input_param): # 无论底层发生何种整体转换,返回 output_para
输入参数:用户告诉LLM的内容
输出参数:LLM 告诉用户的内容
转换:某种巨大的剧本
因为他们不把LLM(生命周期管理)当作软件来对待,而是像设计人类组织一样设计代理系统。每个代理都有自己的凭证,并通过对话进行协调,而不是采用集中式身份验证和注册工具的单一执行中心。
MD安德森癌症中心耗资6200万美元的失败案例:当最终用户不是共同设计者时
MD安德森癌症中心斥资6200万美元购置了IBM Watson肿瘤学系统,旨在帮助肿瘤科医生推荐癌症治疗方案。然而,该系统在2017年彻底崩溃。
技术问题确实存在:
Watson是用假设案例进行训练的,而不是用真实的病人数据。
它给出了不安全的建议——例如建议对已有出血风险的患者进行可能导致严重出血的治疗。
但更严重的问题是:医生被视为最终用户,而非共同设计者。这套系统未经他们同意就被强加给他们。它给出的建议晦涩难懂,且不解释原因。医生们拒绝接受这套系统,因为他们没有自主权,也无法理解沃森推荐治疗方案的原因。
最荒谬的是:为什么要把系统实际使用者当作最终用户来对待,而不是让他们来定义输入?这正是需要人为干预的绝佳例子。如果是医生设计的,他们肯定能立刻发现问题。
医学研究人员关注的是经验数据,而不是假设。假设的例子毫无用处。你需要的是真实的经验数据。任何头脑清醒的医生都不会相信人工智能在癌症诊断方面提供的建议,因为他们根本不知道人工智能究竟掌握了什么,而且它的训练数据也只是基于假设。
促成此事的人应该因渎职被起诉。
这体现了“人选不当”的问题:用户被视为被动接受建议的“无意义用户”。但那些被要求使用该系统的医生本应参与系统共同设计,定义数据需求,并验证训练数据。
真正需要改变的是什么:一个根本性的转变
如果说企业需要改变一件根本性的事情,那就是:
不要再把人工智能当作人类的替代品,而应该把它当作软件来对待。
光这一点就能解决所有问题。这就是困扰这个行业的价值6440亿美元的基础设施问题——他们仅仅因为它会说话就不把它当作传统软件来对待,这简直愚蠢至极。
当你把人工智能当作软件来对待时,你
实施版本控制(就像任何代码一样)
构建可观测性(就像任何系统一样)
确定性执行架构(如同任何基础设施)
使用集中式凭证管理(就像任何服务一样)
明确定义输入和输出(就像任何API一样)
根据可量化指标实施终止开关(就像任何流程一样)
当你像对待人类一样对待人工智能时:
通过对话进行协调(因为人类会说话)
给每个代理分配单独的凭证(因为每个人都有登录名)。
接受模糊的目标(因为人类可以通过对话进行澄清)。
忽略可观察性(因为你相信人类会自我报告)
对话式界面营造了一种假象,整个行业都上当受骗了。
未来之路:真正可用于生产的基础设施是什么样的
实现可靠自主执行的技术已经存在。目前所缺乏的是放弃对话式协调、转而围绕人工智能实际工作原理进行构建的意愿。
1.从一开始就构建人工智能所需的结构化数据
不要再把杂乱无章的文件夹堆放在模型中。要设计清晰易懂的模式、命名规范和明确的关系,确保信息易于访问。要把数据架构视为最重要的基础设施,而不是事后才考虑的因素。
2.制定清晰、可执行且可衡量的目标。
将“提高效率”改为“处理所有供应商发票,提取明细,与采购订单匹配,标记差异以供审核”。这样才可行,空泛的愿景则不然。
3.从一开始就构建可观测性和治理机制
所有自主操作都需要日志记录、遥测数据和清晰的审计追踪。代币级监控会在销毁率飙升时发出警报——由可量化指标触发的终止开关,以及对系统运行状态及其原因的全面可见性。
4.围绕概率模型构建确定性执行架构
语言模型是随机的。你的系统架构必须是确定性的。要建立防护机制,防止故障发生,而不是强迫人工智能表现完美。要构建约束,防止无限循环、成本失控以及超出定义边界的行为。
5.集中管理凭证
一个具备适当身份验证的执行中心。中心调用的已注册工具。无需数十个特权代理帐户。将其视为软件基础设施,而非员工团队。
6.将人安排在能够创造价值的地方
将他们从毫无贡献的确定性工作流程中移除。让他们保留在创意方向、判断和表达方面。目标不是裁员,而是把他们放在合适的位置。
最重要的是:要明白你不能简单地将对话式人工智能移植到传统的企业架构上就期望实现转型。你必须从零开始重建协调层,并且要充分理解人工智能系统能够可靠地完成哪些任务,不能完成哪些任务。
真正的问题
Gartner预测,人工智能代理将是2025年发展最快的技术。麦肯锡则指出,99%的企业尚未达到人工智能成熟阶段。研究表明:企业需要构建支持人工智能自主运行的基础设施。
他们描述的都是同一件事:人工智能基础设施层尚未存在。
那些不再盲目追求对话式智能体,而是开始构建生产基础设施的组织,终将获得成功。他们会像对待软件一样对待人工智能,构建可靠性架构,而不是寄希望于更智能的模型来修复协调机制的缺陷。
问题不在于自主执行是否可行,而在于你的组织是否愿意投入必要的架构工作,以确保其可靠性。2011年,每家公司都成为了大数据公司。2020年,每家公司都成为了数据治理公司。到了2025年及以后,每家公司都需要转型为人工智能基础设施公司。
问题是,在你弄明白之前,你会浪费掉这6440亿美元中的多少。
本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。















