1500篇关于提示工程的学术论文表明你所知道的一切都是错误的
那些年收入超过 5000 万美元的公司正在做着与大家所教完全相反的事情 。 经过六个月的深入研究,阅读了 1500 多篇论文,并分析了真正推动业务成果的技术,我得出了一个令人不安的结论:网络社区上流传的大多数提示工程建议不仅无益,而且适得其反。
那些 年 收入 (ARR) 达到 5000 万美元以上功能的公司并没有遵循社交媒体讨论中盛行的“最佳实践”。他们系统性地采取了与传统观点相反的做法。听起来不错的东西和实际可行的东西之间存在着巨大的差距。
这不仅仅是学术上的好奇心。了解在提示工程中真正有效的方法与在会议演讲中听起来不错的方法,可能会决定哪些AI功能是用户满意的,哪些是耗费预算却无法创造价值的。
在分析了数百份研究论文和现实世界的实施之后,我发现了六个普遍存在的误区,这些误区正在误导团队,而成功的公司则采用了经过研究支持的现实方法。
改变一切的研究
在深入探讨具体的误区之前,重要的是要理解为什么传统的提示工程智慧常常是错误的。大多数建议都来自于使用性能较差的模型进行的早期实验、小规模测试的轶事证据,或未考虑生产环境复杂性的理论框架。
相比之下,学术研究则涉及使用大型数据集进行受控实验、对不同模型架构进行系统性比较,以及对哪些方法真正提升了性能而非仅仅出于直觉而进行严格的统计分析。 一位在快速优化领域发表过大量论文的研究人员告诉我:“在人工智能领域,看似聪明的做法和实际可行的做法之间存在巨大差距。人们的决策是基于直觉,而不是证据。”
我发现的六个误区代表了流行建议和经验证据之间最大的差距。
误区一:提示越长、越详细,结果就越好
在提示工程中最普遍的误区是,提示越详细、越长,结果就越好。这种直觉是有道理的——如果你向人类寻求帮助,提供更多背景信息和具体说明通常会带来更好的结果。
但人工智能模型的运作方式与人类不同。研究一致表明,结构良好的简短提示通常比冗长的提示效果更好,同时还能显著降低成本。
最近的一项研究比较了不同任务类型提示的长度,发现结构化的短提示在保持相同输出质量的同时,将 API 成本降低了 76%。关键在于结构,而不是长度。
过长的提示实际上会降低性能,因为它会引入噪音、产生相互冲突的指令,或将重要的上下文挤到模型的注意力范围之外。最有效的提示是精准且简洁的语言。
现实:结构比长度更重要。一个条理清晰的50字题目通常比一个冗长的500字题目效果更好,而且执行成本也低得多。
误区二:更多的例子总是有帮助的(少量提示法)
少量样本提示法(提供所需输入-输出对的示例)在大型语言模型的早期发展中变得流行,因为当时的演示显著提升了模型的性能。这导致了一种假设:示例越多,结果就越好。
最近的研究表明,这种假设不仅是错误的,而且可能对 GPT-4 和 Claude 等先进模型造成危害。
现代模型足够复杂,无需大量示例即可理解指令,而提供不必要的示例实际上可能会混淆模型或使其偏向不能很好地推广到新输入的模式。
现实:像 OpenAI 的 o1 这样的高级模型在输入示例时实际上表现更差。它们足够复杂,能够理解直接指令,而示例可能会引入不必要的偏差或噪声。
误区三:完美的措辞最重要
提示工程中最耗时的环节之一是措辞——精心构思完美的措辞、调整语气、优化用词。许多团队花费数小时讨论是否应该使用“请”或特定的术语。
研究表明,这种努力在很大程度上是错误的。提示的格式和结构远比使用的具体词语更重要。
具体来说,对于 Claude 模型而言,无论具体内容如何, XML 格式与自然语言格式相比,性能始终提升 15%。这种格式优势往往比精心的词汇优化更有价值。
现实:格式胜过内容。XML 标签、清晰的分隔符和结构化的格式比完美的措辞更能带来持续的改进。
误区四:思路链适用于一切
思路链提示法(要求模型“逐步思考”)在研究显示数学推理任务显著提升后变得极为流行。这一成功促使其在各类问题中得到广泛应用。
但思路提示并非万能的解决方案。它对数学和逻辑推理任务很有效,但对许多其他应用却收效甚微,实际上还会损害某些任务的性能。
具体来说,对于数据分析任务,研究表明,表格链方法(围绕表格数据构建推理)比传统的思路链方法提高了 8.69%。
现实:思路链是针对特定任务的。它擅长数学和逻辑,但像表格链这样的专业方法更适合数据分析任务。
误区五:人类专家写出最好的提示
认为人类专家是最好的提示工程师,这种假设在直觉上是有道理的。人类能够理解上下文、细微差别以及特定领域的需求,而这些方式似乎无法被自动化所理解。
最近关于自动提示优化的研究表明,这种假设是错误的。人工智能系统能够比人类专家更有效地优化提示,而且速度显著加快。
比较人类提示工程师和自动优化系统的研究发现,AI 系统能够持续生成性能更佳的提示,而且只需 10 分钟,而人类则需要 20 小时。
现实:人工智能在极短的时间内就能比人类更好地优化提示。人类的专业知识更应该用于定义目标和评估结果,而不是精心设计提示。
误区六:设定好之后就忘掉它
或许最危险的误区是,提示工程只是一次性的优化任务。团队投入精力创建提示,将其部署到生产环境中,并假设它们会一直保持最佳状态。
实际数据显示,随着模型变化、数据分布变化和用户行为演变,提示性能会随着时间的推移而下降。那些凭借人工智能功能取得持续成功的公司将提示优化视为一个持续的过程,而非一次性任务。
持续提示优化研究表明,与静态提示相比,系统改进流程可以在 12 个月内将性能提高 156%。
现实:持续优化至关重要。随着系统性的改进流程,绩效会随着时间的推移显著提升。
5000万美元以上ARR公司实际上在做什么
那些开发可扩展、带来巨额收入的人工智能功能的公司并没有遵循社交媒体的建议。他们遵循着完全不同的策略:
他们优化的是业务指标,而不是模型指标。他们关注的不是技术性能指标,而是用户满意度、任务完成率和收入影响。
它们实现了提示优化的自动化。它们不再需要人工手动迭代提示,而是采用系统化的方法不断测试和改进提示的性能。
它们构建了一切。格式、组织和清晰的分隔符比巧妙的措辞或冗长的例子更重要。
他们根据任务类型制定专门的技术。他们不会将思路链应用到所有问题上,而是根据具体问题类型匹配优化技术。
他们把提示视为产品。与任何产品功能一样,提示需要基于真实用户数据持续维护、改进和优化。
方法论差距
这些谬论之所以持续存在,是因为学术研究与行业实践之间存在根本的方法论差距。学术研究人员在多个模型架构上进行了有适当基线、统计显著性检验和系统评估的受控实验。
行业从业者通常依赖直觉、小规模的 A/B 测试或特定用例的轶事证据。这形成了一个反馈循环,无效的技术会因为感觉正确而不是持续有效而得到强化。
“应用人工智能的最大问题是,人们只关注有意义的东西,而不是真正有效的方法,”一家大型科技公司的机器学习工程师向我解释道。“研究提供了直觉常常忽略的基本事实。”
实际意义
理解这些研究结果对于构建人工智能功能的任何人来说都具有直接的实际意义:
从结构入手,而非内容。在措辞之前,先花时间整理格式和组织结构。
尽早实现自动化优化。构建系统来系统地测试和改进提示,而不是依赖手动迭代。
将技巧与任务相匹配。数学推理使用思路链,数据分析使用表格链,其他大多数应用则使用直接指令。
衡量业务影响。跟踪对您的用户和业务至关重要的指标,而不是抽象的模型性能分数。
制定持续改进计划。将快速优化融入到持续的开发流程中,而不是将其视为一次性任务。
竞争优势
那些以研究而非传统观念为基础进行提示工程设计的公司将获得显著的竞争优势:
他们以更低的成本实现了更高的绩效。他们构建了更稳健、更持续改进的系统。他们避免了那些遵循流行但无效建议的团队陷入死胡同。
最重要的是,他们可以将人类的专业知识集中在高价值活动上,例如定义目标和评估结果,而不是手动提示制作。
每个团队都应该问的问题
不要问“我们如何才能写出更好的提示?”,而要问“我们如何才能根据经验证据系统地优化我们的人工智能交互?”
这种视角的转变让你从追随趋势转向追随数据。它让你的团队能够构建真正可扩展的AI功能,而不是那些在演示中听起来很棒但无法提供可持续价值的功能。
您的团队对提示工程的假设有哪些是基于传统观念而非研究成果?如何挑战这些假设才能提高绩效并降低成本?
那些在人工智能领域取得成功的公司,并非那些追随社交媒体上最响亮声音的公司。他们将会是那些遵循证据的公司,即使这些证据与大众观点相悖。研究结果很明确。问题在于你是否准备好忽略那些迷思,遵循真正有效的方法。
本文来自微信公众号“数据驱动智能”(ID:Data_0101),作者:晓晓,36氪经授权发布。