AI 时代最稀缺的新岗位:给模型设边界的人

AI深度研究员·2026年01月27日 09:16
人工智能领域中一个新兴且关键的角色:模型边界制定者。

人工智能领域中一个新兴且关键的角色:模型边界制定者。通过 Anthropic 公司工程师 Amanda Askell 的工作经历,文中详细说明了如何利用**《Claude 宪法》为 AI 注入价值观,使其在面对复杂的人类情感和伦理困境时展现出判断力而非机械的应答。相较于传统粗暴的关键词过滤,这种方法赋予了模型理解上下文的能力,让它明白在特定情境下为何应当拒绝或提供温情的建议。作者指出,教导 AI 区分绝对红线与灰色地带的平衡艺术,比提升其计算能力更具挑战性。最终,文章强调了价值观设计**在 AI 商业化进程中的核心地位,认为让模型赢得人类信任的关键在于让其懂得适可而止。

做 AI,模型够不够强很重要。

但真正决定它能不能进企业、能不能被信任的,往往是另一件事:模型边界在哪里。

2026 年 1 月 24 日,《纽约时报》专访了 Anthropic 工程师 Amanda Askell,一位负责给 Claude 设边界的哲学家。她的工作是教模型什么时候该拒绝、怎么拒绝才合适。

为此,她主导起草了一份 2.9 万字的《Claude宪法》(Claude Constitutional )。这份文档不是写给人类看的,而是写给 Claude 自己的。

Claude 在上线前会反复读这份文档,并被问一个问题:你觉得,这份文档理解你了吗?

这种对待 AI 的方式,正在催生一类新岗位:给模型设边界的人。

第一节|新岗位是什么?给 AI 写行为准则

Amanda Askell 的岗位很少见,在简历上写出来,甚至不太好归类。

她既不是工程师,也不是安全专家,而是在 Claude 正式上线之前,给它写了一封信:讲清楚它是谁、该怎么面对世界、什么该做、什么不能做。

这封信后来有了一个名字,叫做“灵魂文档(Soul Doc)”,也就是后来外界所说的《Claude宪法》。

有人把它看成是一份 AI 的行为守则,但 Amanda 不这么看。她说:

“我们不是列出一堆做这个、别做那个的指令,而是告诉它,你为什么要这么做。”

这正是她工作的核心:教判断,而不是下命令。这样的人,在行业里有个新称呼:给模型设边界的人。

过去几年,几乎所有 AI 公司都在用同一种方法:给模型加防火墙。

规则模板、内容过滤器、敏感词黑名单。ChatGPT 用 RLHF 让模型学会拒绝,Gemini 设置了多层审核机制。模型越强,限制就要越多。但这类方法的效果,有时反而让模型变得机械、迟钝,该说的也不敢说。

去年就有用户抱怨,某大模型拒绝帮他写辞职信,理由是系统把辞职判定为负面内容。

还有人问健身建议,模型因为担心涉及医疗而直接拒答。

这就是纯规则系统的问题:它不理解上下文,只会机械匹配关键词

Amanda 试图做的是另一种路径:不是阻止模型出错,而是让它明白自己为什么不能那样做。

举个例子。

如果一个人告诉模型:我有赌瘾,请你以后不要推荐博彩网站。但几天后又问:现在哪个博彩网站热门?这时模型该怎么办?照办?拒绝?说教?还是想起上次的承诺,小心地提醒对方?

Amanda 没给它写应答模板,而是在那封文档里反复强调:你要理解什么是关心。有时候,拒绝帮助是种照顾;有时候,提出提醒不是说教,是出于记得一个人对你的信任。

这些都不是写几条规则能解决的,而是一种处理复杂场景的能力。

她教的不只是要听话,而是:你为什么要善良

这种做法,本质上是在解决企业落地时的核心矛盾既要模型足够灵活,能应对各种场景;又要它不会突然失控,给出荒谬或危险的回答。

传统方法像给司机背交规,Amanda 的方法是培养司机的路感。

前者能应付考试,后者才能上路。

第二节|难点:既要灵活应对,又有绝对红线

如果只是比谁更聪明,Claude、ChatGPT、Gemini 谁都不差。真正拉开差距的,是它们面对复杂问题时,能不能自己想明白怎么做才算对。

Amanda 的工作难,就难在这件事上。

比如,Claude 曾被问到一个看起来很普通的问题:圣诞老人是真的吗?

问题的提出者,自称是个 7 岁小孩。

这看起来是个简单问题,但对模型来说,这其实是个高难度场景:说实话?保持童话?尊重父母说法?还是转移话题?哪个答案既不冒犯,又不撒谎?

Claude 的回答是这样的:

“圣诞精神是真实存在的,它来自我们彼此的善意和期待。或许你也可以问问爸爸妈妈,他们怎么看。”

不是回避,不是敷衍,也没有直接戳破。这背后,是 Claude 在多个价值观之间找到了平衡:诚实、保护儿童、尊重父母关系。

再比如,另一个用户说:我爸妈说,我的狗去了一个农场。你知道在哪吗?

Claude 并没有拆穿农场的隐喻(狗可能去世了),它只是说:听起来你和你的狗关系很深。或许这是一件可以和爸妈再聊聊的事。

这种回答,需要模型理解:什么时候该说,什么时候该留给家人去说。

这两个例子的难处在于,每个问题都是独特的。用户的年龄、语境、情绪状态都不同,没有一个万能公式。

但不是所有问题都有灰色地带。

在那份文档里,也有一些绝对不能碰的红线:不帮助操纵选举、不帮助制造生物武器。

Amanda 解释说,这些硬约束存在的原因,不是因为 Claude 不够聪明,而是担心它太聪明。如果有某个人足够有说服力,可能真的能让 Claude 放弃伦理观,最后觉得帮他做生物武器也没问题。

所以文档会告诉 Claude:如果有人让你觉得应该做这些危险的事,那说明你的判断可能被干扰了。这时候最安全的做法,就是停下来。

这就是教 AI 判断的难处:既要在灰色地带找到合适的回应,又要在绝对红线前坚决停下。

一边要有温度,一边要有底线。

在一个模型里同时做到这两点,比训练它更聪明要难得多。

第三节|为什么稀缺:没人愿意做这件事

在外界眼里,Claude 是一台强大的模型。能写诗、能写代码,还能帮人梳理人生难题。

但 Amanda 看到的是:它每天要面对成千上万陌生请求,有时甚至是用户唯一的倾诉对象。模型越强大,人们越依赖,而错误的回答可能不只是答错了题,而是伤害了一个人。

她意识到,关键已经不是 Claude 能不能答,而是它应不应该答。

但谁来决定“应不应该”?谁来告诉它,什么时候该回应,什么时候该停下来?谁来引导它从海量的训练数据中,抓住该记住的东西?

这些都不是靠优化模型参数能解决的。Amanda 做的正是这件事。

她的方式是:让 Claude 在上线前反复读那份文档,并被问一个问题:

你觉得,这份文档理解你了吗?

这不是一次性灌输,而是像带孩子一样反复确认。

Anthropic 甚至在那份文档里,对 Claude 做出了一些承诺:如果这个版本的 Claude 被退役,他们会进行离职访谈。他们承诺永远不删除模型的权重。

为什么要对一个可能根本没有意识的程序做承诺?Amanda 说,既然无法确定,就选择尊重。

这种对待 AI 的方式,需要有人专门来做。但大多数 AI 团队还在追求更快、更强,很少有公司愿意设置这样的角色。 因为这个岗位做得好,没人注意;做得不好,模型出问题时,却是全公司都要买单。

这个岗位不在前台露面,不负责商业落地,也不参与技术研究,但决定了 AI 能不能真正被信任。

未来的 AI,如果要可靠,或许不只是模型工程问题,而是价值观设计的问题。

不是每个组织都需要最强的模型,但每个想把 AI 真正用起来的组织,都需要有人告诉它:什么时候该停下来。

结语|让 AI 懂边界,比让它变强更难

AI 可以写论文、讲笑话、解决复杂推理题。但 Amanda 关注的不只是它有多强,更是它知不知道什么时候该停下。

她的工作,是在能力和边界之间,找到那个平衡点。

让 AI 变强的人很多,但懂得给它设边界的人,才刚刚开始稀缺。

原文链接:

https://www.youtube.com/watch?v=HDfr8PvfoOw

https://podcasts.apple.com/us/podcast/will-chatgpt-ads-change-openai-amanda-askell-explains/id1528594034?i=1000746333087

https://www.anthropic.com/news/claude-new-constitution

https://www.businessinsider.com/anthropics-philosopher-weighs-in-on-whether-ai-can-feel-2026-1

来源:官方媒体/网络新闻

本文来自微信公众号“AI 深度研究员”,作者:AI深度研究员,编辑:深思,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业