评价中心悖论:AI是它真正的考验
当一家大公司准备选拔新任CEO时,他们会把候选人关进一间屋子,整整三天。模拟董事会、处理危机邮件、带队谈判,六位专家在隔壁屏息观察。这就是评价中心(Assessment Centers)。它像人才选拔领域的瑞士钟表:精密却昂贵,极少有人买得起。
这是组织行为学领域中一个长期被回避的事实:评价中心是行业内最严谨的人才选拔方法之一,但绝大多数公司从未用过它,也觉得用不起。
评价中心的设计逻辑其实很直白:在与岗位相关的真实情境中观察候选人的实际行为,由多位受过训练的评鉴师独立打分,最后通过整合会议(integration session)形成最终判断。
评价中心结果的可信度和可靠性[1] [2],恰恰也是它稀缺的原因。
一场为高管或管培生设计的传统评价中心,每位候选人的成本通常在2000—5000美元之间。它需要场地、多名评鉴师脱产数日、专业角色扮演者,以及整合会议。整个流程从设计到部署,往往以月计[3]。
结果是:评价中心几乎只服务于金字塔尖的少数候选人,而绝大多数招聘和晋升决策依旧依赖效度更低的方法。
这种稀缺性在中国市场更加明显。根据现有行业数据估计,中国人才测评市场2022年总规模约为31亿元人民币,预计到2028年也只有约47亿元。国内市场年均增速约10%,远低于海外30%—50%的水平[4]。
其实,“人才测评”在中国还是一个相对窄的概念,多数情况下指的是性格测验、认知能力测验和在线测验的组合。而真正意义上的评价中心,是多维度、多评鉴师、多情境模拟。
目前,主要有两类组织在用:一是大型央国企的干部选拔与公开竞聘,二是少数将其作为高管继任和领导力发展工具的头部民营企业。北森作为国内市场份额第一的本土厂商,客户覆盖了约70%的中国500强。但同样的工具在中型企业的渗透率明显偏低;政企行业的整体渗透率约30%,已经是各行业中最高的了[5]。
换句话说,如果说在美国,评价中心的用户是金字塔尖;那么在中国,这个尖更细,塔身更宽。绝大多数中国企业过去既没有预算,也没有耐心去做一场严肃的行为评估。这恰恰是AI介入时最大的机会,也是最大的风险。
#1 AI 改写的,是经济学
在人才评估场景中,如果要为AI做一个诚实的辩护,并不是说它比人类打分更准确,至少现在还不是。真正成立的论点是:AI能够以传统方法做不到的成本和规模,去复刻评价中心最有价值的那部分——基于行为的标准化观察。一个原本需要三周协调、六位评鉴师、专门场地的流程,理论上可以浓缩成候选人在家完成的90分钟模拟。
资本市场显然相信这件事。
乔什·伯辛公司(The Josh Bersin Company)在2024年的市场分析中估计,全球HR技术市场规模已达约2000亿美元,其中人才获取(talent acquisition)与人才智能(talent intelligence)是AI投入最为活跃的子市场之一[6]。
过去几年,围绕情境模拟评估的代表性公司接连发生重大资本动作。2019年,凯雷集团(The Carlyle Group)取得HireVue多数股权;2023年5月,HireVue又收购了原Riverside Company旗下的Modern Hire;专注沉浸式角色扮演的Mursion也在2019—2020年间完成多轮千万美元级融资。
在中国市场,类似趋势体现为本土厂商从单一测评工具向AI驱动的一体化人才管理SaaS平台转型。例如,北森通过AI视频面试与在线评价中心等产品,推动情境模拟评估的数字化与规模化应用[7]。
值得管理者注意的是:资本并不需要科学完美就能赢得市场份额,它需要的是科学“看起来够好、够用”,外加快速集成、流畅UI和高管喜欢的仪表盘。这是一个让工业与组织心理学家不安的事实,即在企业采购流程中,看起来可信、流畅的演示,往往比严谨的效度证据更具说服力。
#2 AI 没有改写的,是效度问题
然而,故事在这里开始转向一个更深层的测量问题。同一种生成式AI在承诺规模化评估的同时,引入了一个我们以前不必处理的测量问题:相同的输入会得到不同的输出。
哈尔达(Haldar)和霍肯迈尔(Hockenmaier)在2025年发表的研究中系统证明,把LLM当作评分者使用时,多次运行之间的一致性极低,最差情境下接近“随机”[8]。斯图尔博格(Stureborg)等人2024年的进一步研究则记录了LLM评估者的多种系统性偏差,包括熟悉度偏好、评分尺度偏差、整数化评分倾向、锚定效应等[9]。在评估场景中,这意味着同一份候选人转录稿跑五次可能得到五个不同的分数。这不是工程bug,而是当前生成式模型的固有属性。
更深层的问题是偏见。
亚马逊在2018年关停了其试验中的AI简历筛选工具。原因是该系统在以男性为主的十年历史简历数据上训练后,系统性地降级了包含“women’s”一词或女子学院毕业生的简历[10]。
HireVue在2019年被EPIC(电子隐私信息中心)投诉至FTC(美国联邦贸易委员会)后,于2021年宣布停止使用面部表情分析评估候选人,但仍保留基于语言、语音和其他行为特征的分析,这些做法同样面临公平性、透明性和科学有效性的质疑[11]。
工业与组织心理学几十年积累的核心教训之一是:模型从历史数据中学到的不是“什么是好员工”,而是“过去谁被录用了”。当历史本身有偏见,模型只是把偏见自动化、规模化,并把它隐藏在算法不透明性之后。
#3 监管时钟在走
如果上述科学问题还能被产品营销暂时绕过,监管的脚步不会等。欧盟《AI 法案》(Regulation (EU) 2024/1689)附件 III 明确将“用于招募、筛选、评估候选人”以及“影响劳动关系条款、晋升、解除雇佣的AI系统”列为高风险类别,要求供应商和部署方满足风险管理、数据治理、有意义的人工监督、技术文档、欧盟数据库注册等一系列义务,核心条款于2026年8月2日起强制执行[12]。
在美国,科罗拉多州AI法案(Colorado AI Act, SB 24-205)是首部综合性州级AI立法,把雇佣和晋升明确纳入“重大决策”(consequential decision),要求开发者和部署者承担“合理注意义务”(reasonable care)以避免算法歧视。该法原定2026年2月1日生效,经过激烈产业博弈后由SB 25B-004推迟至2026年6月30日,目前仍面临联邦层面的法律挑战[13]。
中国的监管路径与欧美不同,但方向并不相反。由国家网信办等四部门发布、2022年3月1日施行的《互联网信息服务算法推荐管理规定》是国内首部针对算法应用的综合性部门规章,其中专门要求向劳动者提供算法服务时,“应当建立完善平台订单分配、报酬构成及支付、工作时间、奖惩等相关算法”,并赋予用户算法知情权与选择权[14]。
这一条款的直接对象虽然是平台经济,但其逻辑——当算法对劳动者权益或个人选择产生实质影响时,企业需要提供更高程度的知情、选择、解释和责任追溯机制——同样可以适用于AI招聘和晋升系统。
更直接相关的是 2023年8月15日生效的《生成式人工智能服务管理暂行办法》。该办法第四条明确要求服务提供者“在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视”[15]。
把这条规定和AI评估场景对照来看:训练数据中的历史招聘偏差、模型对某些行业用语的偏好、对地域口音或学历背景的隐性区分,都可能落入“歧视”范畴。同时,《办法》还要求具有舆论属性或社会动员能力的服务提供者履行算法备案和安全评估义务——目前监管对这两个概念的解释呈扩张趋势,AI 招聘类系统是否会被纳入备案范围,目前业内并无定论,但风险显然存在。
对中国企业来说,这意味着采购AI测评工具时不能只看准确率和案例数,还需要至少回答两个问题:第一,供应商能否提供训练数据来源、模型偏差测试报告和算法审计文档?第二,如果一名被淘汰的候选人主张算法歧视,企业能否拿出符合《暂行办法》要求的合规证据?这两个问题在国资委监管的央企和涉外业务的大型民企中尤其关键,因为它们既要满足国内合规要求,也要在涉欧业务中应对EU AI Act的域外效力。
对所有企业而言——无论身处哪个法域——这些法律的真正意义不是该不该用AI,而是用了AI之后,是否能向监管者、法院和被拒绝的候选人解释清楚它做了什么、为什么这么做、对哪些群体可能造成差异化影响。这正是当前绝大多数AI评估产品最薄弱的地方。
真正的答案是混合,但混合不是平均。
业界目前最常被提到的折中方案是混合模型(hybrid model),即人和AI各做一部分。方向是对的,但执行层面有一个很容易踩的陷阱:把混合简化成一个人类评鉴师 + 一个AI评鉴师各打一分然后取平均值。这种做法回避了真正的设计问题——什么任务该交给 AI,什么任务必须留给人。
更有用的拆解是按“判断的边际成本和容错性”来分层。AI在结构化、可观察、有清晰行为锚点的维度上具备相当大的优势。比如,生成符合岗位分析的模拟情境、起草评分量表和行为锚定示例(BARS)、把候选人发言对照预设维度做初步标注、对大规模数据做一致性检查。这些是人类评鉴师做得来但单位成本极高的工作;AI在这里降低成本的同时,反而可能提高一致性。
而人在另一类判断上目前依然不可替代:含有情境理解和反事实推理的复杂行为评估,以及任何会显著影响候选人职业生涯的最终决策。
一位资深评鉴师讲过这样一个案例:某位候选人在in-basket练习里把“给妈妈回电话”排在任务清单的最前面——按打分量表这显然是优先级错误。但当评鉴师在事后访谈中追问时,候选人解释:“我妈妈从来不在工作时间给我打电话。如果她把电话打到我办公室了,一定是急事。”这个判断瞬间从扣分项变成了加分项。这种基于上下文的理解,是当前AI仍难以稳定胜任的事情,也正是欧盟法规中“有意义的人工监督”想要保护的内容。
#4 给领导者的三个判断
对正在评估AI测评工具的高管来说,真正值得问的,可能已经不只是“它能不能降低成本”,甚至也不只是“它准不准”,而是三个更具体、也更关键的问题。
第一,这个工具能否让你向监管者以及你自己的法务部门清晰说明“它在做什么决策、基于什么训练数据、对哪些群体可能产生差异化影响”?
无论是 EU AI Act、Colorado AI Act 还是中国《生成式人工智能服务管理暂行办法》,对“可解释性”和“反歧视”的要求在文本表述上各有不同,但底层逻辑趋同。一套今天回答不出这三个问题的工具,很有可能会在未来两到三年内变成合规债务。
第二,你是在用AI替代评估,还是在用AI扩大评估的覆盖范围?
前者把AI放在原本由人类评鉴师把关的位置,继承了所有效度风险;后者把AI放在原本根本没有评估的环节,例如海量初筛或内部人才盘点的初稿,在这些环节即使中等质量的判断也比“什么都没有”要好。两者的风险与收益完全不同。
第三,谁拥有最终的判断权?
这并不只是一个算法问题,更是一个组织治理问题。一旦AI输出被视为“默认正确”,或者对评鉴师形成强烈锚定,再专业的人类判断也可能逐渐退化为对机器建议的确认。测量与决策研究早已反复发现这种“自动化偏向”(automation bias);不同的是,如今它开始影响招聘、晋升和领导者选拔等后果高度敏感的组织决策。
#5 真正的代价
回到最初的悖论:评价中心是少数被严谨研究、效度可被复现的选拔方法之一。它的问题从来不是科学,而是规模和可及性。AI能否解决这个问题?在某些环节上,大概率是可以的。但AI是否能在不损害科学严谨性的前提下解决这个问题?这一点远未确定。
未来几年真正的竞争,不是“AI还是人类”这种二选一,而是谁来定义这套混合系统的标准,是把分发渠道、用户界面和采购预算握在手里的科技公司,还是那些理解构念信度效度、偏见检测和心理测量学的专业群体。如果后者继续把自己定位成“慢工出细活的反对派”,答案不言自明;但如果他们能学会用业务语言、监管语言、产品语言把科学翻译出来,那么这套系统的标准就还有可能由专业判断、而非营销叙事来定义。
评价中心未来叫什么名字、长什么样,其实并不重要。
重要的是它依然让对的人被看见、让错的人被识别,而这一点,从来都不只是一个技术问题。
注释:
[1] Gaugler, B. B., Rosenthal, D. B., Thornton, G. C., III, & Bentson, C. (1987). Meta-analysis of assessment center validity. Journal of Applied Psychology, 72(3), 493–511.
[2] Arthur, W., Jr., Day, E. A., McNelly, T. L., & Edens, P. S. (2003). A meta-analysis of the criterion-related validity of assessment center dimensions. Personnel Psychology, 56(1), 125–153.
[3] U.S. Office of Personnel Management, “Assessment Centers” guidance; 行业成本数据另见 Schmidt, F. L., & Hunter, J. E. (1998). The validity and utility of selection methods in personnel psychology. Psychological Bulletin, 124(2), 262–274.
[4] 头豹研究院,《2024 年中国人才测评行业概览》;华经产业研究院,《2024–2030 年中国人才测评行业市场发展监测及投资战略咨询报告》。
[5] 同上;另见 HRTechChina 关于国内外人才测评市场增速对比的行业分析,以及北森公司关于其客户构成的公开披露。
[6] The Josh Bersin Company, “HR Technology 2025: An Existential Change Driven by AI,” 2024年9月市场分析报告新闻稿(PR Newswire, 2024 年 9 月 25 日);另见 Bersin 在 HR Technology Conference 2024 的主旨发言。
[7] 北京北森云计算股份有限公司,AI 闪面相关技术发明专利“视频面试多维评分方法、系统、计算机设备及存储介质”,由国家知识产权局授权;北森 iLeader Plus 在线评价中心产品资料。
[8] Haldar, R., & Hockenmaier, J. (2025). Rating Roulette: Self-Inconsistency in LLM-As-A-Judge Frameworks. arXiv:2510.27106.
[9] Stureborg, R., et al. (2024). Large Language Models are Inconsistent and Biased Evaluators. arXiv:2405.01724.
[10] Dastin, J. (2018, October 10). Amazon scraps secret AI recruiting tool that showed bias against women. Reuters.
[11] Electronic Privacy Information Center (EPIC), “In re HireVue” FTC complaint, November 2019;HireVue 于 2021宣布停止使用面部表情分析。
[12] Regulation (EU) 2024/1689, Annex III §4(a)(b)。高风险AI系统的核心义务自2026年8月2日起逐步生效。
[13] Colorado Senate Bill 24-205 (Colorado Artificial Intelligence Act, 2024);实施日期经 SB 25B-004 (2025年8月28日由 Polis 州长签署) 推迟至 2026年6月30日。详见 National Association of Attorneys General, “A Deep Dive into Colorado’s Artificial Intelligence Act” (2024 年 10 月)。
[14] 国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局,《互联网信息服务算法推荐管理规定》,2021年12月31日发布,2022年3月1日起施行。
[15] 国家互联网信息办公室等七部门,《生成式人工智能服务管理暂行办法》,2023年7月13日发布,2023年8月15日起施行,第四条。
本文来自微信公众号“复旦商业知识”(ID:BKfudan),作者:姜铠丰,36氪经授权发布。















