再次暂停实施24%关税90天:中美关税博弈背后的“重复囚徒困境”
1988年的游戏产业里,任天堂是当之无愧的霸主。红白机(Famicom)和《超级马里奥兄弟》不仅吸引了超百万玩家的注意力,还牢牢攥着95%的日本市场和83%的北美市场份额。但谁也想不到,六年后,这个格局将不复存在。
20世纪90年代,电子科技巨头索尼入局游戏业,新一轮“主机大战”打响。1994年,雄心勃勃的任天堂不“灵”了,新品Nintendo 64的累计销量堪堪达到索尼PlayStation的三分之一。曾经强势的行业霸主第一次尝到了“力不从心”的滋味。
许多人能够看到索尼成功与任天堂退败背后的复杂因素:技术也好,渠道也罢,交织着战略决策的明智与失误。但若将索尼入局前后的两次“大战”一贯梳理,人们会发现,这场逆转的背后藏着一段从握手到反目的博弈往事。
20世纪90年代初,CD-ROM如一阵新风刮过游戏圈——大容量能装下更复杂的画面和音效,低成本又能让游戏变得更亲民。任天堂看着卡带的容量瓶颈,动了升级的心思,而尚未涉足游戏行业的索尼,正拿着领先的光盘技术,渴望找到一扇入行的门——利益咬合,两家企业决定合作——任天堂想借索尼的技术突破限制,同时紧攥着生态控制权,用严格的第三方授权牢牢把控利润和质量。索尼则要借合作把光盘技术种进游戏硬件的土壤里,在陌生市场分到第一杯羹。
然而很快,合作就出现了裂痕——任天堂突然发现了协议中的一个“控制权漏洞”:根据双方最初的约定,索尼不仅负责CD-ROM硬件开发,还将拥有基于该格式的游戏知识产权,包括对第三方游戏的授权审批权——这意味着索尼可能分流任天堂的核心利润,甚至动摇其对主机生态的主导地位。不管这是不是索尼刻意制造的“空子”,任天堂最终选择了“暗度陈仓”:表面上继续与索尼的合作,防止其寻找其他合作者,暗地里则与飞利浦达成新的协议,为后续过渡铺路。
1991年的CES展会上,戏剧一幕上演了。索尼刚刚砸下重金,把名为“PlayStation”的SFC-CD混合原型机摆在展台上,准备宣告合作成果,却冷不丁听到了任天堂和飞利浦联手的消息。索尼被这记“背刺”打了个措手不及。
这场撕破脸的结局颇具戏剧性。索尼索性破釜沉舟,把PlayStation推向市场,正式进军主机行业。CD-ROM成了它最锋利的武器——第三方开发商们早就受够了卡带的高成本和小容量,纷纷带着作品投靠过来。最终,PlayStation卖出了约1亿台,在任天堂的地盘上凿出一片新天地。
而任天堂呢?和飞利浦合作的CD-ROM设备迟迟不成熟,错过了技术风口。下一代主机N64只好继续用卡带,哪怕《超级马里奥64》口碑不错,也挡不住第三方开发商用脚投票。高成本让游戏售价居高不下,小容量装不下复杂的3D世界,曾经围着它转的合作伙伴,渐渐都跑到了索尼阵营。
在这场博弈中,任天堂看似耍了“小聪明”:表面上不破坏既有的合作关系,同时背地里找飞利浦攒一个“plan B”——结果非旦没有获得双倍收益,反而得到了“惩罚”。有人说,索尼从一开始就留了后手,那个“漏洞”是故意设的局;也有人觉得,任天堂若不反击,迟早会被索尼架空。不管怎么说,在单次博弈里,双方都因追求个体利益最大化而偏离合作,最终陷入“非最优”的均衡。
这就是我们常说的“囚徒困境”。如果索尼耍了小聪明,任天堂也一样,双方在博弈中都选择了“背叛”,那么即便集体收益要小于双方合作,对各方来说,最终结果都谈不上“最差”。但如果相似的博弈总要出现呢?如果预期的博弈将持续进行,双方总会不断在“非零和博弈”中遇到,索尼还会放任漏洞、任天堂还会选择“背刺”吗?
这个问题,在国家间的关税谈判里有了更现实的答案。从2018年到2025年,中美关税博弈你来我往,直到第三次宣布“暂停实施24%关税90天”,人们已足够看清:重复博弈里没有永远的赢家,每一次选择都为下一次相遇埋下了伏笔。就像游戏主机市场的兴衰,单次博弈的胜负转瞬即逝,而参与者们要考虑的,永远不只是脚下这一步。
#1
“鸡肉战争”摧毁了底特律?
如果预期的博弈将持续进行,参与者将不可避免地重复互动,他们会采用什么策略来应对“重复囚徒困境”?美国现代历史上的两次“关税战”向我们展示了一些典型的策略。
1962年,欧洲许多国家的人不再那么容易就能吃到美国的进口鸡肉了。法国人开始听到一种言论,说美国出口的廉价鸡肉里含有激素。这一切都是出于欧洲各国政府对国内传统农业的保护——20世纪50年代,美国通过工业化养殖技术大幅降低鸡肉成本,价格从1948年的70美分/磅降至1960年的29美分/磅。流水线生产的廉价鸡肉大量涌入欧洲市场,欧洲传统农业从业者不堪竞争压力。法国禁止进口、荷兰指控美国倾销,欧共体(欧盟前身)则于1962年对美国进口鸡肉实施高额关税与配额限制,导致美国对欧禽肉出口额在一年内暴跌25%。
美国政府迅速反击。1963年12月,约翰逊总统依据《贸易扩展法》对欧共体进口的马铃薯淀粉、糊精、白兰地和轻型卡车加征25%关税。这一选择极具针对性:马铃薯淀粉与糊精主要来自法国,白兰地也是法国传统优势产品,而轻型卡车直接对冲德国大众汽车——其时,大众T2车型占美国进口轻型卡车市场的70%。美国贸易代表甚至在新闻发布会上展示冻鸡,戏称“它比导弹更危险”,以讽刺欧洲的贸易保护主义。
双方多个产业同时受到不小的冲击。随后,美欧在关贸总协定(GATT)框架下展开谈判。美国以撤销卡车关税为筹码,要求欧共体降低鸡肉关税。最终,欧共体将鸡肉关税从每磅13美分降至10美分,美国则取消对马铃薯淀粉和糊精的报复性关税,但保留了对轻型卡车的25%关税——这一税率沿用至今,成为美国保护本土汽车产业的标志性政策——即“鸡肉税”。
在这场博弈中,美欧双方均面临“合作”(维持低关税)与 “背叛”(加征关税)的二元选择。欧洲先选择背叛(提高鸡肉关税),美国随即以牙还牙,形成典型的“针锋相对”的囚徒困境。不同于简单的以牙还牙,美国的报复清单刻意混合了农产品(马铃薯淀粉、白兰地)与工业品(轻型卡车),既回应欧洲对农业的保护,又通过打击德国核心产业(汽车)迫使欧共体让步。通过跨行业的“交叉报复”(Cross-Retaliation)策略,制造多维度压力,以提升谈判筹码。
这种来来回 回的报复持续了数年,双方都不愿打破这个循环。结果是,美国鸡肉出口商损失2800万美元,欧洲汽车与农产品出口商损失约2600万美元。欧洲对鸡肉的保护虽短期缓解了本土农业危机,却延缓了产业升级,导致欧洲养鸡业长期依赖补贴。美国的“鸡肉税”虽保护了汽车产业,却削弱了其全球竞争力——对此,哈佛大学国际贸易与投资学教授罗伯特·劳伦斯(Robert Z. Lawrence)认为,“鸡肉税”才是导致底特律衰败的真正原因,因为它使底特律的汽车行业在40年的时间里都处于隔绝竞争的状态。当然,更深远的影响是,美欧双方信任受损,GATT框架下的多边贸易规则受到挑战。
这就是重复囚徒困境博弈中的痛点:如果预期的博弈将持续进行,双方总会不断遇到,那么“针锋相对”似乎就不是一个最优方案。
20世纪80年代至90年代初的美日贸易战,是另一个典型的重复博弈案例。彼时,日本在汽车、半导体等领域凭借技术优势和成本控制大量挤占美国市场,导致美国贸易逆差持续扩大,引发美国企业与政客的强烈不满。其中,日本汽车以省油、低价优势占据美国市场20%以上份额,而美国汽车在日本市场渗透率近乎为零。1981年,美国通过施压迫使日本实施“自愿出口限制”(Voluntary Export Restraints ),将对美轿车出口量从1980年的182万辆降至每年168万辆,并进行动态调整。作为回应,日本车企开始在美国本土设厂,以本地化生产规避限制。
1986年,美国又通过《美日半导体协定》要求日本停止倾销、开放市场,并设立“外国产品在日市场份额达20%”的量化目标。此外,美国还借助1985年的《广场协议》联合欧洲施压,促使日元兑美元汇率三年内升值50%,削弱日本出口竞争力。这场贸易战最终以日本经济陷入“失去的十年”、美国借助信息技术产业重获优势告终,深刻重塑了全球供应链格局。
针锋相对并非最优,一味妥协代价也很大。那么,在重复囚徒困境中,存在一种最优策略吗?
#2
为什么“一报还一报”策略能成功?
美国博弈论学家罗伯特·阿克塞尔罗德(Robert Axelrod)认为,并不存在一种能独立于其他策略而始终最优的策略。
在人类社会中,合作是普遍存在的,这似乎与理性个体追求个人利益最大化的“个体自私”假设存在矛盾。17世纪的哲学家霍布斯曾提出,无集权状态下,自私个体的竞争会导致“孤独、贫穷、肮脏、野蛮和浅薄”的自然状态,认为合作必须依赖集权强制。然而现实中诸多案例(如美国参议院的“回报准则”)表明,合作可在无集权环境中自发形成——甚至在那些完全敌对的情形中也能成立。
这样的情况是有规律的吗?不受集权控制的利己主义者之间,合作如何出现?这些追求各自利益的个体行为受社会系统中的哪些因素影响?我们又如何通过个体行为来推断整个系统的结果?存在一种任何情境下都最优的策略吗?这是阿克塞尔罗德试图弄清楚的问题。
在“囚徒困境”模型中,收益矩阵由双方合作(R,奖励)、单方背叛(T,诱惑;S,笨蛋报酬)、双方背叛(P,惩罚)这三种情况组成。在总收益方面,T>R>P>S,且R>(T+S)/2。因此对个体而言,无论对方选择合作还是背叛,背叛都是最优策略——即便双方背叛(P)的收益低于双方合作(R)。但在重复博弈中,由于存在着双方不断产生互动的可能性,单次的收益模型也就发生了变化。对“未来”的预期必须要考虑多轮次的互动历史,尽最大可能弄明白“对方会怎么做”,并据此动态地调整每一轮次的策略。
“最优策略”要求在任何环境中都能最大化收益,但在重复囚徒困境的非零和博弈中,一方的收益并非必然以另一方的损失为代价,而是取决于双方的策略互动。因此策略的有效性总是“相对的”。
这也就引出了合作困境中的关键问题:究竟什么时候应该合作,什么时候不能?
为了探索上述问题的答案,阿克塞尔罗德设计了两轮计算机竞赛:
在第一轮中,他邀请了14位来自经济学、心理学、社会学、政治学和数学领域的专家,提交应对“重复囚徒困境”的计算机程序(即以程序形式表达的应对策略)。策略需明确在每一步如何根据双方过往互动历史选择合作或背叛。程序间将进行循环赛,每轮对局包含200步重复囚徒困境博弈。结束后,将计算每个程序与所有其他程序对局的总得分,得分最高者获胜(收益矩阵如下) 。
R:对双方合作的奖励 T:对背叛的诱惑
S:给笨蛋的报酬 P:对双方背叛的惩罚
(纵向为列游戏者,横向为行游戏者)
为验证第一轮结果的鲁棒性,阿克塞尔罗德又设计了更具挑战性的第二轮竞赛:向全球征集策略,最终收到62个程序,包括来自6个国家的计算机爱好者、进化生物学家、物理学家等,且部分参赛者已知晓第一轮结果。
两轮实验中,最终获胜的是最“简单”的策略——多伦多大学阿纳托尔·拉帕波特提交的“一报还一报”(Tit-for-Tat)策略——第一步总是先合作,此后的每一步都模仿对方上一步的选择。在第二轮中,即便有数个策略针对获胜的“一报还一报”展开了挑战(或有人试图将它优化),后者还是获得了最高分。
在分析获胜策略的优势前,不妨先来看看以下几种典型策略的特征:
唐宁(DOWNING)
属于复杂策略,试图通过估算对方在自身合作/背叛后的合作概率,动态调整行为以实现长期收益最大化。初期假设对方不反应,因此前两步必然背叛,随后根据对方行为更新对其“反应性”的判断,若对方倾向于回应合作,则选择合作,否则持续背叛。
表现:因初始背叛引发许多策略的报复,导致开局失分;虽能通过后期调整适应部分策略,但复杂的计算逻辑使其难以稳定发挥,在两轮竞赛中排名靠后,证明过度依赖估算和短期投机不利于长期合作。
弗里德曼(FRIEDMAN)
属于善良策略中的“强硬派”,从不首先背叛,但一旦对方背叛(即使仅一次),便永久报复(持续背叛),缺乏宽容性。
表现:与其他善良策略相处时能稳定合作,但面对偶尔失误的背叛(如对方误操作)时,会因永久报复陷入双方背叛的僵局,收益受损;在进化模拟中,容易被更宽容的策略(如“一报还一报”)取代,因其无法修复合作关系。
乔斯(JOSS)
“一报还一报”的变体,整体模仿其逻辑,但会以10%的概率在对方合作时选择背叛,试图通过偶尔投机占便宜。
表现:单次背叛可能暂时获利,但会引发对方报复,导致双方陷入 “背叛 - 报复” 的循环;长期来看,其投机行为破坏了合作基础,总收益低于“一报还一报”,在竞赛中排名较低,证明小聪明式的背叛最终会损害自身利益。
两报还一报(TIT FOR TWO TATS)
比“一报还一报”更宽容,仅在对方连续两次背叛时才选择报复,对单次背叛持容忍态度。
表现:在面对孤立背叛时能避免冲突升级,与善良策略合作时表现优异;但容易被“试探性背叛”策略(如“检验者”)利用,因宽容度过高导致持续被占便宜,在存在频繁背叛的环境中收益不如“一报还一报”稳定。
检验者(TESTER)
具有挑衅性,第一步故意背叛试探对方,若对方报复则立即道歉(恢复合作),若对方容忍则持续背叛。
表现:对“一报还一报”等可激怒策略无效,因首次背叛会引发对方报复,导致自身收益下降;但能短暂剥削宽容度过高的策略(如“两报还一报”),不过长期会因持续冲突被淘汰,证明缺乏善意的试探难以持久。
镇定者(TRANQUILIZER)
初期合作以建立信任,待关系稳定后(约10-20步)开始偶尔背叛,且背叛频率随对方容忍度提高而增加,试图在不引发激烈报复的前提下占便宜。
表现:能暂时欺骗宽容性策略,但面对“一报还一报”时,首次背叛就会引发报复,导致合作破裂;其隐蔽的背叛模式使其在初期得分尚可,但长期因频繁冲突收益下滑,在竞赛中排名中等偏下。
将上述表现参差不齐的策略和“一报还一报”策略放在一起对比,能够发现四个描述策略优势的维度:“善良性”“可激怒性”“宽容性”和“清晰性”。“一报还一报”的成功,正是因为更好地平衡了这四个维度的表现。其他策略则或因过度投机(如乔斯)、缺乏宽容(如弗里德曼)、宽容度过高(如两报还一报),或挑衅性过强(如检验者、镇定者),难以在多样化环境中稳定胜出。
因此,现在我们能够更全面地理解“一报还一报”的胜出原因:
1.善良性:不⾸先背叛,对方合作我也合作,避免不必要的冲突。
2.不可欺负性:如果对方无理背叛,我是可激怒的。
3.宽容性:给挑衅以反击后,我是宽容的。
4.清晰性:行为模式简单清晰,使对方能判别,适于引向长期合作。
为了验证“一报还一报”策略的鲁棒性,阿克塞尔罗德进一步从进化生物学视角做了拓展实验:在包含62种策略的群体中,“一报还一报”等善良策略(从不首先背叛)初期比例较低,但因其与其他成功策略互动时能持续获得合作收益(双方得分R=3),得分显著高于“总是背叛”等剥削策略。随着世代更替,这些成功策略的比例不断上升。结果表明,成功策略因适应性优势在生态演化中不断扩大比例,而依赖剥削的策略会因失去生存基础走向消亡——这一过程与生物进化中物种的存续与淘汰机制高度契合。
这正是因为善良性使其与同类策略形成稳定合作,而可激怒性(报复背叛)和宽容性(原谅孤立背叛)又能抵御剥削,因此其适应度不依赖特定环境,而是在多样化策略中保持稳定收益,最终通过“自然选择”扩大比例。
#3
“90天暂停”背后
2025年8月12日,中美双方发布《中美斯德哥尔摩经贸会谈联合声明》,美国表明将继续修改2025年4月2日第14257号行政令中规定的对中国商品(包括香港特别行政区和澳门特别行政区商品)加征从价关税的实施,自2025年8月12日起再次暂停实施24%的关税90天,同时保留按该行政令规定对这些商品加征的剩余10%的关税。中国将继续修改税委会公告2025年第4号规定的对美国商品加征的从价关税的实施,自2025年8月12日起再次暂停实施24%的关税90天,同时保留对这些商品加征的剩余10%的关税;并根据日内瓦联合声明的商定,采取或者维持必要措施,暂停或取消针对美国的非关税反制措施。此次延期是自2025年5月日内瓦会谈以来的第三次关税暂缓延期,评论普遍认为,这次举措将为中美双方贸易谈判延长缓冲期,有助于双方进一步交流经贸问题,推动取得更多磋商成果。
自2018年至2025年,回顾此次暂缓前的多轮博弈,不难看出这正是一场典型的“重复囚徒困境”博弈。其中,中国的举措恰恰体现了“一报还一报”策略的基本原则,其优势也随着博弈的不断深化而逐渐显现:
总的来看,中国的关税策略始终在善良性和不可欺负性之间保持平衡,同时又体现出清晰性和连贯性。在美方宣布暂停24%关税后,中方同步暂停同等税率关税,并额外暂停非关税反制措施。相较于伺机加码施压的激进策略,这种对等合作配合适度让利的选择,直接传递了“愿以合作回应合作”的意图,恰是“善良性是合作起点”的例证。另外,中国的关税行动严格对应美方举措,在暂停24%关税对等回应之外,仍保留10%关税作为“底线威慑”,让美方清晰感知“合作有回报、背叛有代价”的规则,明确树立边界和底线。
这也是阿克塞尔罗德对本文最初那个问题的回答。在重复囚徒困境中,参与者该如何表现?什么时候“合作”,什么时候不“合作”?他给出了四个基本原则:
不要嫉妒
人们常以相对收益衡量成功,因嫉妒对方优势而选择背叛,试图抵消对方收益。但这种行为会引发双方相互惩罚,最终导致双输,本质是自我毁灭。在长期重复博弈中,对方的成功是自身成功的前提。“一报还一报”策略并非通过打击对方获胜,而是通过引导对方采取合作行为,实现双方共赢。
不要首先背叛
善良性是合作的起点。不主动发起背叛,能避免触发“背叛-报复”的恶性循环,为对方提供合作的动力和空间。在重复互动中,首次背叛会打破信任基础,使后续合作难以重建。保持不首先背叛的姿态,是维持长期博弈中合作可能性的基础。
对合作和背叛都要给予回报
策略需具备“可激怒性”和“宽容性”。对对方的合作行为给予正面回应(如继续合作),对背叛行为给予明确反制(如以背叛回应),既避免被持续剥削,又为对方回归合作保留机会。过度宽容会纵容对方得寸进尺,过度严苛会封锁合作的可能,对等回报是维持博弈平衡的关键。
不要耍小聪明(避免策略复杂化)
在非零和博弈中,对方会根据你的行为调整策略,你的行为最终会反射到自身。复杂且难以理解的策略会让对方无法判断你的意图,误以为是随机行为,从而倾向于选择背叛以自保。诀窍仍然在于鼓励合作,即清晰表明你是愿意回报的。
当索尼最终以亿台销量改写游戏主机市场格局时,任天堂不得不为短视的“小聪明”付出代价。从“鸡肉战争”的两败俱伤到“一报还一报”的进化胜出,本质上都是同一个道理:单次博弈里的“最优解”,往往是重复博弈里的“陷阱”。双方都应意识到,“未来”比“当下”更重要,“共赢”比“单赢”更持久。中美再次暂停实施24%关税90天,恰是重复囚徒困境中最生动的注脚——没有永远的“背刺”,也没有绝对的“通吃”,只有守住善良的底线、亮出反击的锋芒、保持宽容的弹性、传递清晰的信号,以合作回应合作、以理性对冲分歧,才能真正跳出囚徒困境。
参考资料:
[1]美 阿克塞尔罗德 R Axelrod, Robert.合作的进化[M].上海人民出版社,2007.
[2]美 谢林 T. C Schelling, Thomas C.冲突的战略[M].华夏出版社,2006.
[3] Ahmad,J.Evans, John W.The Kennedy Round in American Trade Policy – The Twilight of the GATT, The Harvard University Press, Cambridge, Mass.1971, 383 p.[J].\u00c9tudes internationales, 1971, 2(4):708-708.
[4] From Dominance to Competition: A Story of Nintendo's Journey in the Gaming Industry. Chinecherem Nduka. https://hackernoon.com/from-dominance-to-competition-a-story-of-nintendos-journey-in-the-gaming-industry
[5]What Game Theory Can Tell Us About Tariffs. Laurel W. https://medium.com/@laureldoesmath/what-game-theory-can-tell-us-about-tariffs-e7c0c70a897d
追本溯源:
为了更好地理解纷繁复杂的商业现象,我们需要厘清基本概念。涉及本文的内容,我们在《管理学大辞典》上找到了如下相关概念,供各位参考:
博弈(game)
两个或两个以上的决策主体之间发生相互作用的行为时选择最佳策略以获取收益的过程。博弈论研究的对象,是相互作用情形的规范模型,涉及至少两个参与人。博弈的要素包括参与人、参与人的偏好、信息、可选择的策略行动和支付函数。根据人们的行为相互作用时,当事人之间能否达成一个具有约束力的协议,可分为合作博弈和非合作博弈。
博弈均衡(game equilibrium)
博弈的所有参与人最优策略的组合。一般记为s=(s1 ,…,si …,sn ),其中si是第i个参与人在均衡情况下的最优策略,它是i的所有可能的策略中使它的效用或期望效用最大的策略。
囚徒困境(prisoner dilemma)
完全信息静态博弈的一个经典例子。假设两个嫌犯作案后被警察抓住,被分别关在不同的屋子里审讯。警察告诉他们:如果两个人都坦白,各判刑8年;如果两个人都抵赖,因证据不足,各判刑1年;如果其中一人坦白另一人抵赖,坦白的放出去,不坦白的判刑10年。囚徒困境的策略式表述是:
每个囚徒都有两种策略:坦白或抵赖。纳什均衡是“坦白,坦白”:给定B坦白的情况下,A的最优策略是坦白;同样,给定A坦白的情况下,B的最优策略也是坦白。“坦白,坦白”是一个纳什均衡,也是一个上策均衡,即无论对方如何选择,个人的最优选择是坦白。囚徒困境反映了个人理性与集体理性的矛盾。如果两个人都抵赖,各判刑1年,比都坦白各判刑8年好。但这个帕累托改进做不到,因为它不满足个人理性要求,“抵赖,抵赖”不是纳什均衡。市场竞争中的价格战通常就是一种囚徒困境。
重复博弈(repeated game)
同样结构的博弈重复进行多次的过程。动态博弈的一种特殊形式。其中每次博弈都被称为“阶段博弈”。在重复博弈的情况下,企业在选择策略的时候不仅需要考虑当前的对局,而且还需考虑当前选择的策略对于以后的对局将产生怎样的影响。
本文来自微信公众号“复旦商业知识”(ID:BKfudan),作者:刘蕊绮,36氪经授权发布。