AlphaGo对阵李世石十周年,首尔五日细节大揭秘
2016年首尔,AlphaGo与李世石的人机大战令全世界屏息注目。在第二局中,AlphaGo落下的第37手棋,跳出了所有人类棋手的预判:现场解说员直呼“看不懂”;而李世石本人,则在整整思考了12分钟后,才艰难落子。
鲜为人知的是,AlphaGo这震惊世界的一手背后,是DeepMind掌门人哈萨比斯的坚定抉择。备战过程中,为了避免系统出现失误,研究员们建议将随机走法的可能性将至最低,哈萨比斯则力排众议:“我们研发AI,不是为了复制人类思维,而是探索未知的智能边界。”
这段持续五天的传奇对决,在哈萨比斯首部官方授权传记《哈萨比斯:谷歌AI之脑》中,得到了完整的还原。我们从书中摘录了这段精彩故事,以飨读者。
2016年1月,《自然》杂志如期发表了DeepMind关于围棋的论文,并再次让其登上封面。论文发表前一天,该杂志按照惯例,向记者们分发了这篇文章的禁刊版副本。一位记者联系Facebook寻求评论,消息很快传到了扎克伯格耳中。扎克伯格展现出了之前试图挖走DeepMind研究主管科雷·卡武克库奥卢时的竞争锋芒,在《自然》论文公开前仓促发布了一份声明,大肆宣扬Facebook远不如DeepMind亮眼的围棋项目。记者凯德·梅茨(Cade Metz)评论称,这是“一次古怪而不幸的抢先公关尝试”,也预示了不久后将正式展开的AI竞赛。
媒体对Facebook的声明不屑一顾,转而聚焦于DeepMind。在击败樊麾后,DeepMind的智能体(现已命名为AlphaGo)又首次击败了人类围棋冠军,这比专家们的预期提前了大约10年。哈萨比斯在《自然》的封面文章发布时宣布,3月AlphaGo将与韩国传奇围棋大师、18次国际锦标赛冠军李世石(Lee Sedol)对决。DeepMind还为此设立了100万美元的奖金。
哈萨比斯在选择对手时是经过深思熟虑的。他最初的想法是与日本冠军比赛,但在做决定时,日本没有选手处于顶尖行列——韩国和中国是世界上两个围棋强国。考虑到这些选择,哈萨比斯很快就选定了李世石,不仅因为他的职业成就,还因为他所体现的精神。李世石与AlphaGo的比赛,相当于加里·卡斯帕罗夫与IBM“深蓝”的对决,将让痴迷围棋的韩国人陷入更大的狂热。“李世石是民族英雄,韩国人热爱围棋,他们也热爱AI。”哈萨比斯后来表示。
比赛时间的选择也需要谨慎判断。西尔弗估计AlphaGo在3月就能准备就绪,但团队的几位成员希望能有缓冲时间。这套系统偶尔会产生“幻觉”,出现一些看似随机的走法选择。但由于来自其他AI实验室的威胁,哈萨比斯否决了这些怀疑者的意见。Facebook已经紧追不舍,而《自然》的封面文章已经揭示了AlphaGo的工作原理,详细说明了策略网络、价值网络和蒙特卡洛树搜索的组合模式。中国互联网巨头考虑到围棋在本国备受推崇,也会抓住这篇《自然》论文的机会迎头赶上。
DeepMind母公司的支持最终促成了全速推进的决定。2015年底,黄士杰和他的同事们开始在一种新型硬件上运行AlphaGo——一种取代英伟达(Nvidia)GPU的谷歌自研专用芯片。这种名为“张量处理单元”(TPU)的芯片比GPU运算速度更快,通过将数字四舍五入到最近的整数并牺牲少量精度,它可以额外执行数万亿次乘法运算。当黄士杰测试谷歌的新芯片时,又一个令人惊叹的时刻出现了,配备TPU的AlphaGo对阵配备GPU的AlphaGo,胜率超过80%。此时已加入DeepMind团队的樊麾表示,经过升级的AlphaGo有着不同的棋风,它的走法极富创造性,甚至可以说是精妙的。
赴韩国参赛的几周前,谷歌董事长埃里克·施密特(Eric Schmidt)前往伦敦拜访哈萨比斯。如果DeepMind要举办一场类似“深蓝”对阵卡斯帕罗夫的盛事,施密特希望能确保胜利。“进展如何?”他问哈萨比斯。
“各项指标看起来都不错,但我们仍然有些担忧。”哈萨比斯回答。“很好,别搞砸了。”施密特半开玩笑地说。
2016年3月,哈萨比斯、西尔弗和团队如期抵达首尔。埃里克·施密特从加利福尼亚飞来,谷歌TPU芯片的幕后功臣杰夫·迪恩也一同前来。联合创始人、围棋爱好者谢尔盖·布林三天后也加入了他们的行列。这场赛事的盛大程度让访客们感到意外,街上有大批媒体记者和巨大的屏幕,让路人也能一睹这场比赛的盛况。超过2亿人观看了这场人机对决,观众人数是“深蓝”击败卡斯帕罗夫时的两倍多,甚至超过了超级碗的观众人数。
西尔弗感到有些胆怯。“我低估了这件事的影响,差了两个数量级。”他用专业术语说道,以此来形容自己内心的不安。
李世石显得信心满满。他研究了《自然》杂志上发表的智能体与樊麾比赛的每一步棋着,预测自己会以5∶0或4∶1获胜,因为他比樊麾强得多。大多数围棋职业选手也认同这一观点——击败DeepMind将是一位顶级专业棋手能遇到的最轻松的收入百万美元的机会。“我将尽全力捍卫人类智能的尊严。”李世石郑重地承诺。
3月9日比赛当天,在一间简陋的房间里,黄士杰坐在黑色皮椅上,面前放着围棋棋盘。他的左侧是电脑屏幕,上面显示着AlphaGo的行棋,这些选择由太平洋彼岸的服务器生成。对面坐着李世石,他的走法则由肾上腺素和咖啡驱动。
第一场比赛开始几分钟后,人类选手就陷入了困境。李世石走出了常规的第三步棋,并立即挑起一次冲突,试图迷惑AlphaGo,他故意采用那些不在计算机训练数据中的策略。但AlphaGo似乎不为所动。李世石低估了自10月与樊麾比赛以来,这台系统可能取得的进步。
李世石的表情时而震惊,时而觉得好笑,时而无奈接受。他靠在椅子上笑了笑,按摩着自己的脖子。他通过研究与樊麾的比赛所做出的所有预期,都被证明是毫无意义的。这套系统当时还有可能被击败,但在5个月后就会变得不可战胜。
最终,李世石认输了。“我没有预料到AlphaGo会以如此完美的方式下棋。”他在赛后新闻发布会上承认。
在第二天进行第二场比赛时,李世石尝试了不同的策略。他小心翼翼地落子,等待AlphaGo出错。走了36步后,他起身抽烟休息,然后回来研究局势。
在他离开期间,AlphaGo下出了第37步棋:一颗黑子落在了一片几乎空旷的区域,突袭李世石的右侧。
李世石花了整整12分钟才作出回应。他从未见过这样的走法。在不远处的另一个房间里,世界排名顶尖的西方围棋选手迈克尔·雷德蒙德(Michael Redmond)正在通过视频观看比赛,并向全球观众进行直播。他也感到困惑不已。看到AlphaGo选择的走法后,他在自己面前的棋盘上相应位置放了一颗黑子,然后又把它拿了起来。“不,这不可能是正确的。”他喃喃自语。
但这恰是正确的。雷德蒙德再次查看屏幕后,把棋子放回了那个奇怪的位置,试图弄明白其中的道理。“我真的不知道这步棋是好是坏。”他向观看直播的观众承认。
事实证明,这是一步绝妙的好棋。在100多步后的比赛结束时,第37步棋被证明是决定性的。“当我看到这步棋时……我认为AlphaGo肯定是有创造力的。”李世石在赛后的新闻发布会上说。“我真的无话可说。”他补充道。
第三天是休息日。DeepMind的科学家们在城里散步,品尝了韩国烤肉。每家报纸都在报道AlphaGo。一位年轻女子在街上见到了哈萨比斯,立刻认出他来。她作晕倒状,仿佛哈萨比斯是一位流行偶像。
“这种事经常发生。”哈萨比斯向身边的一位记者说。当然,对世界各地的AI研究人员来说,一切都变了。AlphaGo的出现,终结了AI领域默默无闻、谦逊低调的纯真时代。
第二天,AI第三次击败了李世石。这位韩国选手展现出了职业生涯中最精彩的一些围棋技艺,但AlphaGo的表现仍更胜一筹。在当天的新闻发布会上,面对一排排闪烁的摄像机,李世石向所有人类道歉。和之前的樊麾一样,他一开始充满信心,但很快就认清了现实。“我感到有点无能为力。”他承认。
面对机器的超级智能,人类应该怎么做?一种可能的回应是“打不过就加入”。在0∶5失利后,樊麾加入了DeepMind,甚至表示失败让他看到了人生的无限可能。“我发现这个世界比我想象的大得多,我真的很喜欢这种感觉。”他惊叹道。这是一种美好的谦逊情感,但掩盖了人类失利的现实。当然,机器超级智能拓展了可能性,但它也以最令人不安的方式威胁着人类,意味着有一天,人类的直觉和想法将不再重要。
对超级智能的另一种回应是继续与之抗争。在韩国的第四场比赛中,李世石出人意料地击败了AlphaGo。凭借第78步棋——这步精妙绝伦的走法后来被称为“神之一手”,李世石使出了一个独特、大胆的策略,让计算机陷入了被动。AlphaGo的算法陷入了类似人类绝境的状态,开始走出毫无章法的棋步,产生幻觉、自损棋势,表现出一种“类似人类的慌乱”,最终认输。
李世石庆祝了这场胜利,称自己感受到了无上的温暖,这意味着人类尚未被征服。棋迷们高呼他的名字,佛罗里达州的一位计算机程序员甚至把第37步棋和第78步棋的棋形文在了手臂上。然而,这种与计算机抗争、庆祝它失败的态度,似乎和樊麾认输的回应一样显得苍白无力。3年后,当围棋系统变得空前强大时,李世石黯然宣布退役,称自己再也无法从下棋中感受到快乐。
DeepMind的团队自己也不确定如何看待AlphaGo的胜利。AlphaGo是人类创造的,它并非来自某种外星力量,而是人类行动力和好奇心的体现。但DeepMind的团队也能共情李世石的绝望。“我无法庆祝。”哈萨比斯回忆起李世石1∶4失利时的情景,他知道那种激烈竞争后失利的滋味。
几年后,我问托雷·格雷佩尔,当机器超越人类时,他有什么感受。
“我们初代围棋系统的棋路尚与人类相似,它能摸索出人类几千年来总结出的诸多策略,这让我们感到非常开心,”格雷佩尔告诉我,“后来它发现,人类某些由来已久的策略实际上是可以反制的,于是就放弃了这些策略。”
“再后来,随着系统变得越来越强大,它的下法变成了我们前所未见的模样,形成了一种完全陌生的风格。它落下的棋子,看起来就像随机散布在棋盘上。但随着比赛的推进,走了30步、50步、100步后,你会发现所有这些棋子都被联系在了一起……”
“就像绞索渐渐勒紧脖颈?”我有些紧张地问道。
“没错,”格雷佩尔点了点头,“就是这样!堪称魔法。”当然,这并不是魔法,而是算法的先见之明。只是在低等智能看来,它才像魔法。
“这就是我们必须想象的未来。在围棋领域,我们已经实现了超级智能,我们可以体验与它互动的感受。一开始,它看起来毫无威胁。然后它的用途完全占据了主导地位。我们不理解它的运作机制、战术和策略,我们只知道,控制权在它手中......”
本文来自微信公众号“红杉汇”(ID:Sequoiacap),作者:洪衫,36氪经授权发布。















