天问

清华大学马少平:AlphaGo的成功是蒙特卡洛树搜索加深度学习的胜利

作者:马少平

清华大学计算机系教授,博士生导师,中国人工智能学会副理事长,中国中文信息学会副理事长。主要研究方向为智能信息处理,包括文本信息检索、网络用户行为分析、个性化推荐、社交媒体分析等。


在2016年3月份,正当李世石与AlphaGo进行人机大战的时候,我曾经写过一篇《人工智能的里程碑:从深蓝到AlphaGo》,自从1997年深蓝战胜卡斯帕罗夫之后,随着计算机硬件水平的提高,计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最高棋手的水平。但是,长期以来,在计算机围棋上进展却十分缓慢,在2006年引入了蒙特卡洛树搜索方法之后,也只能达到业余5段的水平。所以AlphaGo战胜韩国棋手李世石,确实是人工智能发展历程上的一个里程碑式的事件。

 

从人工智能研究的角度来说,计算机围棋战胜人类高水平棋手是一个标志,说明在某些方面,现有的人工智能技术可以达到怎样的高度,所以当时我曾经认为人机再战的意思已经不大,就如同当年深蓝战胜卡斯帕罗夫之后,IBM随即马放南山,即便卡斯帕罗夫提出再战深蓝,IBM也不再理会。当年的深蓝还是一个专用设备,IBM甚至为了提高计算速度,而研制了专用的芯片(据说该芯片只能用于下国际象棋)。但是万事开头难,随着计算机计算能力的提高,今天即便在普通计算机上,也可以达到甚至超过当年深蓝的水平。以至于在国际象棋比赛中,出现过棋手借去厕所的机会,让计算机帮忙出招的丑闻,在现在的国际象棋比赛中,已经明确禁止利用各种计算设备,据说赛场也对网络进行屏蔽,以防止有人作弊。

 

图1. 深蓝对卡斯帕罗夫的比赛现场

 

就在2016年即将过去的时候,在网络上突然出现一个名为Master的计算机围棋程序,在网上快棋赛中,连胜包括中日韩三国高手在内的人类棋手,取得连胜60场的辉煌战绩。事后得知Master就是AlphaGo的升级版。>>震撼!横扫中日韩顶级棋手,60局不败的Master就是AlphaGo!

 

为什么AlphaGo会重出江湖呢?我想可以从AlphaGo与深蓝的不同来考虑。深蓝采用的是α-β搜索框架,加上大量的人类知识,在技术上已经没有什么发展空间。而AlphaGo采用的是蒙特卡洛树搜索框架,加上深度学习和深度强化学习。在这样一个框架下,深度学习,尤其是深度强化学习在计算机围棋上的天花板究竟有多高?还是一个未知数,从技术的角度来说,还有很大的研究空间,我想这是AlphaGo重出江湖的重要原因,围棋在这里只是作为一个应用对象,目的还是研究强化学习等方法。

 

顺便在这里说一下,有人认为AlphaGo的成功是深度学习的胜利,我认为这一看法是片面的。具体来说,蒙特卡洛树搜索引入到计算机围棋中,是一个很大的飞跃,深度学习和强化学习的引入,是又一次飞跃。因此AlphaGo的成功是蒙特卡洛树搜索加深度学习的胜利。如果再上升一个层次来考虑,则是人工智能中传统的符号主义加连接主义的成功。如果再进一步上升一个层次,则是理性加感性的成功。因此,在今天深度学习大热的情况下,不能忽视传统方法的作用。传统方法与深度学习具有互补性,应该加强这方面的研究,而不是一窝蜂式的涌向深度学习。

 


图2. 韩国棋手李世石对战AlphaGo

 

那么这次的Master与去年3月份的AlphaGo有什么不同呢?(为了叙述方便,下文中AlphaGo特指去年3月的版本,Master特指现在的版本)到目前为止,DeepMind公司还没有透露出任何信息,只能从表面现象去分析、猜测。我并不懂围棋,为了了解Master的特点,在网上看了不少专业棋手对Master棋谱的分析,一个突出的感受是,Master常常会走出一些超出职业棋手想象的惊人之步,很多高手连呼看不懂,但又找不出其破绽。

 

古力在其微博上说,Master的出现“已经彻底颠覆了我们棋手对局势原有的掌控、判断”,柯洁也评论说Master“给我们棋手带来的震撼”。虽然AlphaGo也有出乎职业棋手意外的着法,但是这次Master这样的走法更多,更出乎意外。鉴于此,我曾经给出一个猜测:“AlphaGo训练时用到了16万人类棋谱,加上自己左右互搏产生的3000万棋谱,以及人类总结的几万个模式。而这次的Master很可能是从0开始学习得到的结果(指没有利用任何人类棋谱和知识,依靠基于强化学习的左右互搏进行学习),在蒙特卡洛搜索树的框架下,加上深度强化学习方法,是可以做得到的。这也是为什么Master让职业棋手感觉到被颠覆的原因,因为没有任何人类的影响。

 

AlphaGo在去年3月时虽然惊人的走法,但好像没有这次多,也没有这次大胆,因为3月的AlphaGo利用了16万的人类棋谱和数万个人类总结的模式”。虽然事后DeepMind公司说Master还是用了人类棋谱,但是很可能更加加强了基于强化学习的左右互搏的成分,弱化了人类棋谱的作用。事实上,DeepMind公司也确实在试探从0学习的系统,虽然还没有推出。

 

在我的“人工智能导论”课上,学生要完成一个大作业,就是实现一个简单的下棋程序,最初几年,学生基本是采用α-β剪枝的方法,要自己总结很多模式出来,后来渐渐的采用蒙特卡洛树搜索方法的同学逐年增加,到现在基本没有同学用α-β剪枝方法了,也不再需要人为总结什么模式了,基本都是从0开始,而且水平也是逐年提高,绝大多数同学都难于战胜自己的程序。当然,大作业的棋类比较简单,远远无法跟围棋比,但是越来越不依赖于人类棋谱、知识,应该是一个发展趋势,围棋也应该可以实现,可能还需要更强大的计算平台的支持。关于大作业,我曾在2013年的博客中有过简单的总结,表明过类似的看法,有兴趣的读者可以参见《由大作业想到的》这篇博客:

http://blog.sina.com.cn/s/blog_73040b820101bwrl.html 

 

深蓝、沃森和AlphaGo都可以算是人工智能发展史上里程碑式的事件,那么他们之间有哪些相同与不同呢?

 

关于相同点,我想可以总结为一句话:在一个特定领域,利用人类提供的数据或者知识,采用已有的技术,战胜该领域最高水平的人类。

 

深蓝是一个国际象棋程序,采用的是60年代就提出的α-β剪枝算法,IBM公司聘请了若干个国际象棋特级大师总结下棋的模式和知识,用于对局面的评估。最终于1997年战胜了连续10年国际象棋世界冠军卡斯帕罗夫。

 

沃森是IBM为了纪念公司成立100周年研发的一个问答系统,其名称是为了纪念IBM公司的创始人ThomasJ.Watson先生。2011年在美国最受欢迎的智力竞猜电视节目《危险边缘》中,沃森击败该节目历史上两位最成功的选手肯-詹宁斯和布拉德-鲁特,成为《危险边缘》节目新的王者。在沃森系统中,共采用了100多项与自然语言处理、知识问答相关的技术,利用《危险边缘》节目创始以来40多年的问题与答案进行训练,存储了大量图书、新闻和电影剧本资料、辞海、文选和《世界图书百科全书》等数百万份资料,在3秒内可以给出一个问题的答案。

 

图3. 沃森参加电视节目《危险边缘》,中间是沃森,两边是肯-詹宁斯和布拉德-鲁特

 

AlphaGo在蒙特卡洛树搜索的框架下,利用深度学习和强化学习技术进行训练和评估,其中用到了人类棋手以往的16万盘棋谱,以及AlphaGo自己左右互搏产生的3000万盘棋谱,并用到了人类总结的几万个模式,综合运用这些技术,实现了高水平的围棋程序,并于2016年3月以4:1的成绩战胜了韩国围棋职业高手李世石。这些技术也并不是新技术,但是DeepMind公司有所创新,主要包括两个方面,一个是发展了强化学习技术,二是将传统的搜索技术与深度学习在围棋这个平台上,很好地结合在一起,实现了理性与感性的良好融合。这可能是AlphaGo成功的关键所在。

 

这是他们共同的部分,那么这三个系统有哪些不同呢?三个系统完全是三个不同的领域,不同点自然很多,下面只从技术是否通用,以及通用程度方面展开讨论。

 

深蓝采用的α-β剪枝算法是专门用于双人博弈问题的算法,虽然也有人将该方法用于其他方面,比如故障诊断的测试点选择,但应用面是非常有限的,是一个非常专用的算法。也曾听有人介绍说IBM会把相关方法用于风险投资,但事后也没有听到相关消息。这也可能是IBM不再继续投入开展研究的原因吧?

 

AlphaGo则有很大的不同,深度学习是个通用方法,已经在很多领域得到很好的应用,强化学习也具有一定的通用性,并且DeepMind对其有所发展和创新,在围棋这个平台上可以继续开展研究,也可以推广到其他领域。但是围棋这类博弈游戏有一个特点,其最终的胜负可以自动判断,不需要人类标注,这就为系统自身的左右互搏、强化学习提供了很大的便利条件,如果在其他领域应用,需要定义合适的优化条件才可行。

 

在三个里程碑式的事件中,我认为最具通用性的是沃森,它采用了100多项与自然语言处理、知识问答相关的技术,这些技术可以在很多应用领域发挥作用,不仅仅是用于问答,IBM公司把相关技术称之为认知计算。IBM公司以此为契机,成立了沃森集团,专注于认知计算的研究和应用,已经在医疗健康领域取得了很好的成果。

 

因此,从通用性和商用性的角度来说,三个系统中排名第一的是沃森,其系统只要结合相关领域的数据,可以很快进行商用转化,提供服务;其次是AlphaGo,直接转换到其他领域,提供商用服务的可能性不大,但其技术可以应用于其他领域;排在最后的就是深蓝了,向其他领域转化的可能性很小。

 

AlphaGo(包括Master)的出现,对于围棋有什么影响呢?有人认为这会毁了围棋,人类根本就战胜不了机器,再学习围棋还有什么意义呢?我认为这种看法是不正确的。AlphaGo的出现,说明人类对围棋的认识远远不够,在计算机的辅助下研究围棋,必将对围棋有新的认识,就如同当年吴清源先生的出现一样,即将开启围棋的新天地。

 

其实围棋界也有类似的认识。职业棋手古力说,“我深深地感受到围棋的神秘,似乎‘大师’(指Master)给我们打开一道围棋的神秘之门。不论胜负,人类与人工智能共同探索围棋世界的大幕即将拉开,新一次的围棋革命正在进行着”。职业棋手排名第一的柯洁也提到,“人类数千年的实战演练进化,计算机却告诉我们人类全是错的。我觉得,甚至没有一个人沾到围棋真理的边。但我想说,从现在开始,我们棋手将结合计算机,迈进全新的领域、达到全新的境界。新的风暴即将来袭,我将尽我所有的智慧终极一战!”

 

从科学发展史上来看,每次危机的出现,都预示着新的革命即将开始,比如数学上的几次悖论的出现,都孕育出新的数学方法,极大地推进了数学的发展。我们期待着AlphaGo能开放出来,可以让棋手们自由地与它对弈,甚至可以像围棋复盘一样,和计算机一起探索可能的走法,胜负已经不是关键,重要的是发展新的围棋理论,让围棋走向一个新天地。

博客地址:http://blog.yoqi.me/?p=2185
扫我捐助哦
喜欢 5

这篇文章还没有评论

发表评论