人类徒手能打赢狗吗？人类顶级大师是如何被一只

时间：2024-02-04 08:54:25/人气：242 ℃

美国的谷歌公司经常出其不意地推出一款新产品来引爆舆论、赚够眼球。

2016年初，他们“牵”出了一条精通围棋的“阿尔法狗”(AlphaGo)，挑战人类的顶级围棋大师李世石，并以4∶1的比分获胜。之后，升级的“阿尔法狗”又以“Master”的网名约战中日韩围棋大师，并取得60局连胜。

计算机围棋手“阿尔法狗”大战李世石

虽然业内人士并不认为“阿尔法狗”代表了人工智能的巅峰，它在人机大战中取胜也丝毫不能说明机器的智力已经超过人类，但它确实将人工智能、机器学习、神经网络、深度学习、蒙特·卡罗搜索等一大堆专业名词抛到了普通大众的面前，让这些科学概念进入了普通人的生活中。

其实，人工智能的成果早已经悄悄地渗透进了现代人的生活，在你的手机上就有不少的应用。比如人脸识别，这种在10年前对经典计算机程序而言颇为困难的技术，目前在手机上已经是司空见惯了。

就计算机的“棋艺”而言，十几年前IBM的象棋冠军“深蓝”与“阿尔法狗”相比，也不能同日而语。如今看来，深蓝是一台基本只会使用穷举法的“笨机器”，犹如一个勇多谋少的冷血杀手。然而，这种穷举方法对格点数大得多的19×19围棋棋盘来说已经成为不可能，因为每走一步的可能性太多了。

“阿尔法狗”使用的是机器学习中的“深度学习”，利用计算技术加概率论和统计推断而达到了目的。说到这里，不由得使人联想到有些类似于之前我们介绍过的“频率学派与贝叶斯学派”的差异，一个基于“穷举”，一个基于“推断”。也许这个比喻并不十分恰当，但贝叶斯的一套玩意儿，从贝叶斯定理、贝叶斯方法，到贝叶斯网络，的确是“阿尔法狗”以及其他人工智能技术的重要基础。

“阿尔法狗”使用的关键技术叫作“多层卷积神经网络”，网络的层与层之间像瓦片一样重叠排列在一起，输入是19×19大小的棋局图片。

如下图所示，第一部分包括一个13层的监督学习策略网络，每层有192个神经元，用以训练3000万个围棋专家的棋局，可以被理解成是机器模仿人类高手的“落子选择器”。其次，是13层的强化学习策略网络，通过自我对弈来提升监督学习策略网络，目的是调整策略网络的参数朝向赢棋的目标发展。在学习期间，策略网络每天可以自对弈100万盘之多，而人类个体一辈子也下不到1万盘棋，计算技术之威力可见一斑。

“阿尔法狗”的最后部分是一个估值网络，或者说，是它的“棋局评估器”，用以预测博弈的赢者，注重于对全局形势的判断。总结而言，“阿尔法狗”有效地把两个策略网络、估值网络和蒙特·卡罗搜索树结合在一起，充分利用围棋专家的数据库及自我对弈和评估之策略而取胜。

“阿尔法狗”算法原理图

最终版本的“阿尔法狗”使用了40个搜索线程，48个中央处理器（central processing unit,CPU）和8个图形处理器（graphics processing units,GPU）。分布式的阿尔法狗版本利用了多台计算机，40个搜索线程，1202个CPU，176个GPU。正因为“阿尔法狗”采取了新型的机器深度学习算法，充分利用了互联网的优越性，才得以挫败人类顶级选手而旗开得胜。

人类徒手能打赢狗吗？人类顶级大师是如何被一只

小狗怎么喂蒙脱石？戈赞，炎炎夏日狗狗的喝水难题

狗狗犯错误如何不打它它就改正？这个主人为了不让家里的老狗狗摔倒

李雪琴毛不易怎样成为的好朋友毛不易李雪琴的毛雪汪

狗粮什么牌子好怎么挑选？狗粮什么牌子好怎么挑选

萨摩耶犯错：萨摩耶越狱到一半被主人抓包

推荐

人类徒手能打赢狗吗？人类顶级大师是如何被一只

小狗怎么喂蒙脱石？戈赞，炎炎夏日狗狗的喝水难题

狗狗犯错误如何不打它它就改正？这个主人为了不让家里的老狗狗摔倒

李雪琴毛不易怎样成为的好朋友 毛不易李雪琴的毛雪汪

狗粮什么牌子好怎么挑选？狗粮什么牌子好怎么挑选

萨摩耶犯错：萨摩耶越狱到一半被主人抓包

推荐

李雪琴毛不易怎样成为的好朋友毛不易李雪琴的毛雪汪