alphago现状 Go是如何打败全人类最顶尖棋手的

时间：2024-07-06 19:51:58/人气：366 ℃

“阿尔法狗”（AlphaGo）是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能，由DeepMind公司开发（该公司已被谷歌Google买下）。

2016年3月，AlphaGo和围棋世界冠军、职业九段棋手李世石进行围棋人机大战，以4比1的总比分获胜；2017年5月，在中国乌镇围棋峰会上，它与排名世界第一的世界围棋冠军柯洁对战，以3比0的总比分获胜。

AlphaGo棋力已经超过人类职业围棋顶尖水平，成为围棋界不争的事实。2017年5月27日，在柯洁与阿尔法围棋的人机大战之后，AlphaGo团队宣布AlphaGo将不再参加围棋比赛。

2017年10月19日，在《自然》（Nature）上发表的一篇研究论文中，Deepmind公司报告新版程序AlphaGo Zero：从空白状态学起，在无任何人类输入的条件下，它能够用4个TPU（谷歌专门为加速深层神经网络运算能力而研发的一款芯片，ASIC集成电路）迅速自学围棋，“抛弃人类经验”。自我训练3天，自我对弈棋局490万盘，训练后它以100:0的战绩击败前辈AlphoGo Lee。

没有已知的“棋谱”输入，只告诉 AlphaGo 最基本的围棋规则：黑先白后、轮换出子、提子、如何判断输赢、贴目等……

明确规则后让 AlphaGo 自己跟自己下，开始对弈，3天，自我对弈棋局490万盘，然后出山即封神。

除了证明了基于策略网络（Policy network）和价值网络（Value network）的深度学习人工智能有多厉害，AlphaGo Zero还体现了一个高效的学习法则：在基础原理（第一性原理）之上，基于反馈机制的刻意练习。

为了简化这个问题，我们下来看看2017年AlphaGo纪录片开头的一小段——人工智能打方块（Breakout）。

练习100盘结束后，AI对于球拍的控制依然十分呆板，系统也不知道什么时候应该向哪里移动，经常漏掉球。

当它自我练习了300局之后——它的操作速度已经几乎跟人类的操作反应一样，操作也顺畅了许多。

500局之后，AI找到了效率最高的打法，它先在两边打开一个缺口，把球弹到顶部，让球在顶部区域不断的弹弹弹……

这种方式，效率最高、移动次数最少。没有人教过他这种打法，我们只输入了规则，以及一套底层反馈机制，通过几百次的训练，AI最后就能够建立了一套最优策略。

这种基于策略的不断反馈、持续优化的深度学习能力不仅比我们更“会学习”，AI还比我们更勤奋——高效且勤奋。

虽然我们穷极一生也不能像AI一样训练几百万次，但是！找到正确的方法论，刻意练习，及时反馈，我们也能成为一个更厉害的人！

alphago现状 Go是如何打败全人类最顶尖棋手的

新手养鸟推荐不易死，新手养鸟，玉鸟日常二

柴犬为啥不建议新手养平价：柴犬一定要胖就好吗别再盲目溺爱柴犬了

狗狗睡觉总喜欢四脚朝天是为什么？狗狗睡觉为什么会四脚朝天

有哪些狗血又上头的泰剧颜值高？剧单，豆瓣高分泰剧你想不到的狗血剧都在这里

捡到了一只快死了猫如何救助？无偿救了2487只猫却被质疑作秀

推荐