>综合>资讯>

alphago现状 Go是如何打败全人类最顶尖棋手的

时间:2024-07-06 19:51:58/人气:366 ℃

“阿尔法狗”(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能,由DeepMind公司开发(该公司已被谷歌Google买下)。

2016年3月,AlphaGo和围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜;2017年5月,在中国乌镇围棋峰会上,它与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获胜。

AlphaGo棋力已经超过人类职业围棋顶尖水平,成为围棋界不争的事实。2017年5月27日,在柯洁与阿尔法围棋的人机大战之后,AlphaGo团队宣布AlphaGo将不再参加围棋比赛。

2017年10月19日,在《自然》(Nature)上发表的一篇研究论文中,Deepmind公司报告新版程序AlphaGo Zero:从空白状态学起,在无任何人类输入的条件下,它能够用4个TPU(谷歌专门为加速深层神经网络运算能力而研发的一款芯片,ASIC集成电路)迅速自学围棋,“抛弃人类经验”。自我训练3天,自我对弈棋局490万盘,训练后它以100:0的战绩击败前辈AlphoGo Lee。

没有已知的“棋谱”输入,只告诉 AlphaGo 最基本的围棋规则:黑先白后、轮换出子、提子、如何判断输赢、贴目等……

明确规则后让 AlphaGo 自己跟自己下,开始对弈,3天,自我对弈棋局490万盘,然后出山即封神。

除了证明了基于策略网络(Policy network)和价值网络(Value network)的深度学习人工智能有多厉害,AlphaGo Zero还体现了一个高效的学习法则:在基础原理(第一性原理)之上,基于反馈机制的刻意练习

为了简化这个问题,我们下来看看2017年AlphaGo纪录片开头的一小段——人工智能打方块(Breakout)。

练习100盘结束后,AI对于球拍的控制依然十分呆板,系统也不知道什么时候应该向哪里移动,经常漏掉球。

当它自我练习了300局之后——它的操作速度已经几乎跟人类的操作反应一样,操作也顺畅了许多。

500局之后,AI找到了效率最高的打法,它先在两边打开一个缺口,把球弹到顶部,让球在顶部区域不断的弹弹弹……

这种方式,效率最高、移动次数最少。没有人教过他这种打法,我们只输入了规则,以及一套底层反馈机制,通过几百次的训练,AI最后就能够建立了一套最优策略。

这种基于策略的不断反馈、持续优化的深度学习能力不仅比我们更“会学习”,AI还比我们更勤奋——高效且勤奋。

虽然我们穷极一生也不能像AI一样训练几百万次,但是!找到正确的方法论,刻意练习,及时反馈,我们也能成为一个更厉害的人!

相关阅读:

首页/电脑版/地图
© 2024 CwBaiKe.Com All Rights Reserved.