谷歌AI连赢人类围棋冠军5局,它是怎么做到的?如何评价它

如题所述

大脑1:“监督学习(SL)政策网络”。着眼于棋盘中的位置,并试图决定最佳的下一步。实际上,它用来估计每个合法下一步行动为最好的一步的可能性,其顶层猜测就是具有最高概率的那步。该团队通过几百万个优秀的人类棋手在KGS上的下棋选择,训练这个大脑,其目的仅仅是复制优秀的人类棋手的移动选择。它一点也不关心赢得比赛,只下那步顶级人类棋手会下的那步棋。 AlphaGo的下棋选择器有57%的概率可以正确匹配优秀的棋手下棋选择。
大脑2:“价值网络”。它不猜测具体的下一步怎么走,而是通过设想的棋盘分布,估计每个玩家赢得比赛的概率。它通过提供整体的位置判断来配合“监督学习(SL)政策网络”。这个判断只是近似的,但它对加快阅读速度非常有用。通过将未来可能的位置分为“好”或“坏”的分类,AlphaGo可以决定是否要沿着一个特定的变化进行更深的阅读。如果位置评估器说某个具体的变化看起来情况不妙,那么AI可以跳过阅读,不沿着那条线继续发挥。
温馨提示:答案为网友推荐,仅供参考
相似回答