以往的下棋电脑程序都是运用传统的智能运算方法,即对所有可能的落子位置建立搜索树,但这种方法在对付围棋时就失灵了。
“深度思维”公司开发的A lphaG o电脑程序另辟蹊径,它将更为先进的搜索树运算法跟神经系统运行模式结合起来。
这种类似神经系统的运算方法将围棋棋盘描述为一个“输入端”,然后运用包含数百万类神经系统连接的12个不同层面的网络系统对其进行处理。
其中一种“神经网络系统”叫做“策略网络”,它会选择下一步如何走;另一种“神经网络系统”叫做“价值网络”,它会预测谁将胜出。
谷歌公司说:“我们用人类职业棋手的3000万步下法来训练‘神经网络系统’,直到它能以57%的准确率预测职业棋手的下一步走法。”
据悉,此前的围棋程序预测准确率只能达到44%。
“深度思维”公司的目标可不是仅仅模仿人类,而是要击败顶尖围棋高手。
为了达到这一目标,A lphaG o电脑程序能够“自动学习”以发展出新的下法。A lphaG o电脑程序的“神经网络系统”运用一种被称为“强化学习法”的反复试错法,进行了数千次训练,不断调整。
谷歌公司称,这需要强大的计算能力。
在进行人机大战之前,“深度思维”公司拿A lphaG o电脑程序跟其他围棋程序进行比赛,如著名的围棋程序“疯狂石头”和“禅”,A lphaG o电脑程序每次都能胜出。