Alphago(中文名稱為阿爾法圍棋或阿爾法狗)是由英國倫敦Google DeepMind開發(fā)的人工智能圍棋程序,成為第一個(gè)不借助讓子,在全尺寸19×19的棋盤上擊敗職業(yè)圍棋棋手的電腦圍棋程序,也是人工智能與人類智慧的一大挑戰(zhàn)。
2016年3月在一場五番棋圍棋比賽中,AlphaGo于前三局均擊敗職業(yè)圍棋棋手李世乭,成為第一個(gè)不借助讓子而擊敗職業(yè)九段圍棋棋手的電腦圍棋程序。
專業(yè)術(shù)語上來說:AlphaGo其做法是使用了蒙地卡羅樹狀搜索與兩個(gè)深度神經(jīng)網(wǎng)絡(luò)相結(jié)合方法,其中一個(gè)是以估值網(wǎng)絡(luò)來評(píng)估大量的選點(diǎn),而以走棋網(wǎng)絡(luò)來選擇落子。在這種設(shè)計(jì)下,電腦可以結(jié)合樹狀圖的長遠(yuǎn)推斷,又可像人類的大腦一樣自發(fā)學(xué)習(xí)進(jìn)行直覺訓(xùn)練,以提高下棋實(shí)力。
AlphaGo和之前的圍棋程序相比表現(xiàn)出顯著提升。在和Crazy Stone和Zen等其他圍棋程序的500局比賽中,AlphaGo(運(yùn)行于一臺(tái)電腦上)僅輸一局。而在其后的對(duì)局中,AlphaGo(可運(yùn)行于多臺(tái)電腦上)在500局比賽中全部獲勝,且對(duì)抗運(yùn)行在單機(jī)上的 AlphaGo 有 77% 的勝率。2015年10月的分布式運(yùn)算版本AlphaGo使用1,202塊CPU及176塊GPU。
然而 Google 并沒有公開解釋從2015十月到2016三月間的實(shí)力增強(qiáng)有什么硬件或軟件的改進(jìn),所以在三月進(jìn)行的競賽中可能進(jìn)一步運(yùn)用更多的硬件。
AlphaGo使用蒙特卡洛樹搜索,借助估值網(wǎng)絡(luò)與走棋網(wǎng)絡(luò)這兩種深度神經(jīng)網(wǎng)絡(luò),通過估值網(wǎng)絡(luò)來評(píng)估大量選點(diǎn),并通過走棋網(wǎng)絡(luò)選擇落點(diǎn)。AlphaGo最初通過模仿人類玩家,嘗試匹配職業(yè)棋手的過往棋局,其數(shù)據(jù)庫中約含3000萬步棋著。一旦它達(dá)到了一定的熟練程度,它開始和自己對(duì)弈大量棋局,使用強(qiáng)化學(xué)習(xí)進(jìn)一步改善它。圍棋無法僅通過尋找最佳步來解決;游戲一盤平均有150步,每一步平均有200種可選的下法,意味著有太多需要解決的可能性。