發展歷史
2017年10月19日凌晨,在國際學術期刊《自然》(Nature)上發表的一篇研究論文中,谷歌下屬公司Deepmind報告新版程式AlphaGo Zero:從空白狀態學起,在無任何人類輸入的條件下,它能夠迅速自學圍棋,並以100:0的戰績擊敗“前輩”。Deepmind的論文一發表,TPU的銷量就可能要大增了。其100:0戰績有“造”真嫌疑。 它經過3天的訓練便以100:0的戰績擊敗了他的哥哥AlphoGo Lee,經過40天的訓練便擊敗了它的另一個哥哥AlphoGo Master
工作原理
拋棄人類經驗”和“自我訓練”並非AlphaGo Zero最大的亮點,其關鍵在於採用了新的reinforcement learning(強化學習的算法),並給該算法帶了新的發展。
戰績
AlphaGo Zero僅擁有4個TPU,零人類經驗,其自我訓練的時間僅為3天,自我對弈的棋局數量為490萬盤。但它以100:0的戰績擊敗前輩。