科技報報／AlphaGo已開始擺脫人類依賴

:0:0

柯潔。大中小柯潔輸了，在與AlphaGo的第一場對決中，以四分之一子的落後惜敗。這個結果在很多人意料之中，其中也包括柯潔。根據快科技報導，第一場賽後發布會上，柯潔直言AI的進步速度太快了，並且每一次都是巨大的進步。這也是為什麼他在大賽前夕發布微博稱，此次將是他與人工智慧的最後三盤對決。柯潔心中已經清晰的知道，人類已經無法戰勝AlphaGo。他形容AlphaGo越來越像「圍棋上帝」，想贏它只能去找一些BUG，但目前，他還沒看到AlphaGo的任何弱點。這裡引用搜狗CEO王小川在知乎上發布的內容，再向大家科普一下AlphaGo。去年的AlphaGo 混合了三種演算法，即蒙特卡洛樹搜索+監督學習+增強學習。其中蒙地卡羅樹搜索是一種優化過的暴力計算；監督學習，是通過學習3000萬部人類棋譜，對六段以上職業棋手走棋規律進行模仿，也是AlphaGo獲得突破性進展的關鍵演算法；而增強學習作為輔助，是兩台AlphaGo從自我對戰中學習如何下棋。每當獲取棋局資訊時，AlphaGo會根據策略網路探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。在分配的搜索時間結束時，類比過程中被系統最頻繁考察的位置將成為AlphaGo 的最終選擇。簡單來說，AlphaGo下棋依靠的是概率，而概率的得出則依靠前期學習。而這次與柯潔對戰的AlphaGo相較於去年，已經判若兩人。最初的AlphaGo主要依靠監督學習，即學習對象幾乎全部來自人類棋手，而新版的AlphaGo則強化了增強學習，主要對機器自我對弈產生的棋局進行學習。難怪柯潔會覺得，去年AlphaGo的下法還很接近人類，但今年自己對戰時，AlphaGo已變得更加不合乎「常理」，下了很多人類棋手不可能下的棋子。

DeepMind創始人、AlphaGo之父Demis Hassabis證實了這一點，他說與柯潔對戰的AlphaGo更多的是根據自身學習，對人類資料的依賴性越來越小。除了開始脫離人類資料，更讓人類望塵莫及的是其恐怖的進步速度。我們常說要「取長補短」，AlphaGo則可以把這個過程加快成百上千倍。

[圖擷取自網路，如有疑問請私訊]