如果非要問 AlphaGo 有什么缺點,那就是下棋不像人類和 AlphaGo 對弈過的頂級棋手都有這種感受,他們覺得 AI 落子經常讓人捉摸不透
這不僅是 AlphaGo 的問題,許多 AI 系統無法解釋,且難以學習如果想讓 AI 與人類協作,就不得不解決這個問題現在,來自 Meta AI 等機構的研究者們打造出一個能戰勝人類頂級棋手,且更容易復盤棋譜的 AI
他們用人類棋譜訓練 AI 模仿,并讓后者超越了人類。
上圖分別展示了該方法在國際象棋,圍棋的表現。
縱軸為 AI 與原始模型對弈的勝率,橫軸為 AI 預測人類落子位置的 Top—1 準確度可以看出新的算法在兩方面都已經超過了 SOTA 結果
像人類,還能打敗人類
正所謂魚與熊掌難以兼得AlphaGo 使用的自我博弈與蒙特卡洛樹搜索,雖然練就了無比強大的 AI,但它的下棋更像憑直覺,而非策略如果要讓 AI 更像人類,更應當使用模仿學習,但是這卻很難讓 AI 達到人類頂級棋手水準
Meta AI 和 CMU 的研究者發現,加入了 KL 正則化搜索后,一切都不一樣了AI 的落子策略變得與人類棋手更加相似,這就是他們提出的新方法
piKL—hedge 的執行步驟如下:
在下圖中,piKL—Hedge可以生成預測人類博弈的策略,其準確度與模仿學習相同,同時性能強 1.4 倍另一方面,在實現更高預測準確性的同時,piKL—Hedge 優于非正則化搜索的策略
本文共有三位共同一作,分別是來自 Meta AI 的 Athul Paul Jacob,David Wu,以及 CMU 的 Gabriele Farina。
Athul Paul Jacob 同時也是 MIT CSAIL 的二年級博士生,從 2016 年到 2018 年,他還在 Mila 擔任訪問學生研究員,在 Yoshua Bengio 手下工作,與 Bengio 共同發表了多篇論文。
David Wu 是 Meta AI 的國際象棋和圍棋首席研究員。
Gabriele Farina 是 CMU 一名六年級博士生,曾是 2019—2020 年 Facebook 經濟學和計算獎學金的獲得者,他的研究方向是人工智能,計算機科學,運籌學和經濟學。
另外,Gabriele Farina 還參與過著名的 CMU 德州撲克 AI 程序 Libratus 的開發。
論文地址:
。聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。
猜你喜歡
-
游客在進入北京環球度假區時須核驗北京健康
具體如下:北京環球度假區繼續按照相關政府部門的限流要求,以預約入園的形式加強人流動態監測和...詳情
2022-04-28
-
杭州湘湖的草坪人氣很高不少人在這里搭帳篷
湘湖邊亂搭帳篷,煞了春日風景景區出臺最新政策,將設置臨時帳篷搭建區,后續還要增設露營服務區...詳情
2022-04-14
-
南非徐霞客在云南:從行萬里路到吃百碗米線
題:南非徐霞客在云南:從行萬里路到吃百碗米線的文化之旅杜安睿來自南非,是一名國際注冊會計師...詳情
2022-04-10
-
廣州新增3例本土確診病例雙層觀光巴士全部
廣州新增3例本土確診病例雙層觀光巴士全部停運廣州市政府新聞辦公室21日公布的信息顯示,過去...詳情
2022-03-22