还记得2016年3月AlphaGo与李世石的那场世纪对决吗?当时的第37手让全世界为之震惊——这一步看似错误的棋,后来却被誉为天才之举。这就是强化学习的魅力所在。

最近重看了《AlphaGo》纪录片,再次被这种学习方式深深打动。可怕的是,AlphaGo并没有从数据库、规则或策略书中学习棋艺,而是通过数百万次自我对弈,在实践中学会了如何获胜。

……

阅读全文