[译]Q-learning强化学习实践:用Python构建井字棋智能代理
还记得2016年3月AlphaGo与李世石的那场世纪对决吗?当时的第37手让全世界为之震惊——这一步看似错误的棋,后来却被誉为天才之举。这就是强化学习的魅力所在。
最近重看了《AlphaGo》纪录片,再次被这种学习方式深深打动。可怕的是,AlphaGo并没有从数据库、规则或策略书中学习棋艺,而是通过数百万次自我对弈,在实践中学会了如何获胜。
……一个技术老兵工作的点滴记录,专注、沟通、乐在分享!
还记得2016年3月AlphaGo与李世石的那场世纪对决吗?当时的第37手让全世界为之震惊——这一步看似错误的棋,后来却被誉为天才之举。这就是强化学习的魅力所在。
最近重看了《AlphaGo》纪录片,再次被这种学习方式深深打动。可怕的是,AlphaGo并没有从数据库、规则或策略书中学习棋艺,而是通过数百万次自我对弈,在实践中学会了如何获胜。
……