强化学习
  1. 平台精选
  2. 0
  3. 172
  • 收藏
  • 分享
002学期
002学期
开课:2025.01.07
学时:3学时/周,共16周
立即报名 3 已报名
课程概述
强化学习是一种机器学习方法。该方法将待解决问题建模成环境,将问题的的解表述为智能体的策略,通过让智能体与环境进行反复交互,在交互中智能体不断提升自身策略,直至获得最优或满意的策略(即得到问题的解)。这里影响学习效果的两个方面:1)虚拟场景建模是否正确得当,2)能否在虚拟场景中训练得到最优(满意)策略。本课程重点讲授第2个方面的方法,即如何通过训练得到好的策略,关于第1个方面,我们会给出一些虚拟场景的案例作为训练智能体的环境。
教师团队
  • 教授
    李文新

    北京大学

课程助教
  • 王星博

    北京大学

时间:周四 6:40 - 9:30  地点:理教403

1.概述

2.MDP

3.规划方法(Model-based):   

4.学习方法(Model free):   

5.学习方法(Model free) :                                            

6.规划和学习的结合                              

7.价值近似函数                                             

8.DQN及其变体

9.基于策略的学习I                                                                            

10.基于策略的学习II

11.强化学习实践指导

12.强化学习方法应用II

13.强化学习方法应用III

14.期末报告

15.期末报告

时间:周四 6:40 - 9:30  地点:理教403

1.概述

2.MDP

3.规划方法(Model-based):   

4.学习方法(Model free):   

5.学习方法(Model free) :                                            

6.规划和学习的结合                              

7.价值近似函数                                             

8.DQN及其变体

9.基于策略的学习I                                                                            

10.基于策略的学习II

11.强化学习实践指导

12.强化学习方法应用II

13.强化学习方法应用III

14.期末报告

15.期末报告

主讲教师

李文新 教授
  1. 北京大学
  2. 172
  3. 0

北京大学信息科学技术学院教授,北京市教学名师,北京大学计算机实验教学中心(国家级示范中心)主任。中国计算机学会杰出会员,主要研究领域为人工智能、生物特征识别技术,是国际上最早从事自动化掌纹识别的研究者之一。她领导的团队研发手指静脉识别技术在教育考试、银行、社保、医保等领域都有广泛的应用。她为推动ACM/ICPC竞赛在北京大学、中国乃至亚洲的普及做了大量工作,多次获得ACM/ICPC组织颁发的“区域发展杰出贡献奖”,“领导力奖”等。由她组织、为训练ACM队员而开发的北京大学在线程序评测系统目前已成为国际同类网站中最有影响的几个网站之一。目前她的主要研究兴趣是游戏AI算法。