百年清华

王梦迪:探寻强化学习背后的简洁规律,她是普林斯顿最年轻终身教授

2019-05-07 | 李根 | 来源 公号“DeepTech深科技” |


王梦迪,清华大学自动化系2003级校友,现为普林斯顿大学运筹和金融工程系、计算机系助理教授

“强化学习是人工智能的未来” ,王梦迪表示,“应当是同控制论、统计学习思想结合起来,用大数据的方法探索一个复杂系统的动态过程。这方面在强化学习的框架下都是空白,我的工作就是要把这个框架建立起来。”

王梦迪的履历很传奇,她14岁从少年班考入清华大学,随后进入MIT于24岁取得博士学位,同年成为普林斯顿大学的助理教授和博士生导师,29岁时,她成为普林斯顿大学最年轻的终身教授。谈及自己的特殊成长经历,她表现的很谦虚,“就读少年班是一把双刃剑。我有幸遇到过很多极有天赋并且非常优秀的前辈和同龄人,当我有点迷茫时,我会观察那些走在最前面的人,他们的努力会成为我的动力。”

王梦迪在麻省理工学院读博士期间根据兴趣选择了偏数学、偏理论的系统和信息论方向,师从美国工程院院士DimitriP Bertsekas,用数学理论来设计大规模算法。博士期间,王梦迪对强化学习 (Reinforcement Learning)产生兴趣,并决心解决强化学习背后的算法和理论问题。

强化学习是机器学习的未来,强化学习算法能够让智能体通过与环境实时交互、获取反馈信号来产生后续行为,并逐步“习得”最优的决策,从而获得最大的效用值。强化学习由控制论和认知科学发展而来,糅合了大数据和机器学习技术,可以实现复杂动态系统中的实时自动决策。强化学习强调基于环境而行动,从大量经验和数据中总结推理出下一步的策略,是未来智能自动化系统的思考引擎。

强化学习在2016年被大众所熟知,那一年GoogleDeepMind的AlphaGo击败了人类围棋顶尖选手李世石,而AlphaGo的算法就是一种强化学习算法。近两年强化学习又在游戏领域上取得突破,基于强化学习的AI在Dota2和星际等游戏上都击败了人类队伍。

“我们为什么关心游戏?人类的幼儿在发展自己的智能的过程中,正是通过游戏来学习如何决策的,人工智能的发展也正处在这一阶段,我们很快能看到人工智能将不仅仅能打游戏,而将解决更难的问题。”王梦迪说。但其实强化学习的发展还处在比较低级的阶段,“这些游戏上的成功更像是工程上的一种试错,100次试验只要取1次最佳的结果就可以展示了。它们背后模型的复杂度、耗费的计算资源是常人难以想象的。”

强化学习与近些年非常成功的深度学习都还存在着很多问题,一直以来,它们的不可解释性和难以复现性为人诟病,即所谓“黑箱”问题;而王梦迪的目标就是解决这一难题。

“很多人感觉强化学习或者深度学习的模型越来越复杂,越来越难以训练。很多时候我们都在努力让训练速度加快,去优化算法,让更复杂的模型能跑起来。但任何算法的加速都是有极限的,这个极限就是该类问题的计算复杂度和信息复杂度,我们只能一步步逼近它。很多异常复杂的模型和算法往往是极为极为简单的,比如随机梯度算法的极限其实是一组简洁的随机微分方程。我的工作就是去找到复杂强化学习背后的简洁数学规律,利用它开发更强大的算法,去解决高维强化学习所面临的scalability和generalizability的问题。”

目前强化学习方面的大部分进展都来自工程优先方式的探索,先有具体的工程问题,再不惜资源地解决问题,再讲原理。而对王梦迪来说正好相反,她希望从数学统计和控制原理出发,把强化学习的框架摸清楚,从根本上提高强化学习的计算效率和对数据的利用效率。她致力于推动强化学习的理论和实践的同步发展,推动其在金融风险控制、医疗决策等领域的应用,让强化学习方法成为未来复杂系统的智能大脑。

“这条道路上的每一件事情,我都有极强的热情去参与去推动。”王梦迪说。


相关新闻

  • 092017.05

    清华大学教授颜宁受聘美国普林斯顿大学

    记者从清华大学证实,颜宁已接受美国普林斯顿大学邀请,受聘该校分子生物学系雪莉•蒂尔曼终身讲席教授的职位,将于近期前往就任该教职。

  • 102011.02
  • 162009.04

    美国普林斯顿高等研究院院长访问清华

    10月31日,美国普林斯顿高等研究院院长Peter Goddard教授访问清华大学。

  • 012025.07

    从 OpenAI 回清华,吴翼揭秘强化学习之路:随机选的、笑谈“当年不懂股权的我”

    人工智能的浪潮席卷而来,从大模型竞赛到智能体系统的探索,从生成模型到推理模型,技术巨头们纷纷入场,推动着一场“AI 重新定义一切”的时代跃迁。但在这场热潮背后,真正推动技术向前的,从来不是一场场轰动的发布会,也不是那些令人眼花缭乱的融资神话,而是一群敢于直面复杂性、埋头钻研底层机制的工程师与研究者。吴翼,就是其中一位。1992 年出生的他,高中时期便在全国青少年信息学奥林匹克竞赛(NOI2009)中斩获金牌,...

  • 102016.10

    30岁成为清华最年轻博导,37岁攻克50年不解的科学难题,她是颜宁

    在今天这篇文章里,你将认识她——颜宁。当今最受瞩目的女科学家,清华大学和普林斯顿的学术女神,30岁成为清华最年轻博导,37岁率领平均年龄不到30岁的团....

  • 272008.10
  • 262019.09

    清华校友终身学习支持计划走进浙江

    9月21日,清华大学浙江校友会2019迎新会暨清华校友终身学习支持计划——走进浙江活动在杭州举行,近200名新老校友共话终身学习。此次终身学习支持计划活动,在清华校友总会和浙江校友会的支持下,结合区域特点和发展需要,特邀清华大学经济学研究所副所长、副教授,哈佛大学经济学系博士后王勇,就“数字经济与平台战略”为浙江校友作主题讲座。

  • 262012.09
  • 262019.06

    清华校友终身学习支持计划走进甘肃

    6月22日,清华大学甘肃校友会第六届会员代表大会(EMBA年会)暨清华校友终身学习支持计划走进甘肃活动在兰州举办。清华大学校务委员会副主任、校友总会副会长韩景阳,深圳研究生院党委书记武晓峰,继续教育学院副院长李越,环境学院教授刘建国以及甘肃省生态环境厅副巡视员韦春等出席会议或发表主旨演讲。甘肃近160名校友参加了会议。活动现场李越介绍了清华校友终身学习支持计划以及继续教育学院广育人才、服务社会的模式。清...

  • 292025.05

    “清华校友终身学习支持计划·智造班”正式开课

    为帮助校友系统了解智能制造的理论与实践,提升校友运用智能制造技术的能力,清华校友总会联合清华大学基础工业训练中心(iCenter)推出“清华校友终身学习支持计划·智造班”。5月24日, “智造班”开班式在清华大学举行。