百年清华

何恺明:从高考状元到CV领域年轻翘楚,靠“去雾算法”成为“CVPR最佳论文”首位华人得主

2019-01-29 | 来源 公号“德先生”2019-01-24 |

根据科学研究,人类大脑皮层的70%活动都在处理视觉信息。如果人工智能赋予机器能够像人类一样思考、处理事情的能力,计算机视觉将承担巨大作用。作为一门研究如何使机器“看”的科学,计算机视觉已成为人工智能的重要分支,等同于人工智能的大门。

提到计算机视觉研究,就不得不提起近年来一个冉冉升起的“学术新星”——何恺明。从高考满分状元到“CVPR最佳论文奖”第一位华人得主,再到“深度残差网络”在ImageNet比赛中击败谷歌等公司夺得第一……“80后”的他早已众多光环加身。在学界,他被视为天才少年,也被称为“大神”,不断地为学界提供着诸多有分量的研究成果。

何恺明

从小就成为“别人家的孩子”

用“年少成名”形容何恺明一点不为过,因为他曾是万千学生和家长都膜拜的对象——高考状元。

出生于广州的何恺明是家中独子,父母均在企业里从事管理工作,从小就接触到优良的教学环境。实际上,能从众多学子中脱颖而出,除了教学环境之外,更多的是靠自己的努力。

何恺明年少时就被送到少年宫学习绘画,有时一待就是大半天,这也不断使他练就出沉稳的性格。同绘画一样,他对于文化课的钻研也十分耐得住性子,学习成绩优秀而且稳定。在老师的心目中,他是一个“性格比较内向”但是“目标明确”的学生,“从小就立志上清华”。

高中时,何恺明凭借全国物理竞赛一等奖被保送进清华大学机械工程及其自动化专业。不过,他却依然选择继续参加考试,并凭借着扎实的基本功和轻松的心态一举成为2003年的广东省高考状元。

凭实力进入清华的何恺明,放弃了原本保送的专业,转而选择了更有挑战性的基础科学班。成立于1998年的基础科学班是清华大学设立的一个跨系跨学科的尖子班,本科学生不仅要学习物理系、数学系的大部分基础课程,还要接受一定的科学研究的实际训练。

大学期间,何恺明继续着自己沉稳而优秀的表现,不仅连续3年获得清华奖学金,2007年,还未毕业的他就进入了微软亚洲研究院(MSRA)实习。

何恺明和导师汤晓鸥

本科毕业后,他进入香港中文大学攻读研究生,师从AI名人汤晓鸥。同时继续参与MSRA的工作。2009年,他的第一篇论文“Single ImageHaze RemovalusingDark Channel Prior”被计算机视觉领域顶级会议CVPR接收并被评为年度最佳论文,这是CVPR创办25年来华人学者第一次获此殊荣,也使何恺明在CV领域声名鹊起。

受游戏启发的CVPR最佳论文

然而,彼时刚刚涉足CV领域的何恺明,却并非一帆风顺。

在MSRA实习时,他并未选择自己擅长的物理和数学工作组,而是根据自己的研究兴趣选择了形象计算组。尽管他曾在大学的时候选修过计算机图形图像的相关课程,但是并非科班出身的他,兴趣也难以支撑工作的需要。

背景知识的缺乏使他在入门的路上举步维艰。回忆起那段时光,何恺明曾表示,自己在阅读文章的时候,常常都不知道哪些是大家都在用的方法,哪些才是作者的贡献。一切对他来说都是新的。

尽管有导师孙剑这样的学术大牛带着他进行课题研究,自身稳定而刻苦的品格也推动着他不断挑战困难,但在换过多次课题后,全部都以失败告终。

虽然结果对何恺明来说是残酷的,但是他也从中学习到了很多,尤其是多个研究课题的经历使他尝试了许多不同的方向,而MSRA轻松自由的研究方向也为他日后的科研奠定了牢固的基础。

其中,何恺明花了大量时间研究的image matting问题 (半透明物体边界提取),就为他日后研究的“去雾算法”带来很大帮助。在刚开始研究去雾的时候,何恺明发现雾的方程和matting的方程非常相似,而之前所研究的matting框架可以给去雾带来帮助。利用这个框架,只需要找到一个能局部估算雾的浓度的方法就足够了。

他在2009年获“CVPR最佳论文奖”的那篇论文,研究的正是图像的去雾技术,它可以还原图像的颜色和能见度,同时也能利用雾的浓度来估计物体的距离,这些在计算机视觉上都有重要应用(例如三维重建,物体识别)。

北京灰霾照片的去雾结果

难以想象的是,他最初对去雾研究的灵感竟是来源于电脑游戏。何恺明发现,3D游戏里有很多带有雾的场景,但这些场景都是虚构的不实在的东西。计算机生成的3D图像会与自然图像的统计规律有很大区别,但人的视觉系统却仍然能感觉到虚拟图像中存在的雾。这让他相信,人的视觉系统一定有一种有效的机制来感知有雾的图像,而且这种机制一定与现存的去雾方法不一样。

根据何恺明算法处理的图像,上为原图下为处理后

与之前的方法不同,何恺明把注意力放到了无雾图像的统计特征上。在无雾图像中,每一个局部区域都很有可能会有阴影,或者是纯颜色的东西,又或者是黑色的东西。因此,每一个局部区域都很有可能有至少一个颜色通道会有很低的值。他把这个统计规律叫做Dark Channel Prior。

即使有了想法和实验结果,第一次写文章也使何恺明觉得非常困难。他经常陷入自己和自己吵架的角色当中。在每一段话写好之后,常常会质问自己事情到底是不是这样的,这其中有没有漏洞。他也会思考,如果自己是评委,或者是读者,能看懂这篇文章吗,怎么写才能让思路更加流畅?

就在这样的挣扎中,何恺明的一稿通常要写好几天。每当他把自己说服了,孙剑还是总能提出新的质疑。就在这样的循环中,终于有一天孙剑说文章已经写得不错了,他才开始具体的修改。正是这样的苛刻要求,才会有后来高质量的文章。

因为热爱,所以一次又一次选择走研究的路

2011年,博士毕业的何恺明正式加入MSRA计算机视觉和深度学习的研究工作。在2015年的ImageNet图像识别大赛中,何恺明和他的团队凭借152层深度残差网络ResNet-152,击败谷歌、英特尔、高通等业界团队,荣获第一。目前ResNets也已经成为计算机视觉领域的流行架构,同时也被用于机器翻译、语音合成、语音识别和AlphaGo的研发上。

2016年,何恺明凭借ResNets论文再次获得CVPR最佳论文奖,也是目前少有的一人两次获得CVPR最佳论文奖的学者。

后来,何恺明和孙剑相继离开MSRA。与孙剑的选择不同,何凯明走得还是那条学院路。他选择了去Facebook,担任其人工智能实验室研究科学家,选择了进一步走学术之路。

在Facebook AI实验室研究期间,何凯明仍然醉心于研究,而且颇有建树。2017年3月,何恺明和同事公布了其最新的研究Mask R-CNN,提出了一个概念上简单、灵活和通用的用于目标实例分割(objectinstance segmentation)框架,能够有效地检测图像中的目标,同时还能为每个实例生成一个高质量的分割掩码。同年,凭借《利用焦点损失提升物体检测效果》这篇论文,他一举夺下了另一个计算机视觉顶级会议ICCV最佳论文奖。

ICCV2017最佳论文

2018年,何恺明在美国盐湖城召开的CVPR上,获得了PAMI青年研究者奖。几个月前,何恺明等人发表论文称,ImageNet预训练却并非必须。何恺明和其同事使用随机初始化的模型,不借助外部数据就取得了不逊于COCO 2017冠军的结果,再次引发业内关注。

无论是在MSRA还是在FAIR,何恺明始终以他沉稳而优秀的表现,一路过关斩将,为学术界带来许多重磅的研究成果。有人曾表示,孙剑选择加盟企业,而何恺明似乎还在不知人间疾苦地奋斗在研究领域,但是虽然道不同,最终为行业所做贡献却是相同的。


相关新闻