百年清华

曾文军:清华魂托起科技梦

2020-11-24 | 来源 公号“THU电子系校友会”2020-11-24 |

曾文军,微软亚洲研究院高级领导团队(SLT)成员,首席研究员,IEEE Fellow,西安交大-微软亚研院智能信息处理联合实验室主任,密苏里大学、中国科技大学、西安交大、天津大学等多所学校博士生导师。1990年毕业于清华大学电子工程系,1993年和1997年分别获美国圣母大学和普林斯顿大学电气工程硕士和博士学位。先后在美国松下信息技术实验室、贝尔实验室、夏普实验室、Packet Video 等公司工作。2003-2016任密苏里大学计算机科学系终身教授。2014年加盟微软亚洲研究院。他对国际标准(ISO MPEG、JPEG2000 和 Open Mobile Alliance)发展作出重大贡献,发表了大量论文和专利并被广泛引用,并有两部关于多媒体安全和社交多媒体的著作。他目前负责微软亚洲研究院视频分析和理解的研发,为微软认知服务、微软云平台Azure 的媒体分析服务,Office、Dynamics和Windows Machine Learning平台提供技术。担任过多个IEEE期刊和杂志的副主编、多个IEEE国际会议 (如ICME 2018、ICIP2017等) 的大会共同主席或技术程序委员会主席。

2020年,疫情裹挟着世界前行,时间依然以往日的步伐不紧不慢地记录着这个星球的点滴。这一年尽管如此不平凡,但科技早已融入人类的生活,就像是科幻片巨匠诺兰在电影世界里描绘的那样:未来已来,只是人们尚不自知。

多年前,人们还在为远距离通信通话而挠墙;多年后,多媒体技术正成为世界的主流。不久的将来,作为这个星球的生命主体,人类每时每刻的行为、甚至身体机能都会成为科学技术乃至发展趋势的深入主导。譬如在某一时段内某一场景下某一人群的表现可以在视觉环境中被记录,甚至细化到每一刻的姿态识别,人机交互在三维乃至多维空间中都将完美呈现。这并非科幻式的脑洞大开,恰如以色列历史学家尤瓦尔·赫拉利所言:这极有可能就是人类的未来。

本期的采访主角——清华大学电子工程系1985级校友曾文军,现为微软亚洲研究院高级领导团队(SLT)成员、首席研究员,就以这样科幻般的案例,带领我们走进了他的科技世界。

怀揣科技梦,从山区小城考入首都北京

与很多传统的理工男不同,曾文军身上既有着老派的研究气质,又有着新时代的进取情怀。这与他的个人经历密切相关。换而言之,可以说他打通了学术界与工业界融合的任督二脉,兼具着两个领域的不同气韵。对科技研究的孜孜不倦和不懈追求,既承继自清华大学的洗礼,也来自于幼时的梦想。

上世纪70年代,在中国福建西部的一个小城龙岩,有一个调皮的学生,正让所在学校的老师头疼。“这个孩子极其聪明,就是各种鬼点子太多,玩心太重……”然而,谁也没有想到的是,初二之前还上山摘果下河摸鱼的他,初二之后收心向学,成为“学神”般的存在。在所在的省重点中学,他的考试成绩几乎年年都是年级第一。

更让人没有想到的是,多年之后,人到中年的曾文军,已然成为科学研究的“知名”人物,他带领团队在多个前沿科技的研究中斩获颇丰。就像儿时站在海边迎风而立,幻想着有一天能在神奇科技的助力下遨游;而今,他不仅做到了,而且将继续发掘科技的潜力、继续把它蕴藏的神奇应用到人类的生活中。

尽管成长在一个偏僻的福建小城,但曾文军告诉我们:在他的家乡龙岩,家家都很重视教育。他的父母都是中学老师,从小在求学上进的耳提面命中感受到学习的力量。最终,他的高考成绩不负众望,登上地区状元的宝座。

1985年,是教育改革的第一年,当时所在地的推荐名额(推荐也需要参加高考)仅仅有两个,曾文军就是其中的一个。从小就一直敬仰清华大学的他,对数理化的兴趣格外浓厚,加上一直怀揣着的科技梦,于是,他毫无悬念地选择了电子工程系,“当时在我的认知里,无线电三个字充满了科技感,而且实话实说,在当时这也是非常先进的学科,能够进入国家的顶尖学府学习梦想中的专业,那种激动的感觉到现在都记忆犹新。”曾文军坦言。

六年时光,清华基本功受益终生

从山区小城到首都北京,对于曾文军来说,是人生中的一次重大跨越。进入清华大学,带来的不仅是视野上的开拓,更让他深刻地感受到了清华在学业传授和学术研究方面积蓄的力量。

达尔文有一句名言深入人心:最有价值的知识是关于方法的知识。百年清华,对于教育的真谛更是驾轻就熟。如同曾文军在采访时所言:在清华,自强不息、厚德载物是我们精神上的灯塔;因材施教、注重实践则是行动上的指导方针。从实践中获得解决问题的方法、在动手中提高应对的能力,从大二就开始进入实验室的曾文军,至今对母校的这种“在实践中来到实践中去”的浓厚教学氛围印象深刻。

在清华的第一年,曾文军在学校全年级的数学PK中进入“因材施教班”。这个班的目的,是要在短短几个月时间内学完一年的课程。面对诸多数学高手,他在期终考试的时候依然取得了满分的好成绩。“在清华,因材施教的方式方法其实还有很多,这仅仅是其中的一个小案例,却也因此让我建立起对自身数理能力的自信,激发出持续不断的内驱力。”

五年的本科学习,最后一年的毕业设计,“实践出真知”是曾文军在清华大学六年时光的关键词。从一个个陌生的名词到一次次失败又重新开始,从无数个不眠的深夜到甘愿牺牲的周末……曾文军跟着导师在实验室里将研究进行到底。

在此期间,他曾参与了多个国家科技攻关项目。在毕业的那一年进入清华的图像组参与国家七五攻关项目-图像计算机系统的研发,从图像的采集、处理到显示,从六层显示板的每一条线路的设计,都需要自己全程动脑动手,在这样充满挑战的实践过程中,曾文军的专注力和耐力更加精进,而且他的动手能力更是得到了训练,养成了良好的研究习惯。这一切都成为他日后科研攻关不断向前迈进的基础源泉。“其实,这样的实践机会非常难得。因为我们的背书是清华,才能以一个本科生的身份接触、参与到国家项目中来。”

1997年博士毕业时与导师Bede Liu 教授在普林斯顿大学合影

怀揣着科技助力未来的梦想,曾文军在以优异成绩从清华大学毕业之后,选择以全额奖学金进入美国圣母大学继续深造,后来又去了普林斯顿大学攻读博士, 师从数字信号处理领域泰斗Bede Liu 教授( Bede Liu 教授是美国工程院和中国工程院两院院士)。众所周知,普林斯顿大学对理论的要求非常高,很多学生去了之后都需要相当长的一段时间去适应。然而正是凭借着在清华大学学到的“童子功”,曾文军自身带着浓厚的清华科研风格与普林斯顿的要求无缝连接,在更为严格和系统的学习训练中游刃有余。

“自强不息、厚德载物”,在每一个清华人的眼里,不仅是一句校训,更体现在一言一行中,这与“行胜于言”的校风不谋而合。六年的清华时光,至今想起,曾文军感叹说:其实是整个身心都潜移默化地受到了清华精神的洗礼,这是终生受益的源泉。

投身工业界,坚守研究初心

伽利略曾经说过:科学的真理应该从实验中和以实验为基础的理论中去发现。从二十多年前踏入职场,曾文军从工业界到学术界,然后又回归到工业界;他追随科技梦的脚步却从未停歇。

1997年,是美国工业界迎来翻天覆地变化的重要一年。博士毕业的曾文军,面对着全球亢奋的网络兴起和发展风潮,在一番抉择之后,是全身心搞研究还是投身商业?最终他选择了一条折中的道路,先后在美国松下信息技术实验室、贝尔实验室、夏普实验室工作。虽然是在工业界,但依然可以在实验室做研究。因为,他始终把科学探索作为核心追求。

2001年,在一家圣地亚哥的独角兽创业公司,曾文军成为第一批在3G网络上做移动视频流媒体的先行者。继续做研究的同时,也在持续参与行业国际标准等的制定。

期间,曾文军学以致用,推进更多研究成果,对国际标准(ISO MPEG、 JPEG2000 和Open Mobile Alliance)发展作出重大贡献。他发表了大量论文和专利并被广泛引用,并出版了两部关于多媒体安全和社交多媒体的著作。

值得一提的是,早在读博期间便对多媒体安全领域非常关注的曾文军,一直保持着对行业发展的深入洞察,取得了丰硕的研究成果。特别是在数字图像水印方面取得的开创性进展,充分利用了人眼视觉系统的特性,优化了数字水印的不可见性和鲁棒性的平衡。论文发表后,曾被引用过上千次。

此外,另一项被业界瞩目的成果是他率先提出了视频访问控制技术中格式兼容的新概念。解决了后向兼容性的挑战问题,被世界视频编码标准组织MPEG4 的IPMP (知识产权管理与保护) 标准采用。这个概念后来也被世界图像编码标准组织JPEG2000 的JPSEC安全标准采用。曾被引用过几百次,对业界发展产生了深入影响。在由曾文军参与编著、Elsevier出版的著作 Multimedia Security Technologies for Digital Rights Management (用于数字版权管理的多媒体安全技术)中,这一技术和其他当时最前沿的数字版权管理技术一起被收录在列。

对于行业国际标准的制定,曾文军的贡献更是功不可没。其中,由他主导的HTTP streaming of JPEG2000 images(美国专利7,206,804 :Methods and systems for transmitting digitalimages (数字图像传输的方法与系统))提出使用 HTTP 协议对大尺度的JPEG2000 图像进行可伸缩的流式传输,为 JPEG2000 交互式协议标准铺平了道路。这一成果,远远早于也使用HTTP 协议的MPEG DASH 动态自适应流媒体标准的制定。

数次跨界,坚韧与探索收获科研硕果

2003年,曾文军出人意料地从工业界进入学术界,去了美国密苏里大学任教,成为该学校计算机系的终身教授。基于此前工作过程中的积累,曾文军对于角色的转换如鱼得水,在幽静的校园里,教书育人的同时,更适合搞大量的研究工作。埋首钻研十一载,对于曾文军来说,称得上是厚积薄发。

2014年,AI浪潮兴起,曾文军最终决定要把多年的研究成果应用到实践中,加盟微软亚洲研究院。就像他自己所言:“衡量科研成果的最终标准,其实还是要看成果的应用价值。在工业界的研究院里,一方面可以最快地捕捉到前沿的市场信息,拥有更多的资源和数据加以挖掘和使用;另一方面也可以藉此有的放矢,进行更符合实际的研究。”

的确,与学校相比,微软研究院的研发拥有着综合优势。首先,气氛浓厚、强调实践是突出的特点。特别是注重研究成果对实际产品的最终影响和价值反馈,与一线市场更为吻合。第二,研究院设置专门的部门去洞察和考量全球一线市场对接,发现、分析、挖掘未来的机会,从而让研究有的放矢。第三,研究既要具备前瞻性,超前引领行业,相对独立和开放;又要从应用角度考虑到公司的战略决策、布局、产品规划等,从中找到共同点,落实在产品上,展示出实际的影响。

因此,作为首席研究员,曾文军坦言:最大的挑战是全盘考虑、确立研究方向,如何从千丝万缕的市场机会中进行筛选和抉择;确定之后又要和公司的战略统一,与团队把目标落实,良好地完成成果转化。“在此要特别感谢我的母校清华大学,让我早早地养成了良好的研究习惯和过硬的分析能力。得益于这样的基本功训练,面对这种高屋建瓴的布局,才能更好地抓住机会。”

微软亚研院和高校计算机视觉学术研讨会

微软亚洲研究院从1998年建院至今,已经发展成为世界一流的计算机基础及应用研究机构,并将最新研究成果快速转化到微软的关键产品中。对研究近乎痴迷的曾文军,目前负责微软亚洲研究院视频分析和理解的研发,为微软认知服务,微软云平台Azure 的媒体分析服务,Office、Dynamics和Windows Machine Learning平台提供技术。同时,他带领着团队着眼于下一代革命性技术的研究,取得了一系列推动业界变革的创新成果,助力人类实现对未来计算的美好构想,改变着我们的现实生活。

譬如在2019年 11月微软最大规模的年度 IT 盛会Ignite大会上,企业视频服务 Microsoft Stream 中展示的一项新功能惊艳四座,从嘈杂视频中提取超清人声,效果显著超越传统方法。由曾文军带领的微软亚洲研究院团队与 Microsoft Stream 团队共同研发的这一创新技术,关注相位和谐波的语音增强模型 PHASEN,通过双流结构让降噪效果大幅超过此前方法。无论你在多么嘈杂的地方录制视频,该功能都能自动过滤背景噪音,让主要语音超清晰地呈现出来。双流模型结构与频域变换模块 FTB (Frequency Transformation Block)联动,从而在AVSpeech+Audioset 数据集上获得 1.76dB 的 SDR 提升,超过了其他模型在该数据集上的表现,并且在 Voice Bank +DEMAND 数据集中,四个指标均大幅超过之前的方法,一个指标与之前方法持平。目前,语音增强模型PHASEN已加入微软视频服务。该论文已被 AAAI 2020 接收。

追随科技梦想,享受研究的乐趣

在科技探索的海洋里,探索未知,其乐无穷。科技最终的目的是造福这个世界。对于人类生活的点滴改变,才是新科技研发的目的。“其实,每一个搞科研的人心里,都有着这样的梦想。”曾文军认为,最终的应用实践效果才是考量每一项技术的试金石。

早在四年前,他带领团队就开始关注视觉环境下的视频数据理解。利用计算机视觉技术对场景中的人进行智能分析,通过视频信号分析用户的喜好和行为,利用数据进行未来的预测。曾文军及其团队在该领域提出了一系列新的思路和方法,包括已转化入微软产品的单摄像头多目标跟踪算法 FairMOT,多摄像头多人三维姿态估计算法 VoxelPose 等等,这些算法在多个测试数据集上都取得了良好的实验结果。在全球最有名的专业挑战公开榜上,FairMOT连续八个月排在第一。并且该成果已经在部分商超领域开始得到良好使用。

目前,以“人”为中心的计算机视觉技术在很多方面都取得了显著进展,但如何将现有的深度学习模型和“人”这个主体的特性相结合,如何将人和环境存在大量交互两个任务有机地结合起来,将会是进一步探索的研究方向。

作为多媒体领域的技术专家,面对着风起云涌的AI浪潮,曾文军认为,我们生活在一个由大量不同模态内容(文本,图像,视频,音频,传感器数据,3D等)构建而成的多媒体世界中,这些不同模态的内容在具体事件和应用中具有高度相关性。所以多媒体技术的发展和落地是必然趋势。

“要把AI包括计算机视觉智能真正落地到有关痛痒的应用中,模型的泛化性和自适应性能力的研究就显得尤其重要。总之,多媒体AI的发展, 前途是光明的,道路是曲折的。但这正是做研究的乐趣。”不愧是科技达人,即便在采访的过程中,他也把研究的乐趣挂在嘴上。事实上,也正是因为有了像曾文军这样的科学家的坚韧与创新,人类才可以站在科技的高度上大胆畅想着未来的科幻高度。

1985级校友“辅导员”们和2015级的学生们交流活动后小聚

采访的最后,曾文军饮水思源,特别强调:清华精神浸润清华人,正是清华的培养托起了自己的科技梦想。“清华点燃了我搞科研的激情和热情,也在我的一言一行中烙下了清华的印迹,对此,我从内心感到骄傲和自豪。”曾文军感谢母校的教导,让他得以在科学的大千世界中练出真功夫去发现和探索。

2021年是清华大学110周年校庆,曾文军在采访中为母校提前送上祝福:“我会铭记母校的教导,让我一生都受益无穷。祝福清华,永远清芬挺秀、华夏增辉。”

脚踏实地,仰望星空。三十年前从清华大学走出来,曾文军坚守初心,笃学砥砺,不断创造和收获着累累硕果,我们也期待着他能在未来继续大展身手、超越过往,让更新奇的科技造福人类、让更震撼的成果点亮世界。

   

  __________________________________________________

采访 | 乔元春、孙鹏鹏、吴梓栋、蒋丽婷、张雪辉、贺鲲鹏、林真如、胡铭中、谢楚楚、彭诗懿、肖振宇

撰稿 | 孙鹏鹏


相关新闻

  • 292017.11

    清华教授郭黛姮:用科技手段保护文化遗产

    “应利用现代科技手段保护文化遗产,如用数字技术‘复原’圆明园。”近日,清华大学艺术博物馆报告厅内,2017清华文创论坛文化遗产主题论坛现场,清华大学建....

  • 132023.02

    专“注”科技报国的清华人——缅怀李德群院士

    如果您无法在线浏览此 PDF 文件,则可以下载免费小巧的 福昕(Foxit) PDF 阅读器,安装后即可在线浏览 或下载免费的 Adobe Reader PDF 阅读器,安装后即可在线浏览 或下载此 PDF 文

  • 022023.06

    创业清华人︱小库科技:用AI,探索未来建筑

    何宛余,荷兰代尔夫特理工大学建筑系,清华五道口金融学院“科创中国”,清华经管学院“青腾未来科技学堂”杨良崧,清华大学2011年级建筑系深圳小库科技有限公司,第七届清华校友三创大赛互联网与新经济全球总决赛天使成长组三等奖。公司成立于2016年,是建筑产业AI应用的领军企业、国家高新技术企业。2021年,小库凭借自主研发的小库设计云及其项目应用入选国家住房和城乡建设部自主创新数字化设计软件典型案例。小库科技致力...

  • 022020.11

    让人文为科技赋能,用科技点亮人文之光|2020清华文创论坛成功举办

    10月31日,2020清华文创论坛在清华大学成功举办。本届论坛以“文化科技融合与当代文创发展”为主题,聚焦文化科技融合的前沿进展与未来趋势,邀请国内外....

  • 272007.11

    清华学生课外学术科技与创新创业文化展举行

    创新·飞翔——清华学生课外学术科技与创新创业文化展举行【新闻中心讯】11月24日,以“创新?飞翔”为主题的2007年清华大学学生课外学术科技与创新创业文化展在清华大学紫荆综合服务楼举行。

  • 272023.04

    走进清华“硬科技”活动成功举行

    2023年4月21日,清华校友总会城乡建设专委会、清华经管EMBA2014级北京校友会、水木清华校友种子基金在清华大学校内共同举办了主题为“走进清华硬科技”的高科技交流与参观活动。

  • 302023.03

    创业清华人︱极展科技何蕾:发展柔性电子生态圈

    何蕾,清华大学1994级材料系。冬奥会上的“温暖奇迹”,让我们认识了极展科技及创始人何蕾。作为西南联大校友后代的何蕾,人生规划很清晰,毕业于清华大学材料系,后赴美留学,先后就读于美国麻省理工学院、新加坡国立大学及美国弗吉尼亚联邦大学并取得硕士及博士学位,在柔性电子领域深耕多年后,带着所学所获又回到了中国。2019年,已经有过一定创业经验的何蕾带着“柔性电子”黑科技回国再次创业。作为一名创业者,何蕾需要考...

  • 212015.12

    铁血科技蒋磊:一亿军迷的大生意

    经过这几年发展,蒋磊和铁血发现,军迷相关的市场比他们想象的要大

  • 282007.11

    “清华大学法国文化科技节”开幕

    【新闻中心讯】11月27日上午,在法国总统萨科齐访问清华大学之际,由法国驻华大使馆和清华大学共同倡议并主办的“清华大学法国文化科技节”开幕式在清华大学主楼大厅举行。

  • 162007.11

    高校科技论文排行榜出炉清华两项居榜首

    清华国际论文被引用篇数及EI收录数居榜首 11月15日,中国科学技术信息研究所日前公布了2006年度高等学校科技论文产出统计结果。