新闻中心

易珂:数据检索让工作生活更加简单高效

2011-08-30 |

不久前,香港科技大学计算机科学及工程学系助理教授易珂博士以访问学者的身份来访了惠普中国研究院,并与惠普中国研究院的研究人员与实习生们度过了两周愉快的工作时光。在一个阳光明媚的午后,我们和易珂博士进行了一次愉快的交流,并了解到易珂博士目前主要的研究领域以及他与惠普中国研究院的合作经历。

易珂博士2001毕业于清华大学计算机系,之后赴美国杜克大学继续攻读,并于2006年取得博士学位。毕业后,易珂博士在美国AT&T实验室工作了一年,2007年起在香港科技大学计算机科学及工程学系任教。目前,易珂博士的研究领域是海量数据算法及数据库理论与实践。具体来说,就是对大规模数据处理问题先从理论上设计算法,分析其通讯复杂度、时间复杂度以及空间复杂度,然后在单机及分布式环境下实现原型和进行实验。

“这次我和中国惠普研究院的合作,主要涉及了两个课题,其中之一就是这里的强项:机器学习。”易珂博士告诉我们。“第一个项目是惠普“聪明打印”应用的延伸,它在加载在微软Bing工具条上的应用。现在我们在网页上打印内容的时候,并不用打印全部内容,因为现在页面上广告之类不太相关的东西很多。我们要打印的可能只是一小部分,比如新闻的正文,网购的确认单等,这样做不仅省纸、省墨,同时也保护环境。而现在打印的范围基本上都是自己来圈,我们想做的就是一个延伸,通过以前用户打印的相似网页,从以前用户的选择区域来预测新的页面哪些部分值得打印,然后推荐给用户。这也是一个自学习的过程,目标就是尽量做到准确。目前这个项目还处在实验室的研究阶段,但前景非常好。现在我们做成了一个ToolBar的形式在浏览器上供用户下载安装,已经有了上百万的下载量。但目前只能让用户自己选择打印的范围,未来我们会逐渐推出智能预测的功能。”

“第二个项目现在还在摸索期,”易珂博士笑笑说。“大概思路就是在搜索引擎里,当搜索一个关键字的时候,有时候用户是想搜索跟自己位置相关的,比如咖啡厅、电影院。而有些关键字是和地点没关系,比如搜电脑型号、HP等。我们现在就想把这两方面结合起来,当用户搜一个关键字的时候,智能地分析出他是不是想搜与地址相关的,如果是相关的话就自动告诉搜索引擎,把当前地址考虑进去。否则按一般的关键字搜索就可以了。我们的方法也是通过分析已往以往用户的搜索记录来预测哪些搜索是和地址相关的,哪些不是。”

“其实这两个项目的基本思想是一致的,都是分析过去的记录来预测用户的意图,基本上都是用到一些数据挖掘和自学习的方法。还有一个涉及隐私的问题,所以我们会问用户,你希不希望发送信息给我们,来推进我们的质量。但这两个项目我们现在的记录都还并不多,只有几万条的记录。但如果积累到一定数据量的话,我们就会开始做个性化的预测,因为所有的数据挖掘都是数据量越大,效果越好。”

在谈到国内的研究水平,易珂博士说道:“从学术上讲,整个中国以及亚洲,现在成果还是比较多的。从数据库这个领域来看,现在来自中国的学者已经占了很大的比重,但业界的领导者和资深的专家,中国人还是比较少。这几年国内在这个领域发展的比较快,但和国际上相比,还是有一些差距。但在应用方面,像百度、阿里巴巴、腾讯等国内的企业,现在发展的相当好,成绩和进步都很大。特别是中文市场这一块,现在国内互联网企业的份额应该已经超过国外厂商了。”相对而言,算法和计算机理论方面中国学者为数不多,但近几年也有很好的发展势头。特别是图灵奖得主姚期智先生在清华大学创办的“理论计算机科学研究中心”,这几年培养了不少的理论界新星。

在交谈的最后,易珂博士也回顾了自己和惠普中国研究院两次合作的历程。“今年是我第二次来到惠普中国研究院,去年已经来过了一次,正是由于去年和惠普合作地比较愉快,所以今年又来了。现在惠普在研究方面正在转型,研究课题更偏应用一些,和成果的结合也更加密切。去年我们选了一个比较开放的课题,学生也很出色,这边的领导也很支持,所以那个项目做得很好,发表在了SIGMOD上。而今年的选题就比较偏应用一些,我们 一同在产品上进行了一些合作研究,而这些项目的前景也非常好。能与惠普这样的IT巨头合作我十分高兴,十分期待今后能与惠普再进行更深一步的合作。”

转自 惠普中国研究院博客 2011829

相关新闻

  • 142016.11

    公管院友会互联网与大数据专门委员会正式启动工作

    10月29日,公管院友互联网与大数据专门委员会召开工作会议,同日,专委会参与举办“大数据与公共服务”国际研讨会。11月2日,专委会具体承办《大数据及精....

  • 252020.03

    “科技传播助力企业发展”网上路演行动——工业大数据专场成功举办

    3月19日下午,“科技传播助力企业发展”网上路演行动第4期—工业大数据专场成功举办,清华校友三创大赛全球遴选四个工业大数据相关优质项目,开展投融资高效....

  • 112021.03

    清华校友总会AI大数据专业委员会

    清华校友总会AI大数据专业委员会 一、基本介绍清华校友总会AI大数据专业委员会,以下简称“专委会”,是在清华校友总会指导下,由从事AI大数据产业链条上相关行业的清华校友自愿组成的非营利性组织。专委会为非独立法人,由清华校友总会统一管理。专委会秉承清华大学“自强不息、厚德载物”的校训,“行胜于言”的校风,以“开放包容,平等互助,协同创新,振业兴邦”为宗旨;坚持团结校友力量,聚焦行业前沿,助推行业发展,以构...

  • 162023.03

    密码工程技术人员:让数据“可用不可见”

    早上九点,黄熹之(2013级自动化)走进办公室,一边查看新出的密码文献,一边和同事讨论尚未完成的产品。随着我国大数据产业快速发展以及数据交易需求不断上升,黄熹之所从事的“密码工程技术人员”作为新职业也发展壮大。相关机构预测,预计至2025年,我国隐私计算市场将达到145.1亿元,相关技术人才需求将更旺盛。推动数据大规模安全流通应用“我们的工作就是基于密码学,把需要保护隐私的明文数据进行‘加密’,使用公开的密...

  • 082022.03

    “健康医疗+AI大数据”前沿技术高峰论坛举行

    3月5日下午,由清华校友总会AI大数据专委会与清华校友总会生命科学与医疗健康专委会共同主办,清华大学北京市中医药交叉研究所协办的“健康医疗+AI大数据”前沿技术高峰论坛举行。清华校友总会秘书长、清华大学校友工作办公室主任唐杰,清华校友总会AI大数据专委会执行会长、清华大学数据科学研究院原执行副院长韩亦舜,清华大学长聘教授、电子电气工程师协会会士王志华出席致辞。清华校友总会生命科学与医疗健康专委会秘书长余...

  • 142023.04

    王翀 | 让大数据“活”起来

    网络和信息技术变革深刻而迅速地改变着人们的生活和社会经济的运行。2022年12月7日,中国信通院官方微信公众号发布了《全球数字经济白皮书(2022年)》,报告显示:2021年,美国数字经济蝉联世界第一,规模达15.3万亿美元;中国位居第二,规模为7.1万亿美元。数字经济的发展在给我们的生活带来切实的方便和价值的同时,产生和积累了大量宝贵的数据资产——大数据。大数据不仅是人们习以为常的各类手机应用,比如电商网站中的产...

  • 042021.01

    UCLA李婧翌:提高数据分析的科学性与透明度,用统计学“反转”中心法则

    “对我而言,回答了自己心中的问题或者做出一个新的发现,这种成就感要远高于生活中的其他快乐。”李婧翌(2003级生物科学与技术系)对《麻省理工科技评论》中国这样说道。而她的研究内容在很多人眼里或许稍显枯燥:针对前沿的生物学问题开发新的统计学方法,尤其着重于对大规模基因组和转录组数据进行分析方法的开发。由于高通量实验技术的发展,生命科学从一个靠观察实验为主的学科逐渐变得更加需要定量化,而这些大规模数据...

  • 222019.04

    第四届清华校友三创大赛(TMT/AI/大数据)总决赛暨大数据智能化高峰论坛在重庆举行

    第四届清华校友三创大赛TMT/AI/大数据全球总决赛现场合影4月18-19日,由清华校友总会主办的第四届清华校友三创大赛全球总决赛(TMT/AI/大数据)暨大数据智能化高峰论坛在重庆渝州宾馆隆重举行。

  • 182019.06

    “工业大智 戴卡制造” 清华AI大数据走进中信戴卡

    6月14-15日,由清华校友总会、中信戴卡、清华大学人工智能研究院、数据科学研究院共同主办,清华校友三创大赛组委会、清华校友总会AI大数据专委会、信智....

  • 132018.12

    张钹院士:为人工智能和大数据产业化及产业创新做出更大贡献!

    ——在清华校友总会AI大数据专委会第一届理事会上的讲话