哈工大教授车万翔「自然语言处理中的伪数据」

yangguanghai1230

已于 2022-05-20 01:21:20 修改

阅读量472

点赞数

文章标签：自然语言处理

于 2022-05-20 01:03:46 首次发布

原文链接：https://event.baai.ac.cn/activities/350

版权

报告题目：自然语言处理中的伪数据

报告摘要：自然语言处理（Natural Language Processing，NLP）是用计算机来理解和生成自然语言的各种理论和方法。由于语言所具有的歧义性、组合性等现象，使得自然语言处理的性能始终不尽如人意，并成为制约人工智能取得更大突破和更广泛应用的瓶颈，也被誉为“人工智能皇冠上的明珠”。自然语言处理的本质问题是形式与意义的多对多映射关系，需要利用“知识”进行约束。除了显性的符号知识外，还可以将知识融入算法之中，或者通过数据获取隐性的知识。目前，数据的重要性越来越凸显。然而传统有标注数据需要大量的人力物力进行标注，不但代价高昂，而且规模有限。近年来，从无标注数据中构造自监督任务的预训练模型异军突起，大幅提高了自然语言处理系统的准确率。然而，语言模型等自监督任务与下游目标任务的差异较大，为了进一步提高迁移学习的效果，我们提出“伪数据”的概念，通过移植、采集、构造等方式，自动构造与下游目标任务更一致的大规模“标注”数据，从而进一步提升系统的准确率。本报告将系统地阐述伪数据的概念及其在自然语言处理中的应用案例，希望能够对相关的工作带来一定的启发。

主讲人：车万翔

主讲人简介：车万翔博士，哈尔滨工业大学计算学部长聘教授、博士生导师，人工智能研究院副院长，社会计算与信息检索研究中心副主任。教育部青年长江学者，黑龙江省“龙江学者”青年学者，斯坦福大学访问学者。现任中国中文信息学会计算语言学专业委员会副主任兼秘书长；国际计算语言学学会亚太分会（AACL）执委兼秘书长；中国计算机学会高级会员、曾任YOCSEF哈尔滨主席（2016-2017年度）。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文100余篇，其中AAAI 2013年的文章获得了最佳论文提名奖，论文累计被引近6,000余次（Google Scholar数据）。出版教材 4 部，译著 2 部。目前承担2030“新一代人工智能”重大项目课题、国家自然科学基金等多项科研项目。负责研发的语言技术平台（LTP）已被600余家单位共享，并授权给百度、腾讯、华为等公司使用。2018、2019连续两年获CoNLL国际评测第1名。2020年获黑龙江省青年科技奖；2015、2016连续两年获Google Focused Research Award（谷歌专注研究奖）；2016年获黑龙江省科技进步一等奖（第2完成人）；2012年获黑龙江省技术发明奖二等奖（第2完成人）；2010年获中国中文信息学会“钱伟长”中文信息处理科学技术奖一等奖（第2完成人）、首届汉王青年创新奖（个人）等多项奖励。2017年，所主讲的MOOC课程《高级语言程序设计（Python）》获国家精品在线开放课程。

视频观看地址：智源社区活动

备用地址