2020语言与智能技术竞赛启动 全新五大竞赛任务挑战升级
原标题:2020语言与智能技术竞赛启动 全新五大竞赛任务挑战升级
语言是人类信息传递最重要的媒介,让机器理解语言并使用语言进行交互是实现通用人工智能的重要挑战,3月10日,2020语言与智能技术竞赛正式启动,面向全球开发者开启报名通道。本届竞赛由中国中文信息学会(CIPS)和中国计算机学会(CCF)联合主办,百度公司、中国中文信息学会评测工作委员会和中国计算机学会中文信息技术专委会联合承办,并将在第五届“语言与智能高峰论坛”举办技术交流和颁奖,获胜团队将分享总额35万人民币的奖金。届时,国内外学术界、工业界知名专家学者,也将面向社会公众介绍国内外语言与智能及相关领域的发展趋势和创新成果。
本次竞赛共设立五个任务,包括机器阅读理解、面向推荐的对话、语义解析、关系抽取和事件抽取,涉及到语言理解、人机对话、知识抽取等复杂技术,这些任务的研究对于智能搜索、智能推荐、智能交互等人工智能应用具有重要意义,是自然语言处理和人工智能领域的重要前沿课题。本次竞赛的五个任务都将提供百度大规模中文数据集,为研究者提供学术交流平台,推动语言理解和人工智能领域技术研究和应用的发展。
三大经典任务全面升级覆盖更多真实应用场景
本次竞赛中,机器阅读理解、面向推荐的对话、关系抽取三大经典任务在2019年的基础上,做了全面升级。
机器阅读理解是指让机器阅读文本然后回答和阅读内容相关的问题。与2019年相比,今年的阅读理解任务,将重点关注阅读理解模型在真实应用场景中的鲁棒性。因此,在本次竞赛中特别构建了DuReader_robust数据集,用于考察模型在多个维度上的鲁棒性,包括模型的过敏感性、过稳定性以及泛化能力。数据集中的样本均来自于实际的应用场景,难度大,考察点丰富,覆盖了真实应用中诸多难以解决的问题。
面向推荐的对话则是指集成对话系统和推荐系统的人机交互系统,该系统先通过问答或闲聊等形式收集用户兴趣和偏好,然后主动给用户推荐其感兴趣的内容。真实世界的人机交互会同时涉及到多种类型的对话,如何自然的融合多类型对话是一个重要的挑战。为了应对这个挑战,本次竞赛将提出一个新的任务—多类型对话中的面向推荐的对话,期望系统能够主动且自然地将对话从非推荐对话引导到推荐对话,然后基于收集到的用户兴趣及用户实时反馈,通过多次交互完成最终的推荐目标。同时,任务还将提供多种对话类型、多个领域、融合用户profile信息的对话逻辑数据集,贴近真实的应用场景。
关系抽取是指从自然语言文本中抽取实体及其之间的关系。本次竞赛在去年信息抽取任务的基础上进行了两处升级,一是在简单SPO关系的基础上增加了复杂关系类型,用以刻画现实世界中广泛存在的复杂关系;二是引入百度贴吧口语化表达语料,其文本语义自由度更高,更贴近日常口语表达习惯,使关系抽取评测任务具有更大的挑战性和实战应用价值。
新增两大热门任务为参赛者带来全新挑战
与往年竞赛不同,除沿袭机器阅读理解、面向推荐的对话、关系抽取三大任务外,还特别新增了语义解析与事件抽取两大热门任务。
语义解析任务旨在让机器能自动将用户输入的自然语言问题转成可与数据库操作的编程语言(如SQL),以降低结构化数据使用的门槛和成本,同时提升结构化数据使用的价值和效率。当前的中文Text-to-SQL数据集的数据库基本都是由单表构成的,问题模式比较简单,仅覆盖部分实际应用中存在的问题。本次竞赛将首次发布DuSQL数据集,包含164个领域的200个数据库,覆盖了匹配、计算、推理等实际应用中常见的问题形式,每个问题关联一个数据库中一或多张表格。该数据集更贴近真实应用场景,对模型解决领域无关性、问题无关性、计算推理问题的能力提出了更高的挑战。
事件抽取一直受到学术界和工业界的广泛关注,具有重要的实用价值,也极具挑战。此次竞赛中,该任务目标是通过给定目标事件类型和角色类型集合及句子,识别句子中所有目标事件类型的事件,并根据论元角色集合抽取事件所对应的论元。针对事件抽取任务,百度将对外发布当前业界最大规模的中文事件抽取数据集,其中包含65个事件类型和1.7万个具有事件信息的句子。希望通过此次竞赛及开放的大规模中文数据集,助力事件抽取技术的进一步发展。
百度飞桨火力全开为参赛选手提供全面支持
作为本次竞赛的承办方,百度还将为参赛选手提供全面的技术资源及平台支持。本次比赛中,百度将为5大竞赛任务均提供基于飞桨PaddlePaddle基线系统,助力选手快速上手。作为开源开放、功能完备的产业级深度学习平台,飞桨具备开发便捷的核心框架、支持超大规模深度学习模型训练、多端多平台部署的高性能推理引擎和产业级开源模型库等领先技术,鼓励大家使用飞桨完成模型的设计、训练和预测。
不仅如此,百度AI Studio也将为本次比赛提供软硬件环境的支持。AI Studio是基于飞桨平台的一站式AI开发实训平台,为参赛团队提供在线编程环境、Tesla V100 免费GPU算力、海量开源算法和数据。登录即送算力,每天登录AI Studio并运行Notebook即可获得12小时算力,连续登录5天额外领取48小时算力。AI Studio宣布将为报名参加2020语言与智能技术比赛的参赛团队额外提供免费GPU算力时长,彻底破除算力桎梏,助力选手取得优异成绩。
据了解,2020语言与智能技术竞赛将在2020年3月10日正式启动竞赛报名,并开放竞赛平台,发放样例数据,并于3月31日对报名者发放全部训练数据和第一批测试数据。竞赛的每个任务都将分别评出一等奖1名,二等奖1名,三等奖1名和优胜奖2名,主办方中国中文信息学会(CIPS)和中国计算机学会(CCF)将为获奖者提供荣誉证书认证。同时,百度公司将为获奖者提供奖金和参会旅行赞助。更多竞赛信息及报名入口,可搜索2020语言与智能技术竞赛官网进入各任务详情页查看详细内容及报名比赛。