小标
2018-10-25
来源 :
阅读 2937
评论 0
摘要:本文主要向大家介绍了机器人之机器阅读理解中你需要知道的几个经典数据集,通过具体的内容向大家展现,希望对大家学习机器人有所帮助。
本文主要向大家介绍了机器人之机器阅读理解中你需要知道的几个经典数据集,通过具体的内容向大家展现,希望对大家学习机器人有所帮助。
一、2013,MCTest
论文:《MCTest:A Challenge Dataset for the Open-Domain Machine Comprehension of Test》
数据以json格式给出。小规模,大部分在这个数据集上的研究都是基于特征工程的工作。
下载链接://www.msmarco.org/dataset.aspx
二、2015,CNN&Dailymail
论文:《Teaching Machines to Read and Comprehend》
填空型大规模英文机器理解数据集,答案是原文中的某一个词。
CNN数据集包含美国有线电视新闻网的新闻文章和相关问题。大约有90k文章和380k问题。
Dailymail数据集包含每日新闻的文章和相关问题。大约有197k文章和879k问题。
下载链接:https://github.com/deepmind/rc-data
三、2016,SQuAD
论文:《SQuAD:100000+ Question for Machine Comprehension of Test》
机器理解领域的ImageNet,数据来源于对维基百科文章的问题的整理,在500多篇文章中有超过100000个问题答案对,答案不是原文的一个词,而是原文的一个连续文本片段。数据以json格式给出,只给出了训练集以及验证集,如果要获取在测试集上的效果,需要上传模型,官方会把你的模型在测试集上跑,得出结果后再反馈给你。
下载链接:https://rajpurkar.github.io/SQuAD-explorer/
四、2017,RACE
论文:《RACE:Large-scale Reading Comprehension Dataset From Examinations》
数据集为中国中学生英语阅读理解题目,给定一篇文章和 5 道 4 选 1 的题目,包括了 28000+ passages 和 100,000 问题。与MCTest同为选择题形式的机器阅读数据集,但规模比MCTest大,且相对CNN&Dailymail和SQuAD,RACE更注重推理能力。
数据以txt格式给出,数据集的high文件夹下有20794篇文章,每篇文章有4个问题;middle文件夹下有7139篇文章,每篇文章有5个问题。
训练集的high文件夹下有18728篇文章,占比90%,middle文件夹下有6409篇文章,占比90%;
验证集的high文件夹下有1021篇文章,占比5%,middle文件夹下有368篇文章,占比5%;
测试集的high文件夹下有1045篇文章,占比5%,middle文件夹下有362篇文章,占比5%。
样本数据展示:
本文由职坐标整理并发布,希望对同学们有所帮助。了解更多详情请关注职坐标人工智能智能机器人频道!
喜欢 | 0
不喜欢 | 0
您输入的评论内容中包含违禁敏感词
我知道了

请输入正确的手机号码
请输入正确的验证码
您今天的短信下发次数太多了,明天再试试吧!
我们会在第一时间安排职业规划师联系您!
您也可以联系我们的职业规划师咨询:
版权所有 职坐标-一站式AI+学习就业服务平台 沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com,All Rights Reserved.
沪公网安备 31011502005948号