机器人之HFL-RC：科大讯飞填空式机器阅读理解数据集-职坐标

海同科技，欢迎您！

就业

学习

资料

IT知识库

人工智能

站

热门城市全国站>

其他省市

快速购买

15692118659

热门课程

IT学院

职坐标首页 IT知识库人工智能智能机器人

选择在海同提升： 30 天 1641 名，今日申请 47 人 IT技术咨询 >>

机器人之HFL-RC：科大讯飞填空式机器阅读理解数据集

小标 2018-10-25 来源：阅读 1541 评论 0

摘要：本文主要向大家介机器人之HFL-RC：科大讯飞填空式机器阅读理解数据集绍了，通过具体的内容向大家展现，希望对大家学习机器人有所帮助。

本文主要向大家介机器人之HFL-RC：科大讯飞填空式机器阅读理解数据集绍了，通过具体的内容向大家展现，希望对大家学习机器人有所帮助。

0 HFL-RC数据集

语料主要来源于人民日报和儿童童话。论文地址。数据集下载地址。图1展示了从人民日报提取的样本案例。

图 1 从人民日报提取的样本案例

从图1中可以看出，文档包含了序号1~10的句子，每个句子以“|||”开头，最后一个句子为问题和答案，问题与答案用“|||”分割，如图1的序号11的句子，“策略”即为前面句子的答案。

同时，HTL-RC数据集要求在文章中随机选择一个词作为答案，这个词必须为名词，且在文中至少出现两次；那么显然，包含这个答案的句子就为问题，且问题的来源是直接摘抄自文档中的一句话。

为了保证数据的多样性，HTL-RC数据集同时还收集了儿童童话故事作为语料之一，儿童童话故事主要由动物故事或虚拟角色故事组成，这使得我们无法利用训练数据中的性别信息和大量背景知识，这对于解决多种类型的问题是很重要的。同时针对儿童童话故事语料，人工生成测试集，在实验中这比基于人民日报语料机器自动生成测试集要更难一些，因为自动生成的测试集可能更倾向于生成那些单词共现或固定搭配的句子，因此当这种搭配出现在问题的答案（在问题中答案用空格隐去）附近时，机器更容易识别正确答案。而在建立人共制造的测试集时，我们已经消除了这些类型的样本，这使得机器更难理解。直观地说，人工生成的测试集比先前发布的填空式风格的测试集都要难。

图2 展示了HFL-RC数据集的统计信息

图 2 HFL-RC数据集的统计信息

1 CAS Reader模型（Consensus Attention Sum Reader）

CAS Reader模型将文档-问题-答案转化成三元组<D, Q, A>，模型主要受Kadlec的文献2启发，但CAS Reader模型考虑到了每个t时刻的RNN节点的输出，并从中挖掘相关联的信息，而不是仅仅考虑RNN层最后的输出。

模型主要步骤如下：

1、将文档D和问题Q分别用one-hot向量表示，并拼接两个向量；

2、文档D和问题Q共享嵌入层权值W_e。由于问题通常比文档短，通过共享文档和问题的嵌入层权值，可丰富问题的表示。

3、模型使用了两个双向RNN分别训练文档和问题的向量表示并拼接，训练后得到的向量表示就已经包含了过去和未来的上下文信息，计算公式如下所示。

4、文档向量表示为h_doc，问题向量表示为h_query，向量为3维张量。现在对于问题，模型计算在t时刻，每个文档单词的重要性，即注意力。计算公式如下所示。

其中h_query(t)表示t时刻问题的向量表示，计算其与h_doc的点积，使用softmax函数得到t时刻问题对文档的注意力分布a(t)，a(t)还可以表示为a(t)=[a(t)_1, a(t)_2, …, a(t)_n]，其中a(t)_i表示在t时刻，文档中第i个词的注意力值，n为文档单词个数。

5、合并问题的注意力分布，得到文档的最后注意力值s，计算公式如下所示。

其中m表示问题的单词个数，f表示合并函数，模型定义了三种合并函数，函数表示如下所示。

6、计算单词w是答案的条件概率

文档D的单词组成单词空间V，单词w可能在单词空间V中出现了多次，其出现的位置i组成一个集合I(w, D)，对每个单词w，我们通过计算它的注意力值并求和得到单词w是答案的条件概率，计算公式如下所示。

CAS Reader模型结构图如图3所示。

图 3 CAS Reader模型结构图

本文由职坐标整理并发布，希望对同学们有所帮助。了解更多详情请关注职坐标人工智能智能机器人频道！

机器人编程软件下载机器人等级考试机器人简笔画

本文由 @小标发布于职坐标。未经许可，禁止转载。

喜欢 | 0

不喜欢 | 0

看完这篇文章有何感觉？已经有0人表态，0%的人喜欢快给朋友分享吧~

评论（0）

后参与评论

加入IT交流圈

JAVA工程师交流群 +加入

大数据架构师交流群 +加入

人工智能Python交流群 +加入

WEB/H5前端交流群 +加入

职坐标公众号

人工智能 直通车

资料领取
答疑解惑
技术交流
职业测评
面试技巧
高薪秘笈

海同专业团队更多>>

认证System Analyst，System Architect

15年全栈技术研发经验，中南大学、湖南师大等10+所高校特聘讲师

热门就业技能更多>>

【零基础】人工智能+Python全栈开发技术

【零基础】人工智能+Python全栈开发技术

人工智能+Python技术风口浪潮

【零基础】JavaEE高级开发技术

【零基础】JavaEE高级开发技术

起薪高，轻松进名企

【零基础】大数据与分布式架构技术

【零基础】大数据与分布式架构技术

培训大数据分布式架构

智能机器人30天热搜词更多>>

机器人程序用什么语言机器人控制系统有哪些部分组成机器人开发平台机器人高考成绩机器人控制系统速度小帅机器人多少钱一个 c语言入门自学书籍机器人控制系统的硬件和软件儿童全脑开发机器人家用智能机器人价格易语言开发qq机器人机器人开发公司 python机器人编程儿童机器人哪个牌子好儿童机器人编程入门 sphero机器人编程入门机器人编程软件下载搬运机器人控制系统机器人简笔画机器人控制器

您输入的评论内容中包含违禁敏感词

我知道了

助您圆梦职场匹配合适岗位

验证码手机号，获得海同独家IT培训资料

选择就业方向：: 人工智能物联网; 大数据开发/分析; 人工智能Python; Java全栈开发; WEB前端+H5

请输入正确的手机号码

请输入正确的验证码

获取验证码

您今天的短信下发次数太多了，明天再试试吧！

提交

我们会在第一时间安排职业规划师联系您！

您也可以联系我们的职业规划师咨询：

小职老师的微信号：z_zhizuobiao

小职老师的微信号：z_zhizuobiao

版权所有职坐标-一站式AI+学习就业服务平台沪ICP备13042190号-4
上海海同信息科技有限公司 Copyright ©2015 www.zhizuobiao.com，All Rights Reserved.
沪公网安备 31011502005948号

关于我们 │ 法律声明 │ 联系我们

©2015 www.zhizuobiao.com All Rights Reserved