admin 管理员组文章数量: 1184232
常识对话生成数据集
语言:中文
常识对话生成数据集(Commonsense Conversation Dataset)包括3,000,000多条对话数据,相关常识知识库包含20,000多个实体,44个关系,120,000多个知识三元组。对话数据由 Reddit 论坛收集而来,经过常识知识库的匹配后,保证其 Post 与 Response 都存在至少一个实体蕴含在一个常识知识三元组中。
提供方:清华大学计算机系黄民烈副教授
相关论文:Hao Zhou, Tom Yang, Minlie Huang, Haizhou Zhao, Jingfang Xu, Xiaoyan Zhu. Commonsense Knowledge Aware Conversation Generation with Graph Attention. IJCAI-ECAI 2018, Stockholm, Sweden.
数据集地址:https://www.biendata.xyz/ccf_tcci2018/datasets/tcci_tag/17
对话系统问题生成数据集
语言:中文
对话系统问题生成数据集(Dialogue Question Generation, DQG)中所有输入输出对都是从Weibo数据集中基于特定的规则筛选得到,共计约49万组。我们筛选了所有session中的第一次对话(与上文无关),且要求Response中包含疑问词(或问号),所包含的疑问词的列表同样在数据集中给出。我们剔除了那些不包含动词或名词的回复从而避免过多的通用提问。数据集中,Post为对话的输入,Response为筛选后的提问回复。 除此之外,该数据集还给出了输入与输出中词语间的点互信息(Pointwise Mutual Information, PMI),用于衡量词语之间的话题相关性。数据集中分别给出了名词间、动词间以及二者共同的P
版权声明:本文标题:中文对话数据集 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1754606828a3020671.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论