admin 管理员组

文章数量: 1184232

常识对话生成数据集

语言:中文

常识对话生成数据集(Commonsense Conversation Dataset)包括3,000,000多条对话数据,相关常识知识库包含20,000多个实体,44个关系,120,000多个知识三元组。对话数据由 Reddit 论坛收集而来,经过常识知识库的匹配后,保证其 Post 与 Response 都存在至少一个实体蕴含在一个常识知识三元组中。

提供方:清华大学计算机系黄民烈副教授

相关论文:Hao Zhou, Tom Yang, Minlie Huang, Haizhou Zhao, Jingfang Xu, Xiaoyan Zhu. Commonsense Knowledge Aware Conversation Generation with Graph Attention. IJCAI-ECAI 2018, Stockholm, Sweden.

数据集地址:https://www.biendata.xyz/ccf_tcci2018/datasets/tcci_tag/17

对话系统问题生成数据集

语言:中文

对话系统问题生成数据集(Dialogue Question Generation, DQG)中所有输入输出对都是从Weibo数据集中基于特定的规则筛选得到,共计约49万组。我们筛选了所有session中的第一次对话(与上文无关),且要求Response中包含疑问词(或问号),所包含的疑问词的列表同样在数据集中给出。我们剔除了那些不包含动词或名词的回复从而避免过多的通用提问。数据集中,Post为对话的输入,Response为筛选后的提问回复。 除此之外,该数据集还给出了输入与输出中词语间的点互信息(Pointwise Mutual Information, PMI),用于衡量词语之间的话题相关性。数据集中分别给出了名词间、动词间以及二者共同的P

本文标签: 中文 数据