少有的中文对话语料库,
记录一下格式相关信息,
贴出样本以备快速参考,
从样本看显然已经分词。
以下内容主要来自 Readme for conversation_data_v1.1
数据集有5个文件
1. post.index contains post_id with its contents
包含post_id及相关内容
首先是post_id,接着##作为分隔符,接着是内容
5个样本:
0##祝 各位 朋友 2012 年 万事如意 !
1##在 家 看 某 电视台 跨年 晚会 倒数 , 想起 2000 年 的 那 个 千禧 时刻 , 作为 大四 的 学生 , 并且 在 chinaren 做 兼职 的 工作 , 与 一 群 同学 兼 同事 到 ' 乐杰士 ' 餐厅 吃 夜宵 。 学生 的 懵懂 和 刚刚 开始 工作 的 憧憬 相 交织 , 加上 2000 这么 一 个 整数 , 这 是 一 生 的 记忆 , 一 生 的 烙印 。 十二 年 后 , 再 祝 新年 快乐 !
2##2012 新年 钟声 即将 敲响 之际 , 向 关心 华为 手机 终端 的 博友们 、 朋友们 致 新年 的 祝福 ! 感谢 一 年 来 您 的 关心 与 宝贵 意见 , 这 是 我们 不断 改进 的 强大 动力 ! 几 天 之后 1 月 9 日 美国 拉斯维加斯 CES 展 上 , 华为 将 发布 让 世界 震惊 的 旗舰 智能 手机 ! 至少 三 个 世界 No.1 ! 感谢 追求 卓越 的 研发 、 测试 与 供应链 兄弟 姐妹们 的 辛勤 努力 ! !
3##中国 科大 2012 年 校友 新年 贺卡 北美 镜像 已 发布 , 请 见 : 或 访问 能 帮 我 看看 速度 可以么 ? 如果 五 分钟 刷新 , 我们 就 在 你们 家 装 一 台 服务器 !
4##能 和 我 的 朋友 还 有 软院 的 学生 一 起 度 过 忙碌 和 丰富 的 2011 , 是 我 人生 的 礼物 ! 谢谢 大家 一路 以来 的 支持
5##谢谢 , 2012 年 零点 钟声 中 祝 新年 快乐 , 心想 事成 !
2. response.index contains response_id with its contents
包含response_id及其内容
首先是response_id,接着##作为分隔符,接着是内容
5个样本:
0##祝 汤 教授 新年 快乐
1##谢谢 ; 祝 你 新年 快乐
2##祝 各位 朋友 2012 年 十 有 七八 事 如意 ! 看 我 数学 文化 学得 好 吧 …
3##喜欢 教授 的 内容 , 受益匪浅 , 祝 新年 快乐 !
4##数学 文化 , 代代 传承 !
5##祝愿 我 考研 数学 得 个好 成绩 ! ! !
3. original.pair original post-response pairs
原始的post-response对信息,post_id和response_id是以:分隔,一个post可能有多个response(逗号分隔)
5个样本:
0:0,1,2,3,4,5,6,7,10,12,13,24,25,29,32,36,359,455,640,679
1:8,11,14,19,41,67,73,83,107,416,960,966
2:9,15,16,17,18,20,22,23,26,28,30,33,34,35,37,38,39,42,43,44,45,47,48,51,53,56,58,59,60,62,63,64,65,66,68,70,71,72,74,75,76,77,78,79,84,85,94,110,119,134,135,136,137,142,150,151,153,154,155,162,164,166,168,169,172,176,185,186,188,189,190,195,197,201,202,205,209,211,226,227,229,234,237,250,254,255,258,263,266,267,276,292,301,305,337,340,346,349,353,362
3:21,27
4:31,40,52,97,100,563
5:46,284
4. labeled.pair labeled post-response pairs
带标签的post-response对信息,post_id和response_id是以:分隔,每一行中一个post只有一个response(逗号分隔)
标签,post_ID, response_ID
都是以逗号分隔,其中2表示这一对是‘合适的’,1反之
5个样本
1,10270,259712
1,10270,272666
1,10270,126721
2,10270,126728
1,10270,126754
5. Readme readme of this dataset
注意带标签的数据只是原始库的一个很小的子集,并且不是原始库指定的
以下是统计和引用:
--------------------------
Statistics of this dataset
--------------------------
Retrieval_Repository
#posts 38,016
#responses 618,104
#original_pairs 618,104
Labeled_Data
#posts 422
#responses 12,402
#labeled_pairs 12,402
---------------
Please cite the following paper if you publish any result on this data set. Reference paper:
---------------
[1] Hao Wang, Zhengdong Lu, Hang Li, Enhong Chen.
A Dataset for Research on Short-Text Conversation,
In Proceedings of Empirical Methods in Natural Language Processing (EMNLP), 935-945, 2013.