华为诺亚实验室中文对话语料库介绍

少有的中文对话语料库,

记录一下格式相关信息,

贴出样本以备快速参考,

从样本看显然已经分词。


以下内容主要来自 Readme  for conversation_data_v1.1


数据集有5个文件
    1. post.index       contains post_id with its contents

包含post_id及相关内容


首先是post_id,接着##作为分隔符,接着是内容


5个样本:

0##祝 各位 朋友 2012 年 万事如意 !
1##在 家 看 某 电视台 跨年 晚会 倒数 , 想起 2000 年 的 那 个 千禧 时刻 , 作为 大四 的 学生 , 并且 在 chinaren 做 兼职 的 工作 , 与 一 群 同学 兼 同事 到 ' 乐杰士 ' 餐厅 吃 夜宵 。 学生 的 懵懂 和 刚刚 开始 工作 的 憧憬 相 交织 , 加上 2000 这么 一 个 整数 , 这 是 一 生 的 记忆 , 一 生 的 烙印 。 十二 年 后 , 再 祝 新年 快乐 !
2##2012 新年 钟声 即将 敲响 之际 , 向 关心 华为 手机 终端 的 博友们 、 朋友们 致 新年 的 祝福 ! 感谢 一 年 来 您 的 关心 与 宝贵 意见 , 这 是 我们 不断 改进 的 强大 动力 ! 几 天 之后 1 月 9 日 美国 拉斯维加斯 CES 展 上 , 华为 将 发布 让 世界 震惊 的 旗舰 智能 手机 ! 至少 三 个 世界 No.1 ! 感谢 追求 卓越 的 研发 、 测试 与 供应链 兄弟 姐妹们 的 辛勤 努力 ! !
3##中国 科大 2012 年 校友 新年 贺卡 北美 镜像 已 发布 , 请 见 : 或 访问 能 帮 我 看看 速度 可以么 ? 如果 五 分钟 刷新 , 我们 就 在 你们 家 装 一 台 服务器 !
4##能 和 我 的 朋友 还 有 软院 的 学生 一 起 度 过 忙碌 和 丰富 的 2011 , 是 我 人生 的 礼物 ! 谢谢 大家 一路 以来 的 支持
5##谢谢 , 2012 年 零点 钟声 中 祝 新年 快乐 , 心想 事成 !



    2. response.index   contains response_id with its contents

 包含response_id及其内容

首先是response_id,接着##作为分隔符,接着是内容


5个样本:

0##祝 汤 教授 新年 快乐
1##谢谢 ; 祝 你 新年 快乐
2##祝 各位 朋友 2012 年 十 有 七八 事 如意 ! 看 我 数学 文化 学得 好 吧 …
3##喜欢 教授 的 内容 , 受益匪浅 , 祝 新年 快乐 !
4##数学 文化 , 代代 传承 !
5##祝愿 我 考研 数学 得 个好 成绩 ! ! !



  3. original.pair    original post-response pairs

原始的post-response对信息,post_id和response_id是以:分隔,一个post可能有多个response(逗号分隔)

5个样本:

0:0,1,2,3,4,5,6,7,10,12,13,24,25,29,32,36,359,455,640,679
1:8,11,14,19,41,67,73,83,107,416,960,966
2:9,15,16,17,18,20,22,23,26,28,30,33,34,35,37,38,39,42,43,44,45,47,48,51,53,56,58,59,60,62,63,64,65,66,68,70,71,72,74,75,76,77,78,79,84,85,94,110,119,134,135,136,137,142,150,151,153,154,155,162,164,166,168,169,172,176,185,186,188,189,190,195,197,201,202,205,209,211,226,227,229,234,237,250,254,255,258,263,266,267,276,292,301,305,337,340,346,349,353,362
3:21,27
4:31,40,52,97,100,563
5:46,284



    4. labeled.pair     labeled post-response pairs

带标签的post-response对信息,post_id和response_id是以:分隔,每一行中一个post只有一个response(逗号分隔)

标签,post_ID, response_ID
都是以逗号分隔,其中2表示这一对是‘合适的’,1反之

5个样本

1,10270,259712
1,10270,272666
1,10270,126721
2,10270,126728
1,10270,126754



    5. Readme           readme of this dataset



注意带标签的数据只是原始库的一个很小的子集,并且不是原始库指定的


以下是统计和引用:

--------------------------
Statistics of this dataset
--------------------------
Retrieval_Repository
    #posts              38,016
    #responses          618,104
    #original_pairs     618,104
Labeled_Data
    #posts              422
    #responses          12,402
    #labeled_pairs      12,402


---------------
Please cite the following paper if you publish any result on this data set. Reference paper:
---------------
[1] Hao Wang, Zhengdong Lu, Hang Li, Enhong Chen.
    A Dataset for Research on Short-Text Conversation,
    In Proceedings of Empirical Methods in Natural Language Processing (EMNLP), 935-945, 2013.

# 说明 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 - chatterbot - 豆瓣多轮 - PTT八卦语料 - 青云语料 - 电视剧对白语料 - 贴吧论坛回帖语料 - 微博语料 - 小黄鸡语料 共8个公开闲聊常用语料和短信,白鹭时代问答等语料。 并对8个常见语料的数据进行了统一化规整和处理,达到直接可以粗略使用的目的。 **使用该项目,即可对所有的聊天语料进行一次性的处理和统一下载,不需要到处自己去搜集下载和分别处理各种不同的格式。* # 环境 python3 # 处理过程 将各个来源的语料按照其原格式进行提取,提取后进行繁体字转换,然后统一变成一轮一轮的对话。 # 使用方法 将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为 ``` raw_chat_corpus -- language -- process_pipelines -- raw_chat_corpus ---- chatterbot-1k ---- douban-multiturn-100w ---- .... -- main.py -- ... ``` 执行命令即可 ```bash python main.py ``` 或者 ```bash python3 main.py ``` # 生成结果 每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。 生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer ``` query \t answer ``` # 结果的使用 这个就根据每个人不同的情况自主使用即可 个人对于聊天机器人方向实践也不是很多,以下一篇之前写的知乎专栏供参考 **《从产品完整性的角度浅谈chatbot》** 文章粗略讲解了如下一些方面,介绍了聊天机器人在实际产品化过程中可能遇到的问题和解决办法。 1. chatbot自身人格的设置 1. 产品上线需要考虑的敏感词处理 1. 文本检索模型的使用 1. 文本生成模型的使用 1. 回答打分机制 1. 万能回答的使用策略 1. 多媒体消息的处理 1. 产品模型部署的问题 # 版权说明 本项目为非商业项目,为纯搜集和汇总资料,如有侵权,请在issue下留言。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值