华为诺亚实验室中文对话语料库介绍

最新推荐文章于 2024-10-15 16:17:49 发布

zdcs

最新推荐文章于 2024-10-15 16:17:49 发布

阅读量9.7k

点赞数

分类专栏：一般技巧和资源介绍自然语言处理文章标签：自然语言处理 nlp 人工智能

本文链接：https://blog.csdn.net/zdcs/article/details/53466469

版权

一般技巧和资源介绍同时被 2 个专栏收录

23 篇文章 0 订阅

订阅专栏

自然语言处理

20 篇文章 1 订阅

订阅专栏

少有的中文对话语料库，

记录一下格式相关信息，

贴出样本以备快速参考，

从样本看显然已经分词。

以下内容主要来自 Readme for conversation_data_v1.1

数据集有5个文件
1. post.index contains post_id with its contents

包含post_id及相关内容

首先是post_id,接着##作为分隔符，接着是内容

5个样本:

0##祝各位朋友 2012 年万事如意！
1##在家看某电视台跨年晚会倒数，想起 2000 年的那个千禧时刻，作为大四的学生，并且在 chinaren 做兼职的工作，与一群同学兼同事到 ' 乐杰士 ' 餐厅吃夜宵。学生的懵懂和刚刚开始工作的憧憬相交织，加上 2000 这么一个整数，这是一生的记忆，一生的烙印。十二年后，再祝新年快乐！
2##2012 新年钟声即将敲响之际，向关心华为手机终端的博友们、朋友们致新年的祝福！感谢一年来您的关心与宝贵意见，这是我们不断改进的强大动力！几天之后 1 月 9 日美国拉斯维加斯 CES 展上，华为将发布让世界震惊的旗舰智能手机！至少三个世界 No.1 ！感谢追求卓越的研发、测试与供应链兄弟姐妹们的辛勤努力！！
3##中国科大 2012 年校友新年贺卡北美镜像已发布，请见：或访问能帮我看看速度可以么？如果五分钟刷新，我们就在你们家装一台服务器！
4##能和我的朋友还有软院的学生一起度过忙碌和丰富的 2011 ，是我人生的礼物！谢谢大家一路以来的支持
5##谢谢， 2012 年零点钟声中祝新年快乐，心想事成！

2. response.index contains response_id with its contents

包含response_id及其内容

首先是response_id,接着##作为分隔符，接着是内容

5个样本:

0##祝汤教授新年快乐
1##谢谢；祝你新年快乐
2##祝各位朋友 2012 年十有七八事如意！看我数学文化学得好吧 …
3##喜欢教授的内容，受益匪浅，祝新年快乐！
4##数学文化，代代传承！
5##祝愿我考研数学得个好成绩！！！

3. original.pair original post-response pairs

原始的post-response对信息，post_id和response_id是以:分隔，一个post可能有多个response(逗号分隔)

5个样本:

0:0,1,2,3,4,5,6,7,10,12,13,24,25,29,32,36,359,455,640,679
1:8,11,14,19,41,67,73,83,107,416,960,966
2:9,15,16,17,18,20,22,23,26,28,30,33,34,35,37,38,39,42,43,44,45,47,48,51,53,56,58,59,60,62,63,64,65,66,68,70,71,72,74,75,76,77,78,79,84,85,94,110,119,134,135,136,137,142,150,151,153,154,155,162,164,166,168,169,172,176,185,186,188,189,190,195,197,201,202,205,209,211,226,227,229,234,237,250,254,255,258,263,266,267,276,292,301,305,337,340,346,349,353,362
3:21,27
4:31,40,52,97,100,563
5:46,284

4. labeled.pair labeled post-response pairs

带标签的post-response对信息，post_id和response_id是以:分隔，每一行中一个post只有一个response(逗号分隔)

标签，post_ID, response_ID
都是以逗号分隔，其中2表示这一对是‘合适的’，1反之

5个样本

1,10270,259712
1,10270,272666
1,10270,126721
2,10270,126728
1,10270,126754

5. Readme readme of this dataset

注意带标签的数据只是原始库的一个很小的子集，并且不是原始库指定的

以下是统计和引用:

--------------------------
Statistics of this dataset
--------------------------
Retrieval_Repository
    #posts              38,016
    #responses          618,104
    #original_pairs     618,104
Labeled_Data
    #posts              422
    #responses          12,402
    #labeled_pairs      12,402

---------------
Please cite the following paper if you publish any result on this data set. Reference paper:
---------------
[1] Hao Wang, Zhengdong Lu, Hang Li, Enhong Chen.
    A Dataset for Research on Short-Text Conversation,
    In Proceedings of Empirical Methods in Natural Language Processing (EMNLP), 935-945, 2013.