数据集CPED介绍

数据集CPED介绍

昨天思考自己的小论文idea(md,到现在还没有idea,555,研一玩了一整年,后悔死,555),然后看到了一个中文对话数据集,觉得很不错,记录一下

数据集名称:

CPED 数据集大小:包含了来自40个TV shows的392位说话者的12K多段对话。这里K应该是千的意思吧,不是很确定。

数据集属性:

TV_ID,Dialogue_ID,Utterance_ID,Speaker,Gender,Age,Neuroticism,Extraversion,Openness,Agreeableness,Conscientiousness,Scene,FacePosition_LU,FacePosition_RD,Sentiment,Emotion,DA,Utterance。还挺多的(大体上分为三类:话语,情绪等特征、话语属于哪个对话等特征)

数据属性解释:

  • TV_ID:当前话语属于哪个电视节目
  • Dialogue_ID:当前话语属于那段对话
  • Utterance_ID:当前话语的标识
  • Speaker:当前话语的说话者名字
  • Gender:说话者性别(共3种:)
  • Age:说话者年龄类别(共6种:)
  • Neuroticism:神经质
  • Extraversion:外倾性
  • Openness:经验开放性
  • Agreeableness:宜人性
  • Conscientiousness:认真性 这5个属于大5(5种人格特征,我也不太了解)
  • Scene:当前对话属于什么情景(共11种:)
  • FacePosition_LU:脸部位置(??这个标签我也没有看明白,)
  • FacePosition_RD:脸部位置(??这个标签我也没有看明白,)
  • Sentiment:当前话语属于哪个情感类别(共3类:中性、消极、积
  • Emotion:当前话语属于哪个情绪类别(共13类:)
  • DA:当前话语属于哪个对话行为类别(共19种:)
  • Utterance:当前话语文本(中文)

数据集的部分特征(图片展示)

原始数据

在这里插入图片描述

数据集标注的特征

在这里插入图片描述

big five特征分布统计

在这里插入图片描述

一个话语示例

在这里插入图片描述

该数据集的部分特征分布

在这里插入图片描述

该数据集的统计特征

在这里插入图片描述

其他常用对话数据集的特征

在这里插入图片描述

论文链接

论文:https://paperswithcode.com/paper/cped-a-large-scale-chinese-personalized-and-1
GitHub:https://github.com/scutcyr/CPED/tree/main/data/CPED

其他说明

作者还利用该数据集进行了对话情绪识别、人格识别、对话生成等实验,我这里就不介绍了,感兴趣自己看论文;
作者说可以通过话语ID获得音频和视频数据,不过我目前还不知道如何获取这两个模态的数据,感兴趣的话自己看论文(如果有大佬知道如何获取,可以指点我一下吗,谢谢了~~)

  • 18
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值