数据集CPED介绍

最新推荐文章于 2024-10-22 13:30:35 发布

zhilanguifang

最新推荐文章于 2024-10-22 13:30:35 发布

阅读量1.7k

点赞数 18

分类专栏：论文文章标签：深度学习人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhilanguifang/article/details/135019935

版权

论文专栏收录该内容

15 篇文章

订阅专栏

数据集CPED介绍

昨天思考自己的小论文idea(md,到现在还没有idea，555_{，研一玩了一整年，后悔死，555})，然后看到了一个中文对话数据集，觉得很不错，记录一下

数据集名称：

CPED 数据集大小：包含了来自40个TV shows的392位说话者的12K多段对话。这里K应该是千的意思吧，不是很确定。

数据集属性：

TV_ID，Dialogue_ID，Utterance_ID，Speaker，Gender，Age，Neuroticism，Extraversion，Openness，Agreeableness，Conscientiousness，Scene，FacePosition_LU，FacePosition_RD，Sentiment，Emotion，DA，Utterance。还挺多的(大体上分为三类：话语，情绪等特征、话语属于哪个对话等特征)

数据属性解释：

TV_ID：当前话语属于哪个电视节目
Dialogue_ID：当前话语属于那段对话
Utterance_ID：当前话语的标识
Speaker：当前话语的说话者名字
Gender：说话者性别(共3种：)
Age：说话者年龄类别(共6种：)
Neuroticism：神经质
Extraversion：外倾性
Openness：经验开放性
Agreeableness：宜人性
Conscientiousness：认真性这5个属于大5(5种人格特征，我也不太了解)
Scene：当前对话属于什么情景(共11种：)
FacePosition_LU：脸部位置(??这个标签我也没有看明白，)
FacePosition_RD：脸部位置(??这个标签我也没有看明白，)
Sentiment：当前话语属于哪个情感类别(共3类：中性、消极、积
Emotion：当前话语属于哪个情绪类别(共13类：)
DA：当前话语属于哪个对话行为类别(共19种：)
Utterance：当前话语文本(中文)

数据集的部分特征(图片展示)

原始数据

在这里插入图片描述

数据集标注的特征

在这里插入图片描述

big five特征分布统计

在这里插入图片描述

一个话语示例

在这里插入图片描述

该数据集的部分特征分布

在这里插入图片描述

该数据集的统计特征

在这里插入图片描述

其他常用对话数据集的特征

在这里插入图片描述

论文链接

论文：https://paperswithcode.com/paper/cped-a-large-scale-chinese-personalized-and-1
GitHub：https://github.com/scutcyr/CPED/tree/main/data/CPED

其他说明

作者还利用该数据集进行了对话情绪识别、人格识别、对话生成等实验，我这里就不介绍了，感兴趣自己看论文；
作者说可以通过话语ID获得音频和视频数据，不过我目前还不知道如何获取这两个模态的数据，感兴趣的话自己看论文(如果有大佬知道如何获取，可以指点我一下吗，谢谢了~~)

博客等级

码龄6年

50
原创

307
点赞

361
收藏

206
粉丝

关注

私信

热门文章

分类专栏

面试记录 1篇
算法 1篇
mysql 3篇
论文 15篇
ERC 3篇
prompt engineering 5篇
python 9篇
力扣刷题记录 2篇
Java学习 2篇
深度学习 8篇
机器学习 5篇
svm 2篇
逻辑回归 1篇
jupytor 1篇

最新评论

NLP经典论文研读--xlnet论文代码复现记录
Mooring0501: 原论文是什么啊
LLM相关知识&技术学习记录(01)--GPT3.5和GPT4.0里的各个版本区别与联系
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Prompt相关论文阅读(05)--TAKE A STEP BACK: EVOKING REASONING VIA ABSTRACTION IN LARGE LANGUAGE (2024-11-30)
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Prompt相关论文阅读(04)--Rephrase and Respond: Let Large Language Models Ask Better Questions(2024-11-29)
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
Prompt相关论文阅读(03)--Active Prompting with Chain-of-Thought for Large Language Models(2024-11-29)
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。