【数据集分析】NYT-Wiki关系抽取数据集分析(三)—— 直观的关系实例分布图

目录:NYT-Wiki数据集分析

【数据集分析】NYT-Wiki关系抽取数据集分析(一)—— 理解单条实例
【数据集分析】NYT-Wiki关系抽取数据集分析(二)—— 统计类别和实例数
【数据集分析】NYT-Wiki关系抽取数据集分析(三)—— 绘制Relation分布图

第二节,获得了三个子集的描述:类别数和实例数。

本节介绍绘制数据集的Relation分布图:
在这里插入图片描述
图中横坐标是不同的Relation,纵坐标是每个Relation的Instances数。

1. 查看数据分布

查看数据分布主要包括三步:

  1. 获取数据集的每条数据(json格式)
  2. 建立一个词频dict,格式为:
    {"class name 1": count1, "class name 2":count2, ...}
  3. 使用matplotlib进行图像绘制

2. 代码

import matplotlib as mpl
import matplotlib.pyplot as plt

def plot_relation_distribution(dataset_path):
    # 1. 获取 Train Set 的数据
    rel_fre_dict = {}
    with open(dataset_path, 'r', encoding = 'utf-8') as f:
        # 2. 建立词频表
        for line in f.readlines():
            line = json.loads(line) # loads(字符串), load(文件名字)
            if line['relation'] not in rel_fre_dict.keys():
                rel_fre_dict[line['relation']] = 1
            else:
                rel_fre_dict[line['relation']] += 1

    # print("train set中的Relation个数:",len(train_rel_fre_dict))

    # 3. 绘图
    x = []
    y = []
    width = []
    sorted_rel_fre_dict = sorted(rel_fre_dict.items(), key=lambda kv: (-kv[1])) # 按值排序
    for i in sorted_rel_fre_dict:
        x.append(i[0])
        y.append(i[1])
        width.append(1)
    plt.figure(figsize = [40, 10])
    plt.bar(x,y,width, align='center', alpha=0.5, clip_on = True)
    plt.ylim([0, 5000]) # 限制y轴数据的取值范围
    plt.xlabel("relation name")
    plt.ylabel("# of relation")
    plt.title(str(dataset_path)+' relation number statistic')
    plt.tick_params(axis='x', colors='red', length=13, width=3, rotation=90)
    plt.savefig(str(dataset_path)+'.png')

plot_relation_distribution(train_path)
plot_relation_distribution(valid_path)
plot_relation_distribution(test_path)
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 将文本训练成为nyt数据集的代码需要考虑以下几个方面: 1. 数据准备:首先需要准备好nyt数据集,该数据集包含了数十万篇文章的文本数据以及它们的标签信息,如实体识别、关系抽取等。我们需要对这些文本数据进行预处理,例如分词、去除停用词等,以便于后续的模型训练。 2. 模型设计:接下来需要设计一个适合处理文本数据的模型。常用的模型有基于词向量的模型(例如Word2Vec、GloVe等)以及基于深度学习的模型(例如LSTM、Transformer等)。不同的模型有着各自的优劣,需要根据具体情况进行选择。 3. 模型训练:我们使用准备好的nyt数据集进行模型训练,将训练数据分为训练集、验证集和测试集。在训练过程中,需要选择适当的优化器、损失函数和评价指标,并对超参数进行调整以达到最佳效果。另外,在使用深度学习模型进行训练时,需要使用GPU加速以提高训练速度。 4. 模型评估:在训练完成后,需要对模型进行评估。常用的评估指标有准确率、召回率、F1值等。在评估过程中,可以使用测试集进行模型测试,并根据测试结果进行模型调整。 5. 模型应用:最后,我们可以将训练好的模型应用到新的文本数据中,例如进行实体识别、关系抽取等任务。在应用模型时,需要注意模型的输入数据格式以及输出结果的解析。 ### 回答2: 首先,需要将NYT数据集下载到本地,并进行预处理。预处理包括分割成训练集、验证集和测试集,并将数据转换为模型可读的格式。转换的方式可以是将每篇文本处理成一个多维向量,其中每个维度代表一个固定的特征。这些特征可以是从文本中提取出的词、句子长度、词频等。经过处理后,每篇文本都表示为一个n维向量。处理后的数据集可以用pickle保存到本地。 接下来需要选择并训练模型。可以使用深度学习的文本分类模型,例如卷积神经网络(CNN)或递归神经网络(RNN)。在训练之前,需要将数据集分成mini-batches,并将它们送入模型进行训练。训练过程可以使用梯度下降算法优化。 经过训练后,可以评估模型的表现。评估的方法包括计算预测准确率、召回率和F1分数等指标。如果模型的表现不够好,可以更改模型架构或优化算法,再次训练。当模型表现足够好时,可以将其保存到本地,以备后续使用。 最后,可以使用该模型进行预测和分类。对于新的文本数据,可以将其送入经过训练的模型并输出其所属的类别。该过程可以通过加载保存的模型并使用已经训练好的参数来实现。 ### 回答3: 将文本训练成为nyt数据集,需要以下步骤: 1. 数据预处理:首先需要将nyt数据集进行预处理,包括去重、清洗、分词、去停用词等操作,将文本转化为可供模型训练的格式。 2. 构建模型:可以采用传统的机器学习模型,如朴素贝叶斯、SVM等,也可以使用深度学习模型,如LSTM、Transformer等。需要针对nyt数据集的特点进行模型的选择和调整。 3. 训练模型:将预处理后的数据输入到模型中,通过梯度下降等优化算法不断调整模型参数,直到达到一定的训练效果。 4. 模型评估:将一部分数据作为测试集,用训练好的模型对测试集进行预测,并计算预测准确率、召回率等指标,评估模型的性能。 5. 预测与应用:将训练好的模型用于新的文本数据预测,可以应用于分类、情感分析、命名实体识别等领域。 以上是训练nyt数据集的基本流程,但具体实现上可能还需要根据具体的需求和情况进行调整和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值