矩池云 | Tony老师解读Kaggle Twitter情感分析案例

最新推荐文章于 2024-02-28 09:38:00 发布

矩池云Matpool

最新推荐文章于 2024-02-28 09:38:00 发布

阅读量1k

点赞数 1

分类专栏：机器学习文章标签：自然语言处理 tensorflow 深度学习机器学习

本文链接：https://blog.csdn.net/weixin_45793851/article/details/105428544

版权

今天Tony老师给大家带来的案例是Kaggle上的Twitter的情感分析竞赛。在这个案例中，将使用预训练的模型BERT来完成对整个竞赛的数据分析。

导入需要的库

import numpy as np
import pandas as pd
from math import ceil, floor
import tensorflow as tf
import tensorflow.keras.layers as L
from tensorflow.keras.initializers import TruncatedNormal
from sklearn import model_selection
from transformers import BertConfig, TFBertPreTrainedModel, TFBertMainLayer
from tokenizers import BertWordPieceTokenizer

读取并解释数据

在竞赛中，对数据的理解是非常关键的。因此我们首先要做的就是读取数据，然后查看数据的内容以及特点。

先用pandas来读取csv数据，


train_df = pd.read_csv('train.csv')
train_df.dropna(inplace=True)
test_df = pd.read_csv('test.csv')
test_df.loc[:, "selected_text"] = test_df.text.values
submission_df = pd.read_csv('sample_submission.csv')

再查看下我们的数据的数量，我们一共有27485条训练数据，3535条测试数据，

print("train numbers =", train_df.shape)
print("test numbers =", test_df.shape)

紧接着查看训练数据和测试数据前10条表单的字段跟数据，表单中包含了一下几个数据字段：

textID: 文本数据记录的唯一ID；
text: 原始语句；
selected_text: 表示情感的语句；
sentiment: 情感类型, neutral中立, positive积极, negative消极；

从数据中我们可以得出，目标就是根据现有的情感从原本是的语句中选出能代表这个情感的语句部分。

train_df.head(10)
test_df.head(10)

定义常量

# bert预训练权重跟数据存放的目录
PATH = "./bert-base-uncased/"
# 语句最大长度
MAX_SEQUENCE_LENGTH = 128

载入词向量

BERT是依据一个固定的词向量来进行训练的。因此在竞赛中需要先使用BertWordPieceTokenizer来加载这些词向量，其中的lowercase=True表示所有的词向量都是小写。设置大小写不敏感可以减少模型对资源的占用。

TOKENIZER = BertWordPieceTokenizer(f"{PATH}/vocab.txt", lowercase=True)

定义数据加载器

定义数据预处理函数


def preprocess(tweet, selected_text, sentiment):
    
# 将被转成byte string的原始字符串转成utf-8的字符串
    tweet = tweet.decode('utf-8')
    selected_text = selected_text.decode('utf-8')
    sentiment = sentiment.decode('utf-8')
    tweet = " ".join(str(tweet).split())
    selected_text = " ".join(str(selected_text).split())
    
# 标记出selected text和text共有的单词
    idx_start, idx_end = None, None
    for index in (i for i, c in enumerate(tweet) if c == selected_text[0]):
        if tweet[index:index+len(selected_text)] == selected_text:
            idx_start = index
            idx_end = index + len(selected_text)
            break
    intersection = [0] * len(tweet)
    if idx_start != None and idx_end != None:
        for char_idx in range(idx_start, idx_end):
            intersection[char_idx] = 1
    
# 对原始数据用词向量进行编码, 这里会返回原始数据中的词在词向量中的下标
# 和原始数据中每个词向量的单词在文中的起始位置跟结束位置
    enc = TOKENIZER.encode(tweet)
    input_ids_orig, offsets = enc.ids, enc.offsets
    target_idx = []
    for i, (o1, o2) in enumerate(offsets):
        if sum(intersection[o1: o2]) > 0:

最低0.47元/天解锁文章

矩池云Matpool

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
矩池云 | Tony老师解读Kaggle Twitter情感分析案例

今天Tony老师给大家带来的案例是Kaggle上的Twitter的情感分析竞赛。在这个案例中，将使用预训练的模型BERT来完成对整个竞赛的数据分析。导入需要的库import numpy as npimport pandas as pdfrom math import ceil, floorimport tensorflow as tfimport tensorflow.keras.l...
复制链接

扫一扫

专栏目录