中文情绪分析

最新推荐文章于 2024-05-09 20:27:47 发布

little_baby1029

最新推荐文章于 2024-05-09 20:27:47 发布

阅读量459

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/xingzhe1993/article/details/107590748

版权

1.数据预处理与模型训练

# 中文情绪分析示例：数据预处理部分
''' 数据集介绍
中文酒店评论，7766笔数据，分为正面、负面评价
'''
import paddle
import paddle.dataset.imdb as imdb
import paddle.fluid as fluid
import numpy as np
import os
import random
from multiprocessing import cpu_count

# 数据预处理，将中文文字解析出来，并进行编码转换为数字，每一行文字存入数组
mydict = {
   }  # 存放出现的字及编码，格式： 好,1
code = 1
data_file = "data/hotel_discuss2.csv"  # 原始样本路径
dict_file = "data/hotel_dict.txt" # 字典文件路径
encoding_file = "data/hotel_encoding.txt" # 编码后的样本文件路径
puncts = " \n"  # 要剔除的标点符号列表

with open(data_file, "r", encoding="utf-8-sig") as f:
    for line in f.readlines():
        # print(line)
        trim_line = line.strip()
        for ch in trim_line:
            if ch in puncts:  # 符号不参与编码
                continue

            if ch in mydict:  # 已经在编码字典中
                continue
            elif len(ch) <= 0:
                continue
            else:  # 当前文字没在字典中
                mydict[ch] = code
                code += 1
    code += 1
    mydict["<unk>"] = code  # 未知字符

# 循环结束后，将字典存入字典文件
with open(dict_file, "w", encoding="utf-8-sig") as f:
    f.write(str(mydict))
    print("数据字典保存完成！")


# 将字典文件中的数据加载到mydict字典中
def load_dict():
    with open(dict_file, "r", encoding="utf-8-sig") as f:
        lines = f.readlines()
        new_dict = eval(lines[0])
    return new_dict

# 对评论数据进行编码
new_dict = load_dict()  # 调用函数加载
with open(data_file, "r", encoding="utf-8-sig") as f:
    with open(encoding_file, "w", encoding="utf-8-sig") as fw:
        for line in f.readlines()

最低0.47元/天解锁文章

little_baby1029

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
中文情绪分析

1.数据预处理与模型训练# 中文情绪分析示例：数据预处理部分''' 数据集介绍中文酒店评论，7766笔数据，分为正面、负面评价'''import paddleimport paddle.dataset.imdb as imdbimport paddle.fluid as fluidimport numpy as npimport osimport randomfrom multiprocessing import cpu_count# 数据预处理，将中文文字解析出来，并进行编码转换
复制链接

扫一扫