Test Data for Trading—Sentiment Analysis 代码复现（五）

最新推荐文章于 2024-07-21 23:25:11 发布

李佩聪

最新推荐文章于 2024-07-21 23:25:11 发布

阅读量306

点赞数

文章标签： python 自然语言处理人工智能

本文链接：https://blog.csdn.net/weixin_50905386/article/details/118685357

版权

Test Data for Trading—Sentiment Analysis系列文章是对《Machine Learning for Algorithmic Trading》第十四章内容的讲解以及相关代码复现。因为中英文的文本分析存在较大差异，顾此系列没有选取中国市场的材料做为代码复现的数据，而是选择书后源代码进行复现。

推特的文本分类和情感分析

在代码复现（五）中，主要围绕着对推文进行情绪分析的两种算法朴素贝叶斯和Textblob的代码实现展开，并且对两者的表现进行了对比。

在该文中，将把之前文章中提到的预处理技术应用于新闻文章、产品评论和Twitter数据，并教会各种分类器来预测新闻类别、评论分数和情感的积极与否。

#导入各类库和包，搭建环境
import warnings
warnings.filterwarnings('ignore')
from pathlib import Path
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from textblob import TextBlob
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import roc_auc_score, roc_curve, accuracy_score

使用的数据集包含2009年的160万条训练推文和350条测试推文，并且负面情绪和正面情绪推文的数量是相当平均的。
按照下列说明创建数据集。
0–推文的极性（0=负面，2=中性，4=正面）；训练数据中没有中性推文；
1–推文的ID（2087）
2–推文创建的日期（2009年5月16日23:58:44 UTC）
3 - 查询（lyx）：如果没有查询，那么这个值就会显示为NO_QUERY
4 - 发推文的用户（robotickilldozr）
5 - 推文的文本

data_path = Path('..', 'data', 'sentiment140')
if not data_path.exists():
    data_path.mkdir(parents=True)#读入推文数据
names = ['polarity', 'id', 'date', 'query', 'user', 'text']
#按照上述五个说明构造元组

1、数据预处理
对数据进行一些预处理（训练集和测试集），删除超过规定长度140个字符的推文，并且对极性进行二值化处理（也就是只留下正面推文和负面推文）并将数据转变为可以更快处理的格式。

#预处理的代码，包括转换数据格式，先对训练集进行处理
def load_train_data():
    parquet_file = data_path / 'train.parquet'
    if not parquet_file.exists():
        df = (pd.read

最低0.47元/天解锁文章

李佩聪

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Test Data for Trading—Sentiment Analysis 代码复现（五）

Test Data for Trading–Sentiment Analysis系列文章是对《Machine Learning for Algorithmic Trading》第十四章内容的讲解以及相关代码复现。因为中英文的文本分析存在较大差异，顾此系列没有选取中国市场的材料做为代码复现的数据，而是选择书后源代码进行复现。推特的文本分类和情感分析在代码复现（五）中，主要围绕着对推文进行情绪分析的两种算法朴素贝叶斯和Textblob的代码实现展开，并且对两者的表现进行了对比。在该文中，将把之前文章中.
复制链接

扫一扫