Test Data for Trading—Sentiment Analysis系列文章是对《Machine Learning for Algorithmic Trading》第十四章内容的讲解以及相关代码复现。因为中英文的文本分析存在较大差异,顾此系列没有选取中国市场的材料做为代码复现的数据,而是选择书后源代码进行复现。
推特的文本分类和情感分析
在代码复现(五)中,主要围绕着对推文进行情绪分析的两种算法朴素贝叶斯和Textblob的代码实现展开,并且对两者的表现进行了对比。
在该文中,将把之前文章中提到的预处理技术应用于新闻文章、产品评论和Twitter数据,并教会各种分类器来预测新闻类别、评论分数和情感的积极与否。
#导入各类库和包,搭建环境
import warnings
warnings.filterwarnings('ignore')
from pathlib import Path
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from textblob import TextBlob
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import roc_auc_score, roc_curve, accuracy_score
使用的数据集包含2009年的160万条训练推文和350条测试推文,并且负面情绪和正面情绪推文的数量是相当平均的。
按照下列说明创建数据集。
0–推文的极性(0=负面,2=中性,4=正面);训练数据中没有中性推文;
1–推文的ID(2087)
2–推文创建的日期(2009年5月16日23:58:44 UTC)
3 - 查询(lyx):如果没有查询,那么这个值就会显示为NO_QUERY
4 - 发推文的用户(robotickilldozr)
5 - 推文的文本
data_path = Path('..', 'data', 'sentiment140')
if not data_path.exists():
data_path.mkdir(parents=True)#读入推文数据
names = ['polarity', 'id', 'date', 'query', 'user', 'text']
#按照上述五个说明构造元组
1、数据预处理
对数据进行一些预处理(训练集和测试集),删除超过规定长度140个字符的推文,并且对极性进行二值化处理(也就是只留下正面推文和负面推文)并将数据转变为可以更快处理的格式。
#预处理的代码,包括转换数据格式,先对训练集进行处理
def load_train_data():
parquet_file = data_path / 'train.parquet'
if not parquet_file.exists():
df = (pd.read