Test Data for Trading—Sentiment Analysis 代码复现(五)

Test Data for Trading—Sentiment Analysis系列文章是对《Machine Learning for Algorithmic Trading》第十四章内容的讲解以及相关代码复现。因为中英文的文本分析存在较大差异,顾此系列没有选取中国市场的材料做为代码复现的数据,而是选择书后源代码进行复现。

推特的文本分类和情感分析

在代码复现(五)中,主要围绕着对推文进行情绪分析的两种算法朴素贝叶斯和Textblob的代码实现展开,并且对两者的表现进行了对比。

在该文中,将把之前文章中提到的预处理技术应用于新闻文章、产品评论和Twitter数据,并教会各种分类器来预测新闻类别、评论分数和情感的积极与否。

#导入各类库和包,搭建环境
import warnings
warnings.filterwarnings('ignore')
from pathlib import Path
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from textblob import TextBlob
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import roc_auc_score, roc_curve, accuracy_score

使用的数据集包含2009年的160万条训练推文和350条测试推文,并且负面情绪和正面情绪推文的数量是相当平均的。
按照下列说明创建数据集。
0–推文的极性(0=负面,2=中性,4=正面);训练数据中没有中性推文;
1–推文的ID(2087)
2–推文创建的日期(2009年5月16日23:58:44 UTC)
3 - 查询(lyx):如果没有查询,那么这个值就会显示为NO_QUERY
4 - 发推文的用户(robotickilldozr)
5 - 推文的文本

data_path = Path('..', 'data', 'sentiment140')
if not data_path.exists():
    data_path.mkdir(parents=True)#读入推文数据
names = ['polarity', 'id', 'date', 'query', 'user', 'text']
#按照上述五个说明构造元组

1、数据预处理
对数据进行一些预处理(训练集和测试集),删除超过规定长度140个字符的推文,并且对极性进行二值化处理(也就是只留下正面推文和负面推文)并将数据转变为可以更快处理的格式。

#预处理的代码,包括转换数据格式,先对训练集进行处理
def load_train_data():
    parquet_file = data_path / 'train.parquet'
    if not parquet_file.exists():
        df = (pd.read
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值