1、特征词
表示一篇文本,矩阵数据,聚类、分类、预测
2、情绪、情感分析
情感值、舆论文本、文本数据,来源管,新闻、情感倾向;存在误差,不准确
3、基于股评文本的情绪分析
#网络舆情,判断指数走向
3、安装SnowNLP
pip install snownlp
4、导入包
import pandas as pd
from snownlp import SnowNLP
import matplotlib.pyplot as plt
import seaborn as sns
5、中文显示
#处理中文显示问题
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
sns.set_style('whitegrid',{'font.sans-serif':['simhei','Arial']})
6、读取数据
该数据是从新浪财经频道获取的股票评论标题信息,时间跨度为2018-9-3--2018-12-7,共计1000条股评。
# 读取文本数据,读取每行的评论标题
# 读取
# 读取
orig_comments=pd.read_csv('C:/Users/86186/Desktop/大二 下/数据挖掘/第7章/第3节 案例:基于股评文本的情绪分析/stocktextming.csv')
orig_comments.drop("日期时间",axis=1,inplace=True) #删除"日期时间"列
print('原始数据:',1)
# 输出前五行
print(orig_comments.head())
print()
【out】:
原始数据: 1
标题 日期
0 十大博客看后市:2600点下方将现低吸机会 12月07日
1 杨德龙:跨年度行情能否出现 12月07日
2 午后名博看市:2600点得失至关重要 12月07日
3 李大霄