效果图(情绪与股价)
文件夹“上证指数吧——股评文本情感分析”爬取了40W+条股吧——上证指数吧的股评文本数据,并通过分析这些股评文本积极、消极情况,计算每天的情绪指数(BI_index),并和上证指数的走势做对比
文件夹data内容介绍:
negative.txt:用作训练集的消极文本语料,Github上的前辈提供
positive.txt:用作训练集的积极文本语料,Github上的前辈提供
股吧评论爬取.ipynb:对上证指数吧的发帖标题、发帖时间进行爬取(下午1点-4点之间爬取,不容易被封IP,其他时间段爬取100页数据后,IP地址会被股吧封禁,大概半小时后解封)
comments.xlsx:爬取的原始股评文本数据
jieba_cut.ipynb:给时间加上年份;对评论进行分词
sh000001.CSV:爬取的评论所处的这段时间里,上证指数的走势数据
sh000001.xlsx:也是爬取的评论所处的这段时间里,上