前言
随着网络舆情及预警机制研究的广泛深入和迫切性,话题发现和跟踪的研究已经成为当前的研究热点。
本文给出一个财经新闻热点跟踪的技术架构。
实战
-
前一篇文章
NLP实战:财经新闻热点发现 -
涉及技术
- NLP
- 爬虫
-
技术架构
-
要点说明
-
爬虫、关键词、特征
见我的上一篇文章:NLP实战:财经新闻热点发现
时间间隔:可设为4小时或者6小时
-
文章相似度计算
1、tf-idf
2、word2vec
-
画折线图
可视化工具:Matplotlib
横坐标:时间,如以4小时作为单位
纵坐标:每个热点新闻的阅读量
-
阅读量统计
1、统计热点新闻的原始文章的阅读量
2、统计与热点新闻非常相似的最新文章的阅读量
3、 1和2之后才是最终的阅读量
4、从折线图中看清晰观测到每个热点的情况
-