互联网数据管理平台
- 平台综述
- 数据采集
- 数据存储
- 数据特征化
- 数据展示
前言
该平台主要用于数据采集,保存,并便于搜索,展示的数据平台。
一、综述
整个平台使用k8s部署,scrapy做数据采集,mysql做存储,es做搜索,apscheduler做调度,grafana做监控。文章以平台构建流程为主线,依次记录各部分的实现过程。
二、四大模块
1、数据采集
数据采用的爬虫的形式爬取互联网的数据或者链接
爬虫主要使用scrapy使用,为了提高爬取效率,适当构建IP资源池,开启多并发来爬取目标网站。
爬取的内容以图片和文字为主,涉及的主题包含美食,旅游,技术文档,多为文章,评论等内容。
文本需要根据主题归类,并提取摘要。
图片需要根据主题归类,并去除水印。
2、数据存储
数据存储使用mysql和elasticsearch。
根据数据来源不同进行分表处理,对于数据量较大的渠道进行必要的数据清洗。
3、数据特征化
对数据进行情感分类,文本摘要,关键字提取,观点识别等标签化处理。
4、数据展示
对最终爬取到的结构的标签进行适当的展示,区分实时与定时报表,形式为top排行榜。
总结
路漫漫其修远兮,吾将上下而求索。