互联网数据管理平台

互联网数据管理平台

  1. 平台综述
  2. 数据采集
  3. 数据存储
  4. 数据特征化
  5. 数据展示


前言

该平台主要用于数据采集,保存,并便于搜索,展示的数据平台。


一、综述

整个平台使用k8s部署,scrapy做数据采集,mysql做存储,es做搜索,apscheduler做调度,grafana做监控。文章以平台构建流程为主线,依次记录各部分的实现过程。

二、四大模块

1、数据采集

数据采用的爬虫的形式爬取互联网的数据或者链接
爬虫主要使用scrapy使用,为了提高爬取效率,适当构建IP资源池,开启多并发来爬取目标网站。
爬取的内容以图片和文字为主,涉及的主题包含美食,旅游,技术文档,多为文章,评论等内容。
文本需要根据主题归类,并提取摘要。
图片需要根据主题归类,并去除水印。

2、数据存储

数据存储使用mysql和elasticsearch。
根据数据来源不同进行分表处理,对于数据量较大的渠道进行必要的数据清洗。

3、数据特征化

对数据进行情感分类,文本摘要,关键字提取,观点识别等标签化处理。

4、数据展示

对最终爬取到的结构的标签进行适当的展示,区分实时与定时报表,形式为top排行榜。


总结

路漫漫其修远兮,吾将上下而求索。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值