自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 day08 数据推送,实时监控,定时任务,反爬虫介绍

一、推送数据: 前面已经将数据分类、解析、加工等一系列操作封装到了ProcessedData中。(ProcessedData封装这着两种数据query,book。加工后的与原始数据)根据不同的数据推送到不同的topic中。 具体实现(query):1、过滤出属与query的数据,并查询配置文件中query的对应的topic 2、封装kafka的参数,并设置kafka的参数 3、按照分区分送数据 ...

2020-03-04 22:20:19 338

原创 day 03lua的基础语法与lua向redis缓存数据

lua语法2 赋值 基本赋值 a=1 多个值同时赋值 e,f,h=1,2,3 算术运算符 + - * / % ^ 关系运算符 == > < >= <= ~= 逻辑运算符 true false 其他 # 与length相同 … 拼接字符串 流程控制 if()then 代码块 end if ()then 代码块 else 代码块 end 循环 初始值 whi...

2020-02-26 22:41:35 159

原创 day02 反爬虫的非功能描述与lua基本概念

一 1、非功能描述 用户数量:只要用户有过对该网站的请求就算有效用户数 并发量:单位时间内的流量 TPS:吞吐量 QPS:并发数、每秒查询率 kafka吞吐量:每条数据大小在1-2k,每天产生2700万条数据,所以一天的吞吐量大概50g ER图(实体关系模型图),属于表与现实实体的抽象描述,通常会用作数据库设计 2、 OpenResty(基于一个nginx与lua高性能web平台) 作用:用于处...

2020-02-25 22:31:34 95

原创 project 反爬虫

爬虫概念:获取目的网站的内容。就是模拟用户对网站的点击操作行为,比如点击,请求,注册,等行为。 背景:1、电商平台统计用户流量的时候,严重影响统计结果。2、抢票被抢走 功能:数据采集、分类、处理、结构化 流程管理:链路的统计,实时监控,执行相应的策略 策略管理:根据对应的算法,进行关联规则的分析 规则管理:通过我们手动设置反爬规则 实时监控:监控集群负载情况,根据数据个对应的特性监控爬虫行为 数据...

2020-02-24 22:30:54 92

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除