![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据采集
文章平均质量分 86
大树的困惑
这个作者很懒,什么都没留下…
展开
-
大数据反爬日记01
大数据反爬日记01记录自己的反爬日记既然要做反爬,就肯定得有有爬虫来爬取页面,这里前面已经写好了一个简单的爬虫,将爬取的数据通过python+flask+gunicorn+nginx部署到linux上面了,接下来通过采集爬虫对页面的请求日志进行分析1.环境准备hadoop (因为是采用最近比较火的大数据技术,所以需要提前准备好大数据的相关环境)hive(用于分析离线指标)spark(用spark引擎来分析实时请求的日志)Hbase(大数据的数据库)filebeat+logstash(请求原创 2021-05-15 22:54:03 · 360 阅读 · 1 评论 -
Camel-学习笔记(一)
Camel(一)初识camel第一次遇到camel是在公司里面使用的一个架构中体现的,用的是古老的servermix,ESB架构,比起当下特别火热的微服务架构,显得优点龙钟老态,但是里面很多知识,在有闲暇之余的条件下,是很值得学习和借鉴的.说回camel,在我看来,它不像是一个可以独立运行的工具,更像是一个辅助型的光环英雄,自己没有任何输出能力,它的路由转换功能,是它最大的亮点,通过高度的抽象,让不同的数据源,可以通过同一份api,进行路由的转换,其中整合绝大多数市面上已有的协议,所以,掌握它,就像掌原创 2020-06-21 21:48:56 · 2331 阅读 · 0 评论 -
Kafka 2.1.0 的源码环境搭建
Kafka 2.1.0 的源码环境搭建提前准备下载kafka源码http://kafka.apache.org/downloads我这里使用的是kafka2.1.0版本的下载完之后,解压即可安装jdkjdk1.8oracle官网下载即可安装编译工具gradle 5.5(我最开始使用别的版本报错了,识别不了依赖)https://gradle.org/next-steps/?version=5.5&format=allgradle和maven意义,修改一下配置,让其可以访问.原创 2021-03-28 16:43:06 · 489 阅读 · 0 评论 -
filebeat的搭建与配置使用
Filebeat作为一款轻量级工具,基本解压之后,修改一下配置就可以直接使用了在生产环境中,经常使用filebeat+logstash作为采集数据的解决方案之一因为由于logstash是基于jvm(栈,堆,GC区…)比较占用内存,所以一般会在采集机器上安装filebeat,然后上报到一台服务器的logstash,这样就可以避免因采集数据而占用过多资源的情况1.安装filebeat 6.4.0由于公司使用的是6.4.0,这边也就沿用了https://www.elastic.co/cn/downlo原创 2020-11-04 22:40:02 · 525 阅读 · 0 评论