爬虫
文章平均质量分 91
记录自己的爬虫学习历程
大树的困惑
这个作者很懒,什么都没留下…
展开
-
大数据反爬日记01
大数据反爬日记01 记录自己的反爬日记 既然要做反爬,就肯定得有有爬虫来爬取页面,这里前面已经写好了一个简单的爬虫,将爬取的数据通过python+flask+gunicorn+nginx部署到linux上面了,接下来通过采集爬虫对页面的请求日志进行分析 1.环境准备 hadoop (因为是采用最近比较火的大数据技术,所以需要提前准备好大数据的相关环境) hive(用于分析离线指标) spark(用spark引擎来分析实时请求的日志) Hbase(大数据的数据库) filebeat+logstash(请求原创 2021-05-15 22:54:03 · 343 阅读 · 1 评论 -
Python爬虫日记02-数据可视化
PYTHON爬虫日记02-数据可视化 记录自己的学习爬虫日记 1.环境准备 linux 环境python3.6+ (这里网上的教程很多,这里选择一个比较有效的在Linux上安装Python3)) linux nginx环境 (选择自己喜欢的版本 https://nginx.org/download/) linux gunicorn (pip 下载) pycharm 本地项目调试 数据准备 页面展示的数据为猫眼top100,已经在上一篇博客实现有兴趣的可以跳转 2.思路 1.准备好爬虫的数据 上一步已经将数据原创 2021-05-13 12:43:33 · 664 阅读 · 2 评论 -
python爬虫日记01
PYTHON爬虫日记01 记录自己的学习爬虫日记 选用python作为编程语言 1.环境准备 python3.6+ mysql pycharm 2.思路 以爬取猫眼top100为目标 1.分析url的规律 https://maoyan.com/board/4?offset=10 发现他们的url通过url参数offset作为分页的偏移参数 后续我们可以通过循环遍历自动爬取所有的分页 2.根据url爬取对应的HTML 爬取html有可能会触发反爬机制,可以通过配置headers进行避原创 2021-05-09 14:01:21 · 2799 阅读 · 17 评论