反反爬

最新推荐文章于 2023-01-10 17:18:03 发布

嗯！！

最新推荐文章于 2023-01-10 17:18:03 发布

阅读量151

点赞数

分类专栏：爬虫文章标签：反反爬

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45410351/article/details/102846050

版权

爬虫专栏收录该内容

9 篇文章 0 订阅

订阅专栏

1.反爬措施以及应对措施

（1）通过user-agent客户端标识来判断是否是爬虫
解决：封装user-agent请求头
（2）通过访问的频率来判断
解决：设置爬取的间隔
（3）封ip
解决：设置代理
（4）页面无法直接获取数据，显示的是js代码
解决：selenium+phantomjs可以获取页面数据

2.动态html页面的处理方法

（1）js

html是页面的骨架，css是装饰器，js是页面的灵魂

（2）jquery

jquery封装了js库，可以使js代码更加简洁

（3）ajax

web页面的异步请求，是一种技术

3.selenium+phantomjs的安装

定义：
selenium：他是web自动测试工具。
pantomjs：他是一个无界面的浏览器。所以他可以运行js代码，帮我们拿到页面数据。
所以selenium+phantomjs就可以解决页面是js代码的这种网站数据的获取问题。
（1）selenium和phantomjs的下载
selenium:

pip install selenium==2.48.0

phantomjs:
直接百度phantomjs的镜像（2.1.1）
注：选择这两个版本的原因是这两个版本比较稳定
（2）将这两个可执行文件放在Anaconda的scripts文件下
（3）下载chromedriver的镜像
注：要与自己的谷歌浏览器的版本对应

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。