常见反爬方案和应对措施

如果你觉得这篇文章对你有帮助,请不要吝惜你的“关注”、“点赞”、“评价”、“收藏”,你的支持永远是我前进的动力~~~

 个人收藏的技术大会分享PDF文档,欢迎点击下载查看!!!

反爬虫技术是为了保护网站数据不被非法抓取而采用的一系列技术手段。以下是一些常见的反爬方案及其应对措施:

1、ip地址检测

多数新闻类或政府法院类网站都会对ip进行检测,对访问频繁的ip进行限制请求频率、弹出验证码或封ip等。

应对措施:使用随机代理ip。搭建代理ip池服务,每次随机获取ip池中的代理ip进行访问。

2、请求头检测

(1)请求头中User-Agent参数也是通用反爬措施之一,根据检测频繁请求的ip的User-Agent是否为同一个进行限制;

(2)请求头中必须添加Referer 参数才可以获取到信息。

(3)请求头中必须添加X-Requested-With 参数才可以获取到信息。

应对措施:请求网址时随机切换不同的User-Agent并添加对应网站必须添加的请求头参数。

3、添加验证码验证

验证码类型有图片字母数字、滑块、文字识别、算术题、滑动轨迹等

例如:上海票据交易所,disclosure.shcpe.com.cn/# 每次查询都要滑块

验证码类型:http://146.56.204.113:19199/preview?project_name=geetest_icon_sim

应对措施:通过算法训练添加图片识别接口进行识别,目前有字母数字验证码识别接口。例:中国执行信息公开网图片验证码

4、请求参数加密

通过对post请求表单参数加密进行传输

例如:有道翻译 fanyi.youdao.com/

应对措施:通过页面debug调试找到对应js加密过程,重新编辑或运行对应js代码得到相同规则的参数进行传输

5、返回值加密

通过js动态生成,js混淆提高逆向难度

例如:裁判文书 wenshu.court.gov.cn/

6、cookie验证

服务器端可以使用 Cookies 存储登录信息,并在每次请求时发送给客户端,以识别客户端的身份。

如果服务器端使用 Cookies 限制爬虫访问数据,只有携带正确 Cookies 的请求才能够获得正确数据。

应对措施:请求对应网址获取返回的set-cookie参数

例如:百度资讯

7、多重反爬措施验证

集合以上多种反爬验证措施

注意事项:

  1. 遵守法律法规:确保爬虫行为符合国家相关法律法规,不侵犯他人合法权益。
  2. 尊重Robots协议:遵守网站的Robots协议,不爬取禁止爬取的内容。
  3. 保护网站利益:合理使用爬虫,避免对网站正常运营造成影响。

通过以上措施,可以在一定程度上应对网站的反爬虫策略,但需要注意的是,随着技术的发展,反爬虫措施也在不断升级,因此爬虫开发者需要不断学习和适应。

基于Python的江苏省中医院自动预约挂号程序.zip 文件注解 conf.ini 项目配置文件,需要修改的配置是username,password,token。如果直接使用token则无需username,password。其他配置基本不需要改动。 main.py 项目主文件,文件内含有两个函数。 预约程序,用来测试是否能够正常预约。运行效果如下。 欢迎使用ddddocr,本项目专注带动行业内卷,个人博客:wenanzhe.com 训练数据支持来源于:http://146.56.204.113:19199/preview 爬虫框架feapder可快速一键接入,快速开启爬虫之旅:https://github.com/Boris-code/feapder 初始化 获取token成功 success 请选择院区,输入院区前方序号 0):江苏省中医院本部 1):江苏省中医院紫东院区 请输入院区序号:0 成功 请选择科室类别,输入科室类别前方序号 0):名医 1):内科 2):外科 3):妇儿科 4):针推 5):多学科联合门诊 6):医技 7):其他门诊 请输入科室类别序号:4 请选择科室,输入科室前方序号 0):推拿科 1):针灸康复科 2):特色疗法中心 请输入科室序号:0 成功 请选择医生,输入医生前方序号 0):陶琦 1):张仕年 2):耿涛 3):丁育忠 4):于建 5):杨晓仙 6):陈得良 7):刘德华 8):洪伟 9):龚正中 10):程宏亮 11):宋石龙 12):万兴 13):徐士象 14):冯蕴哲 15):桑佳佳 16):推拿科(普号) 17):推拿科穴位贴敷 18):小儿推拿专病门诊(普号) 19):小儿斜颈专病门诊(普号) 请输入医生序号:11 成功 请选择日期,输入日期前方序号 0):2022-07-27 1):2022-07-29 2):2022-08-01 3):2022-08-02 4):2022-08-03 请输入日期序号:4 请选择时段,输入时段前方序号 0):上午 1):下午 请输入时段序号:0 成功 请选择预约时间,输入预约时间前方序号 0):07:50-08:30 1):08:30-09:00 2):09:00-09:30 3):09:30-10:00 4):10:00-10:30 5):10:30-11:00 6):11:00-11:30 请输入预约时间序号:4 成功 请选择就诊卡,输入就诊卡前方序号 0):XXX 请输入就诊卡序号:0 成功 {'result': {'orderId': '22072652614341163', 'hint': '您好!感谢您选择江苏省中医院为您的健康护航。由于您是首次来我院就诊患者,为保障您的病历资料完整,请于就诊日当天,携带有效身份证件,提前到我院人工挂号/收费窗口进行身份认证,确认后请直接前往诊区候诊'}, 'timeTaken': 185, 'code': '0', 'message': '成功', 'respCode': '999002'} 监控预约程序,可监控指定医生指定日期内是否有可预约时间,如果有则直接预约。预约后请及时付款确定挂号!程序每10S检测一次,预约后10分后再次预约,直至手动停止程序。运行效果如下。 欢迎使用ddddocr,本项目专注带动行业内卷,个人博客:wenanzhe.com 训练数据支持来源于:http://146.56.204.113:19199/preview 爬虫框架feapder可快速一键接入,快速开启爬虫之旅:https://github.com/Boris-code/feapder 初始化 获取token成功 请选择院区,输入院区前方序号 0):江苏省中医院本部 1):江苏省中医院紫东院区 请输入院区序号:0 请选择科室类别,输入科室类别前方序号 0):名医 1):内科 2):外科 3):妇儿科 4):针推 5):多学科联合门诊 6):医技 7):其他门诊 请输入科室类别序号:3 请选择科室,输入科室前方序号 0):妇科 1):儿科 2):生殖医学科 请输入科室序号:0 请选择医生,输入医生前方序号 0):任青玲 1):周惠芳 2):卢苏 3):管群 4):胡荣魁 5):时燕萍 6):刘琦 7):施艳秋 8):陆启滨 9):钱菁 10):夏亲华 11):唐雪梅 12):李健美 13):江婉君 14):何贵翔 15):高月平 16):顾俊杰 ......
### 关键词爬虫抓取与SEO优化 在短视频平台如中,关键词的选择应用对于内容创作者、营销人员来说至关重要。通过有效的关键词策略可以显著提升视频曝光率互动效果[^3]。 #### 使用集蜂云进行数据采集 针对希望从获取特定信息的需求方而言,采用集蜂云这样的第三方服务能够帮助定期收集目标账号或作品的关键性能指标(KPI),比如点赞次数、评论数量等。这不仅有助于了解当前流行趋势,也为后续的内容规划提供了科学依据[^1]。 #### 构建高效的关键词体系 构建一个全面而精确的关键词列表是成功实施SEO的基础。借助专门设计用于挖掘长尾词的专业工具,可以识别出既具有较高搜索热度又竞争相对较小的理想选项。例如,在销售手工艺品时,“复古风格的手工制品”或是“个性化定制首饰”这类细化后的表述往往能带来更好的转化成果[^4]。 #### 实施技术层面的改进措施 除了注重内部页面结构的设计外,还应重视网站加载速度、移动端适配度等方面的表现。确保整个站点具备良好的浏览体验将有利于吸引更多自然流量,并维持较高的用户留存率。此外,启用SSL证书加密通信也能增加访客信任感,间接促进排名上升[^2]。 ```python import requests from bs4 import BeautifulSoup def fetch_video_data(video_url): response = requests.get(video_url) soup = BeautifulSoup(response.text, 'html.parser') likes = soup.find('span', {'class': 'like'}).text.strip() comments = soup.find('span', {'class': 'comment'}).text.strip() return { "likes": likes, "comments": comments } ``` 此段Python代码展示了如何简单地解析网页以提取所需的信息片段。当然实际操作过程中还需要考虑更多细节问题,如异常处理机制、爬虫策略应对等等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

吕玉生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值