使用HttpClient 4.x登陆带有验证码的网站

最新推荐文章于 2020-12-11 18:00:06 发布

xanarry

最新推荐文章于 2020-12-11 18:00:06 发布

阅读量9.2k

点赞数 3

分类专栏：网络编程 JAVA 文章标签：验证码爬虫服务器网络编程登陆

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiongyangg/article/details/44860119

版权

本文介绍了如何使用HttpClient 4.x库处理带有验证码的网站登录问题。首先阐述了登录流程，包括浏览器如何处理cookie和验证码。接着，通过实例展示了获取验证码图片并将其保存到本地，再人工输入验证码进行登录的过程。还提到了在POST请求中构造所需参数来模拟登录，最终成功登录并能抓取其他网页信息。建议将HTTPClient操作封装为独立类以避免二次请求时的错误。

摘要由CSDN通过智能技术生成

对于爬虫来说，验证码通常是实现过程中的一个巨大的障碍，因为验证码的多样性，有的甚至变态至极，所有一般来说使用代码自动识别验证码是非常困难的，本问的内容就是讲如何将验证码保存到本地，然后通过人工输入验证码实现登陆，从而抓取网页信息。

首先说说整个登陆的流程，当我们打开一个网站的时候，浏览器就会记录该网站的cookie，用于识别信息，同时服务器会向浏览器发送一张验证码的图片，并与该cookie的信息是相关联的，并以此识别用户，然后post提交数据的时候一同提交就实现认证登陆了。

以下登陆我们学校的教务处作为例子，这是我们教务处的登陆界面。

右键打开chrome的审查元素，跟踪到验证码的链接。

最低0.47元/天解锁文章

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
13
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

xanarry CSDN认证博客专家 CSDN认证企业博客

码龄12年

112: 原创

5万+: 周排名

97万+: 总排名

84万+: 访问

: 等级

5664: 积分

62: 粉丝

220: 获赞

93: 评论

596: 收藏

私信

关注

热门文章

分类专栏

golang 2篇
JavaScript
C 10篇
C++ 25篇
PHP 3篇
MySql 15篇
数据结构与算法 20篇
JAVA 17篇
Windows 5篇
Linux 20篇
C# 1篇
正则表达式 3篇
工具的使用 5篇
Python 16篇
Android 1篇
网络编程 4篇
其他 5篇
jsp 1篇
汇编语言 3篇
操作系统 2篇
poi 1篇
文档生成 1篇

最新评论

c语言输出一个月的日历
2301_80548065: nb ，救我一命
java POI 对word文档中table中的cell进行合并的方法
御风屮: 大佬，请问问题是如何解决的？
python实现高精度乘法
Winston Meursault: 当a, b为浮点数时, 第三行报错： 'float' object has no attribute 'strip'
为浏览器自定义协议启动本地（外部）程序
咻咻的码员: 你好，最后一行我写入[HKEY_CLASSES_ROOT\notepad\shell\open\command] @="C:\\Windows\\explorer.exe %1"，然后浏览器输入notepad://D:\ 。不能正常打开D盘目录。可以请教一下吗
socket http文件下载器c语言实现
xanarry: 第三步：有序合并两个临时文件，分段下载参考http协议Content-Length，发送给服务端注意点：总进度需要使用一个全局变量，多个线程一起更新，然后需要使用线程同步函数等待两个任务函数结束

最新文章

目录

评论 13

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。