python爬虫解决验证码的思路

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
    f.write(checkcode.content)

#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)

#再接下来构造表单数据balabala
 
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

法2:

用cookie:

#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)

#先读取验证码的url
picture = opener.open(checkcode_url).read()

#balabala图像处理

# 生成post数据 
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
    response = opener.open(request)
    result = response.read()
except urllib2.HTTPError, e:
    print e.code

 
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:
 get_cookies() 获得所有 cookie 信息
 get_cookie(name) 返回特定 name 有 cookie 信息
 add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值
 delete_cookie(name) 删除特定(部分)的 cookie 信息
 delete_all_cookies() 删除所有 cookie 信息
 
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()
 
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

Python爬虫中的图片验证码可以通过OCR技术进行识别。可以使用Python的第三方库tesserocr来实现简单验证码的识别。对于没有噪声干扰的验证码,可以直接使用这个库进行识别。但是对于有噪声干扰的验证码,需要先对图片进行预处理,如灰度化和二值化,然后再进行识别,以提高识别率。 另一种图片验证码是滑动式验证码。对于这种验证码,可以采用模板匹配的方法。思路就是将所有出现的验证码保存下来,并与出现的验证码进行像素比较,找出不同的验证码。根据滑动顺序给不同的验证码命名,然后使用selenium模拟滑动操作。 学习Python技术可以帮助你更好地处理爬虫中的验证码问题。Python爬虫领域非常受欢迎,学好Python可以为你的就业和副业赚钱提供更多机会。如果你想学习Python,建议你制定一个学习规划,并寻找一些全套的Python学习资料来帮助你入门。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Python爬虫四种验证码解决思路](https://blog.csdn.net/weixin_55154866/article/details/128503790)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值