Python爬虫：一些常用的爬虫技巧总结

最新推荐文章于 2024-08-18 22:49:52 发布

梦想IT程序员

最新推荐文章于 2024-08-18 22:49:52 发布

阅读量83

点赞数

分类专栏： python 程序员编程文章标签：队列网络 python java http

本文链接：https://blog.csdn.net/zihong521/article/details/119423741

版权

本文总结了Python爬虫的一些常见技巧，包括基本的网页抓取（GET, POST）、使用代理IP、处理Cookies、伪装成浏览器、页面解析、验证码处理、gzip压缩以及多线程并发抓取。文中给出了相关代码片段，并提到了处理复杂验证码和gzip数据的方法。" 130854436,8753399,C++自旋锁实现详解,"['C++', '开发语言', '并发编程']

摘要由CSDN通过智能技术生成

用python也差不多一年多了，python应用最多的场景还是web快速开发、爬虫、自动化运维：写过简单网站、写过自动发帖脚本、写过收发邮件脚本、写过简单验证码识别脚本。

爬虫在开发过程中也有很多复用的过程，这里总结一下，以后也能省些事情。
1、基本抓取网页

get方法

import urllib2

url = "http://www.baidu.com"

response = urllib2.urlopen(url)

print(response.read())

post方法

import urllib

import urllib2

url = "http://abcde.com"

form = {'name':'abc','password':'1234'}

form_data = urllib.urlencode(form)

request = urllib2.Request(url,form_data)

response = urllib2.urlopen(request)

print(response.read())

2、使用代理IP

开发爬虫过程中经常会遇到IP被封掉的情况，这时就需要用到代理IP；所以想学的同学，有必要听一下这位老师的课、领取python福利奥，想学的同学可以到梦雅老师的围鑫（同音）：前排的是：762，中间一排是：459，后排的一组是：510 ,把以上三组字母按照顺序组合起来即可，她会安排学习的。

在urllib2包中有ProxyHandler类，通过此类可以设置代理访问网页，如下代码片段&#