Python学习之爬虫08-用户代理池构建
概念:
用户代理概念:User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
详情见百度百科-用户代理
理解:这个就是之前使用的浏览器代理…一下换了个名字害的差点没理解过来。
用户代理池:将不同的用户代理组建成为一个池子,随后随机调用。
理解:念起来有点绕,其实就是将多个User Agent放到一组中,然后随机的从这一组里调用一个User Agent。
练习:
还是爬糗事百科吧。
import urllib
import re
import random
uapools=[
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.41 Safari/535.1 QQBrowser/6.9.11079.201", # QQ浏览器极速模式