预备问题:什么是UA?
User-Agent 即用户代理,简称“UA”,网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息,并通过判断 UA 来给客户端发送不同的页面。
当前浏览器UA信息 :①浏览器名称 ②浏览器版本
③系统平台 ④UA信息
问题1:如何获取爬虫程序UA信息?
import urllib.request
response = urllib.request.urlopen('http://httpbin.org/get')
html = response.read().decode()
print(html)
#httpbin.org ①用于测试 HTTP 请求和响应的各种信息
# ②cookie、IP、headers 和登录验证等
# ③支持 GET、POST 等多种方法,
结果:
{
"args": {
},
"headers": {
"Accept-Encoding": "identity",
"Host": "httpbin.org",
"User-Agent": "Python-urllib/3.9", #可以判断出爬虫程序
"X-Amzn-Trace-Id": "Root=1-6287ab2c-28122ec60a332cdc5a7219c3"
},
"origin"