总结:爬虫 = 构造请求 + 解析数据 解析数据 = 转换数据类型 或 提取、清洗数据
from bs4 import BeautifulSoup
import requests
url = ‘http://www.4399.com/’
headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64)’
’ AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36 Edg/90.0.818.62’}
发送请求并接收响应内容
res = requests.get(url=url, headers=headers)
初步解析response里的内容使其变成字符串(转换数据类型为字符串对象) 变成字符串有res.content和res.text两种方法
res.content的方法为 html_str = res.content.decode(‘gbk’)
res.text的方法为 res.encoding = ‘编码方式’(utf-8/gbk之类的) html_str = res.text
html_str = res.content.decode(‘gbk’)