import re #正则表达式库是为了查找
import requests #requests库是为了获取网页
def getHTMLText(url): #获取页面,若用bs4解析,就是html格式文本,若不解析,就是一大串字符串
try:
r = requests.get(url, timeout = 30) #获得response对象,r是对象
r.raise_for_status() #这就是检查是不是很够返回对象
r.encoding = r.apparent_encoding #这里改变编码格式,编码格式不一定支持中文,这里让它支持中文
return r.text #返回的htm
网站商品信息爬虫代码及详细注释
最新推荐文章于 2023-11-20 10:40:07 发布