使用requests,re库来定向爬取淘宝商品。
结构设计:
- 提交商品搜索请求,循环获取后续页面
- 对于每个页面,提取商品名称、价格信息
- 将信息输入到屏幕上
import requests
import re
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
print('连接失败')
def parsePage(ilt,html):
try:
plt = re.findall(r'\"view_price\"\:\"[\d\.\d]*\"',html)
tlt = re.findall(r