目标
亚马逊公司(Amazon),是美国最大的一家网络电子商务公司,位于华盛顿州的西雅图,是网络上最早开始经营电子商务的公司之一,现在已成为全球商品品种最多的网上零售商和全球第二大互联网企业。
本次目标是爬取亚马逊所有家具种类销售排行榜前100名的商品排名信息。
上一篇博客已经把所有家具种类,以及种类页面链接爬取出来
接下来是根据这些种类链接,分析页面HTML,得到该家具种类前100名商品的排名、照片链接、商品链接、标题、星级、评论数、最低价格和最高价格
代码
import requests
from lxml import etree
import pandas as pd
from pandas import DataFrame
import time
import re
def gethtml(url0, head):
i = 0
while i < 5:
try:
html = requests.get(url=url0, headers=head, timeout=(10, 20))
repeat = 0
while (html.status_code != 200): # 错误响应码重试
print('error: ', html.status_code)
time.sleep(20 + repeat * 5)
if (repeat < 5):
repeat += 1
html = requests.get(url=url0, headers=head, timeout=(10, 20))
return html
except requests.exceptions.RequestException:
print('超时重试次数: ', i + 1)
time.sleep(1)
i += 1
raise Exception()
hea = {
'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'accept-encoding': 'gzip, deflate, br',
'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8',
'cache-control': 'max-age=0',
'downlink': '8',
'ect'