爬虫（二）：用python爬取亚马逊所有家具种类前100名的商品信息（下）

本文链接：https://blog.csdn.net/you_just_look/article/details/117928924

该博客介绍了一个Python爬虫程序，用于抓取亚马逊网站上各类家具销售排行榜前100名的商品信息，包括排名、图片链接、商品链接、标题、星级、评论数、价格等。通过requests和lxml库解析HTML页面，处理可能出现的网络超时和错误响应，最终将数据保存到CSV文件中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目标

亚马逊公司（Amazon），是美国最大的一家网络电子商务公司，位于华盛顿州的西雅图，是网络上最早开始经营电子商务的公司之一，现在已成为全球商品品种最多的网上零售商和全球第二大互联网企业。

本次目标是爬取亚马逊所有家具种类销售排行榜前100名的商品排名信息。
在这里插入图片描述
上一篇博客已经把所有家具种类，以及种类页面链接爬取出来

接下来是根据这些种类链接，分析页面HTML，得到该家具种类前100名商品的排名、照片链接、商品链接、标题、星级、评论数、最低价格和最高价格
在这里插入图片描述

代码

import requests
from lxml import etree
import pandas as pd
from pandas import DataFrame
import time
import re


def gethtml(url0, head):
    i = 0
    while i < 5:
        try:
            html = requests.get(url=url0, headers=head, timeout=(10, 20))
            repeat = 0
            while (html.status_code != 200):  # 错误响应码重试
                print('error: ', html.status_code)
                time.sleep(20 + repeat * 5)
                if (repeat < 5):
                    repeat += 1
                html = requests.get(url=url0, headers=head, timeout=(10, 20))
            return html
        except requests.exceptions.RequestException:
            print('超时重试次数: ', i + 1)
            time.sleep(1)
            i += 1
    raise Exception()




hea = {
   
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'accept-encoding': 'gzip, deflate, br',
    'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'cache-control': 'max-age=0',
    'downlink': '8',
    'ect'