淘宝商品爬虫实战笔记

免责声明:本文所记录的技术手段及实现过程,仅作为爬虫技术学习使用,不对任何人完全或部分地依据本文的全部或部分内容从事的任何事情和因其任何作为或不作为造成的后果承担任何责任。

爬取需求:爬取淘宝网根据关键字搜索商品,商品的名称、价格、月销量信息;

爬取工具:chrome浏览器、pycharm

Python库:selenium

01

网站结构分析

打开淘宝首页,输入“手机”进行搜索:

点击相关商品详情页,所有信息均可以在详情页找到。

02

创建Selenium爬虫

打开Pycharm开发工具,新建selenium_tao.py,编写如下代码:

from selenium import webdriver

from selenium.webdriver.chrome.options import Options


options = Options();

# 去掉自动化控制提示信息

options.add_experimental_option("excludeSwitches", ['enable-automation']);

browser = webdriver.Chrome('C:\chromedriver.exe', options = options)


taobao_url = 'https://s.taobao.com/search?q=%E6%89%8B%E6%9C%BA'


def start_page(page):

    browser.get(taobao_url)

    browser.maximize_window()


start_page(1)

运行代码,发现网站需要登录,且登录拖动验证码报错:error:riWCd,增加以下代码,去掉自动控制的属性,完美解决:

browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {

  "source": """

    Object.defineProperty(navigator, 'webdriver', {

      get: () => undefined

    })

  """

})

03

爬取商品详情页

通过分析商品搜索页面,页面的清单全部展示,以及分页按钮全部展示,就可以满足本次爬取需求:

# 列表清单加载完成

wait.until(

    EC.presence_of_element_located(

        (By.CSS_SELECTOR, '.m-itemlist .items .item')

    )

)

# 滚动条拖到底部

browser.execute_script('window.scrollTo(0, document.body.scrollHeight);')

# 分页加载完成

wait.until(

    EC.presence_of_element_located(

        (By.CSS_SELECTOR, '.wraper .items .item')

    )

)

增加代码,爬取并记录所有页面详情信息:

def get_detail_url():
    html = browser.page_source
    dom = PyQuery(html)
    items = dom('.m-itemlist .items .item').items()
    detail_urls = []
    for item in items:
        detail_urls.append('http:' + item.find('.title a').attr('href'))
    print(detail_urls)
    return detail_urls

04

翻页处理

爬取完当前页的所有商品详情页面url,需要进行翻页处理,找到页面下一页的超链接,直接使用代码点击

browser.find_element_by_css_selector('.wraper .items .item.next > a').click()

运行代码,发现翻页报错,改为如下方式进行点击:

element = browser.find_element_by_css_selector('.wraper .items .item.next > a')

browser.execute_script("arguments[0].click();", element)

运行代码,跳转成功!

05

商品详情页处理

分析详情页html,爬取详情页的关键信息:

# 爬取详情页面信息
def get_detail_info(html_source):
    dom = PyQuery(html_source)
    detail_dom = dom('#J_DetailMeta')
    detail_info = {
        'name': detail_dom.find('.tb-detail-hd').find('a').text(),
        'price': detail_dom.find('.tm-fcs-panel').find('.tm-price-panel.tm-price-cur').find('.tm-price').text(),
        'sale_number': detail_dom.find('.tm-ind-panel').find('.tm-ind-item.tm-ind-sellCount').find('.tm-indcon').find('.tm-count').text()
    }

return detail_info

将先前爬取的所有详情url依次打开,去解析详情页的相关信息:

def start_detail_page(detail_url_list):
    detail_info_list = []
    for detail_url in detail_url_list:
        browser.get(detail_url)
        # 设置最大等待时间
        wait = WebDriverWait(browser, 30)
        wait.until(
            EC.presence_of_element_located(
                (By.CSS_SELECTOR, '#J_DetailMeta .tb-detail-hd')
            )
        )
        detail_info_list.append(get_detail_info(browser.page_source))
    print(detail_info_list)

所有示例代码均可通过微信公众号回复关键字【pachong23】下载!

 

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
SpringBoot项目实战笔记可以按照以下步骤进行: 1. 首先,你可以通过观看B站上的教程视频来学习SpringBoot项目实战。在视频中,你可以学习到如何使用SpringBoot、MyBatis和MySQL创建一个电脑商城项目。 2. 确保你的SpringBoot项目能够成功启动。找到被@SpringBootApplication注解修饰的入口启动类,并运行该类。如果你能够观察到图形化的界面,那么说明你的项目成功启动了。 3. 如果你还没有创建SpringBoot项目,你可以使用Spring Initializr来初始化一个新的项目。Spring Initializr是一个Web应用程序,可以为你生成Spring Boot项目的基本结构。你可以选择使用Maven或Gradle作为构建工具,并添加适合你的项目的依赖。然后,你只需要编写应用程序的代码即可。 希望以上信息对你有帮助!如果还有其他问题,请随时提问。123 #### 引用[.reference_title] - *1* *2* [SpringBoot项目实战笔记:电脑商城项目实战(SpringBoot+MyBatis+MySQL)](https://blog.csdn.net/weixin_44260350/article/details/127746667)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}} ] [.reference_item] - *3* [《SpringBoot实战》读书笔记](https://blog.csdn.net/sanhewuyang/article/details/104494202)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值