Python爬虫实战——Lazada商品数据(selenium自动化爬虫,xpath定位)

前言

        在此说明,这个项目是我第一次真正去爬的一个网站,里面写的代码我自己都看不下去,但是已经不想花时间去重构了,所以看个乐呵就好,要喷也可以(下手轻一点)。这篇文算是记录我的学习中出现的一些问题,不建议拿来学习和真拿我的代码去爬Lazada的数据,当然看看我的思路还是可以的。

目标

        我的目标是拿到个分类下的商品数据

 

 爬虫思路

        1.获取各个分类的链接

        2.获取各个分类下的商品链接

        3.通过商品链接获取到需要的商品数据

需要用到的包和工具准备

import time
import openpyxl
import requests
import re
from lxml import etree
from selenium.webdriver.common.by import By
import bag  # 这个包是别人写好给我的,我会在下面把用到的方法放出来

         这个bag包里面的很多参数是不起作用的,可以不用管它。这里给Chrome浏览器设置了一个9222端口方便用程序控制自己打开的浏览器

 class Bag:   
    def web_debug():
        chrome_options = Options()
        chrome_options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
        chrome_options.page_load_strategy = 'eager'
        chrome_options.add_argument('–disable-gpu')  # 谷歌文档提到需要加上这个属性来规避bug
        chrome_options.add_argument('--incognito')
        chrome_options.add_argument('--disable-javascript')
        chrome_options.add_argument('--enable-automation')
        chrome_options.add_argument('--no-sandbox')  # 解决DevToolsActivePort文件不存在的报错
        chrome_options.add_argument('blink-settings=imagesEnabled=false')  # 不加载图片, 提升速度
        web = Chrome(service=Service(), options=chrome_options)
        return web

右键Chrome浏览器的属性把目前路径改成如下:

C:\Program Files\Google\Chrome\Appl

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值