前言
在此说明,这个项目是我第一次真正去爬的一个网站,里面写的代码我自己都看不下去,但是已经不想花时间去重构了,所以看个乐呵就好,要喷也可以(下手轻一点)。这篇文算是记录我的学习中出现的一些问题,不建议拿来学习和真拿我的代码去爬Lazada的数据,当然看看我的思路还是可以的。
目标
我的目标是拿到个分类下的商品数据


爬虫思路
1.获取各个分类的链接
2.获取各个分类下的商品链接
3.通过商品链接获取到需要的商品数据
需要用到的包和工具准备
import time
import openpyxl
import requests
import re
from lxml import etree
from selenium.webdriver.common.by import By
import bag # 这个包是别人写好给我的,我会在下面把用到的方法放出来
这个bag包里面的很多参数是不起作用的,可以不用管它。这里给Chrome浏览器设置了一个9222端口方便用程序控制自己打开的浏览器
class Bag:
def web_debug():
chrome_options = Options()
chrome_options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
chrome_options.page_load_strategy = 'eager'
chrome_options.add_argument('–disable-gpu') # 谷歌文档提到需要加上这个属性来规避bug
chrome_options.add_argument('--incognito')
chrome_options.add_argument('--disable-javascript')
chrome_options.add_argument('--enable-automation')
chrome_options.add_argument('--no-sandbox') # 解决DevToolsActivePort文件不存在的报错
chrome_options.add_argument('blink-settings=imagesEnabled=false') # 不加载图片, 提升速度
web = Chrome(service=Service(), options=chrome_options)
return web
右键Chrome浏览器的属性把目前路径改成如下:
C:\Program Files\Google\Chrome\Appl

最低0.47元/天 解锁文章
16万+

被折叠的 条评论
为什么被折叠?



