一、实验目的
1、通过爬取三个购物网站首页的商品标题信息,了解市场上关于特定产品(双肩包)的情况。
2、掌握网页爬取的基本方法和技巧,了解数据处理和保存的流程。
3、掌握Python爬虫、数据提取和数据存储等方面的技巧。
二、实验内容和要求
在python中撰写一个算法,定期(每10分钟一次,持续3个小时)监测这三个网站同一产品的前三名,结果存入CSV。
三、实验环境
Python
四、实验方法和步骤
代码思路:使用了selenium库来实现自动化爬取京东、亚马逊和苏宁易购的双肩包商品信息。代码中定义了三个函数,分别用于爬取不同网站的商品信息,并使用定时任务每隔10分钟执行一次,持续3小时。在每次定时任务中,将商品标题写入CSV文件,并依次调用爬取函数进行爬取。
1、导入所需的库
2、定义一个函数JD(),用于爬取京东的商品信息
(1)定义函数get_page_content(driver, page),用于获取指定页数页面的HTML源码