一、Selenium爬取JD商品信息
1.初始化
//将驱动加载到Java的JVM虚拟机中
System.setProperty("webdriver.chrome.driver","D:\\chromedriver.exe");
/************************** 方式一:不打开浏览器 **************************/
//定义浏览器参数
ChromeOptions chromeOptions = new ChromeOptions();
//设置不打开浏览器
chromeOptions.addArguments("--headless");
//初始化驱动
driver = new ChromeDriver(chromeOptions);
/************************** 方式二:打开浏览器 **************************/
//初始化驱动
driver = new ChromeDriver();
2.点开JD网址并指定关键字搜索
driver.get("https://www.jd.com/");
//输入关键字衣服
driver.findElement(By.id("key")).sendKeys("衣服");
//点击搜索按钮
driver.findElement(By.cssSelector("button.button")).click();
3.设定睡眠时间(可根据网络速度实际调整)
Thread.sleep(i * 1000);
4.查找商品列表并获取相关信息
//*[@id="J_goodsList"]/ul/li
商品信息:className="p-name"
商品价格:className="p-price"
二、Selenium爬取图片
注:1-3步与上述获取文本信息一致!!!
1.保存图片
URL url=new URL(img);
//创建输入流
InputStream is=new FileInputStream(url.openStream());
//创建输出流
OutputStream out=new FileOutputStream(File(路径));
附录一:
//执行js,滚动条下拉到最底
((JavascriptExecutor) driver).executeScript("window.scrollTo(0,document.body.scrollHeight)");