爬虫案例
主要目的是 HttpClient 和 Jsoup 的学习
1.需求分析
首先访问京东,搜索手机,分析页面,我们抓取以下商品数据: 商品图片、价格、标题、商品详情页
1.1.SPU 和 SKU
2.环境准备
2.1.数据库
CREATE TABLE `jd_item` (
`id` BIGINT(10) NOT NULL AUTO_INCREMENT COMMENT '主键 id',
`spu` BIGINT(15) DEFAULT NULL COMMENT '商品集合 id',
`sku` BIGINT(15) DEFAULT NULL COMMENT '商品最小品类单元 id',
`title` VARCHAR(100) DEFAULT NULL COMMENT '商品标题',
`price` BIGINT(10) DEFAULT NULL COMMENT '商品价格',
`pic` VARCHAR(200) DEFAULT NULL COMMENT '商品图片',
`url` VARCHAR(200) DEFAULT NULL COMMENT '商品详情地址',
`created` DATETIME DEFAULT NULL COMMENT '创建时间',
`updated` DATETIME DEFAULT NULL COMMENT '更新时间',
PRIMARY KEY (`id`),
KEY `sku` (`sku`) USING BTREE )
ENGINE=INNODB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='京东商品表';
2.2.POM.xml
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<parent>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-parent</artifactId>
<version>2.0.2.RELEASE</version>
</parent>
<groupId>com.rhonin</groupId>
<artifactId>crawlerTest_jd</artifactId>
<version>1.0-SNAPSHOT</version>
<dependencies>
<!--SpringMVC-->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-web</artifactId>
</dependency>
<!--SpringData Jpa-->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-data-jpa</artifactId>