前言
这是我第一次用Java来写爬虫项目,研究的也不是很透彻,所以爬虫技术的理论方面的就不说太多了。 主要还是以如何爬取商品信息为主,爬取最简单的商品信息,给出大概的思路和方法。
对于没有反爬技术的网站,爬取商品信息最简单。我测试了京东、淘宝、天猫这些大型购物网站,发现只有天猫商城是没有做任何反爬处理的,所以就从最简单的爬取天猫商品信息开始写。
思路方法
1、对于没有反爬技术的网站思路最简单。直接在天猫商城首页https://www.tmall.com/搜索“毛巾”时,会向一个服务器发出请求,得到跳转后的页面:
https://list.tmall.com/search_product.htm?q=%C3%AB%BD%ED&type=p&vmarket=&spm=875.7931836%2FB.a2227oh.d100&from=mallfp…pc_1_searchbutton
2、对得到的地址进行分析,把一些看起来多余的地址参数删掉重新请求(具体的其他参数我目前还没有深入研究),发现并没有对页面的访问产生影响。再对网址URL进行解码,得到%C3%AB%BD%ED为中文“毛巾”的UrlEncode编码。
https://list.tmall.com/search_product.htm?q=%C3%AB%BD%ED
3、以上分析则可以得出该页面的请求地址为https://list.tmall.com/search_product.htm?q=毛巾
4、Java后台代码
<dependency>
<groupId>org.apache.poi</groupId>
<artifactId>poi-ooxml</artifactId>
<version>3.10-FINAL</version>
</dependency>
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.5.3</version>
</dependency>
<dependency>
<