简单爬虫,爬取天猫商品信息

最新推荐文章于 2024-08-12 17:39:28 发布

烟雨倚楼听风雨

最新推荐文章于 2024-08-12 17:39:28 发布

阅读量2.2k

点赞数

文章标签： java

本文链接：https://blog.csdn.net/weixin_44177024/article/details/118721154

版权

本文介绍了作者初次使用Java编写爬虫，选择无反爬策略的天猫商城作为目标，详细讲述了如何爬取天猫商品信息的思路和方法。通过分析搜索过程，确定请求地址，并展示了一段Java后台代码实现。最终成功获取到商品信息。

摘要由CSDN通过智能技术生成

前言
这是我第一次用Java来写爬虫项目，研究的也不是很透彻，所以爬虫技术的理论方面的就不说太多了。主要还是以如何爬取商品信息为主，爬取最简单的商品信息，给出大概的思路和方法。

对于没有反爬技术的网站，爬取商品信息最简单。我测试了京东、淘宝、天猫这些大型购物网站，发现只有天猫商城是没有做任何反爬处理的，所以就从最简单的爬取天猫商品信息开始写。

思路方法
1、对于没有反爬技术的网站思路最简单。直接在天猫商城首页https://www.tmall.com/搜索“毛巾”时，会向一个服务器发出请求，得到跳转后的页面：

https://list.tmall.com/search_product.htm?q=%C3%AB%BD%ED&type=p&vmarket=&spm=875.7931836%2FB.a2227oh.d100&from=mallfp…pc_1_searchbutton
在这里插入图片描述

2、对得到的地址进行分析，把一些看起来多余的地址参数删掉重新请求（具体的其他参数我目前还没有深入研究），发现并没有对页面的访问产生影响。再对网址URL进行解码，得到%C3%AB%BD%ED为中文“毛巾”的UrlEncode编码。

https://list.tmall.com/search_product.htm?q=%C3%AB%BD%ED

在这里插入图片描述

3、以上分析则可以得出该页面的请求地址为https://list.tmall.com/search_product.htm?q=毛巾

4、Java后台代码

<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>3.10-FINAL</version>
</dependency>
<dependency>
    <groupId>org.apache.httpcomponents</groupId>
    <artifactId>httpclient</artifactId>
    <version>4.5.3</version>
</dependency>
<dependency>
    <