描述:
本文主要利用re模块简单的对淘宝爬虫进行介绍,简单的爬虫入门,便于理解,初学者可做参考,复杂的后续会不间断的更新。
目标:
1.学会使用re模块
2.对目标物品的评论进行抓取;
3.将抓取到的内容分析并保存到数据库。
过程:
1.首先设置返回的文本格式(非常重要)
# coding:utf-8
2.导入爬虫过程所需的包(这里需用到requests 和 re 模块)
requests库是一个功能很强大的网络请求库,可以实现和浏览器一样发送各种HTTP请求来获取网站的数据。
Re库是Python的标准库,主要用于字符串匹配。(具体使用方法建议参考: https://blog.csdn.net/i_chaoren/article/details/62264414)
pymysql库是python连接到MySQL数据库的接口。
# coding:utf-8
import requests
import re
import pymysql
3.创建循环链接
注意:淘宝评论有一个单独的隐藏页面,并不能在商品详情页上直接获得淘宝评论。
这里给出一个简单的淘宝评论链接获取的方式(以丽水山耕旗舰店下的萝卜泡菜为例):
1.经观察淘宝评论页面的链接如下形式: https://rate.tmall.com/list_detail_rate.htm? itemId=?&spuId=3459652