python 爬虫基础——淘宝评论

描述:

本文主要利用re模块简单的对淘宝爬虫进行介绍,简单的爬虫入门,便于理解,初学者可做参考,复杂的后续会不间断的更新。

目标:

1.学会使用re模块

2.对目标物品的评论进行抓取;

3.将抓取到的内容分析并保存到数据库。

过程:

1.首先设置返回的文本格式(非常重要)

# coding:utf-8

2.导入爬虫过程所需的包(这里需用到requests 和 re 模块)

   requests库是一个功能很强大的网络请求库,可以实现和浏览器一样发送各种HTTP请求来获取网站的数据。

 Re库是Python的标准库,主要用于字符串匹配。(具体使用方法建议参考: https://blog.csdn.net/i_chaoren/article/details/62264414

   pymysql库是python连接到MySQL数据库的接口。

# coding:utf-8
import requests
import re
import pymysql

3.创建循环链接

注意:淘宝评论有一个单独的隐藏页面,并不能在商品详情页上直接获得淘宝评论。

这里给出一个简单的淘宝评论链接获取的方式(以丽水山耕旗舰店下的萝卜泡菜为例):

1.经观察淘宝评论页面的链接如下形式: https://rate.tmall.com/list_detail_rate.htm? itemId=?&spuId=3459652

  • 9
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值