Python爬取淘宝商品失败---解决：淘宝的反爬虫机制！

爬遍天下无敌手

于 2020-08-21 22:34:07 发布

阅读量3.5k

点赞数 1

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/weixin_43881394/article/details/108159913

版权

淘宝商品比价定向爬虫

功能描述

目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格
理解：淘宝的搜索接口以及翻页的处理

程序的结构设计

提交商品搜索请求，循环获取页面
对于每个页面，提取商品名称和价格信息
将信息输出

遇到问题

爬取成功，数据有问题

打印 html 文件，返回如下

<script type="text/javascript">
  TRLang = {
    ERROR_NICK_BLANK: "请填写账户名",
    ERROR_PASSWORD_BLANK: "请输入密码",
    ERROR_NICK_PASSWORD_BLANK: "请输入账户名和密码",
    ERROR_CHECKCODE_BLANK: "请输入验证码",
    TIPS_REMEMBER_PASSWORD: "记住密码",
    TIPS_NOT_REMEMBER_PSW_ON_PUBLIC: "不要在公共计算机记住密码，防止账户被盗"
  };
</script>

觉得应该是用户并未登陆问题，应该是淘宝的反爬虫机制导致。

处理方法

登陆淘宝，打开开发者模式，例如 Chrome 右键检查
点选 NetWork，DOC，然后刷新页面，在 network 中选择 doc，在请求的 headers 中搜索 cookie
获取对应的 cookie 以及 user-agent
在代码中添加到 headers 里面

最低0.47元/天解锁文章

爬遍天下无敌手

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
Python爬取淘宝商品失败---解决：淘宝的反爬虫机制！

淘宝商品比价定向爬虫功能描述目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格理解：淘宝的搜索接口以及翻页的处理程序的结构设计提交商品搜索请求，循环获取页面对于每个页面，提取商品名称和价格信息将信息输出遇到问题爬取成功，数据有问题打印 html 文件，返回如下<script type="text/javascript"> TRLang = { ERROR_NICK_BLANK: "请填写账户名", ERROR_PASSWORD_B
复制链接

扫一扫

专栏目录