python爬虫-淘宝商品比价定向爬虫

最新推荐文章于 2024-08-09 10:04:21 发布

有槑有

最新推荐文章于 2024-08-09 10:04:21 发布

阅读量2k

点赞数

本文链接：https://blog.csdn.net/weixin_44423372/article/details/102876292

版权

该博客介绍了如何使用Python进行淘宝商品比价定向爬虫，通过requests库模拟浏览器请求，避开反爬策略，提取搜索页面的商品名称和价格。程序结构包括提交搜索请求、解析页面信息和输出结果。遵循requests-re技术路线，尽管robots.txt有协议限制，但仍可实现爬取。

摘要由CSDN通过智能技术生成

淘宝商品比价定向爬虫

内容是根据中国大学嵩天老师的python网络爬虫与信息提取进行的
视频课件中的方法失效了，在其基础上改了一点点。
加入了带header的请求，来模拟浏览器，骗过服务器，获取和浏览器一致的内容

功能描述：

目的：获取淘宝搜索页面信息，提取其中的商品名称和价格

理解：淘宝搜索接口，翻页处理

技术路线： requests-re

查看淘宝robots.txt，有协议。。。但还是可以爬= =。。

程序的结构设计

步骤1：提交商品搜索请求，循环获取页面

步骤2：对于每个页面，提取商品名称和价格信息

步骤3：将信息输出到屏幕上

右键查看网页源代码，寻找到货品名称和价格

在这里插入图片描述
F12，进入开发者工具，点击网络。

有很多网站为了防止爬虫程序爬网站造成网站瘫痪，所以我们的程序在模拟浏览器访问这些网站时，需要携带一些headers头部信息才能访问，最常见的有User-Agent，referer、cookie等参数。
代码

# 2.py
import re
import requests

def getHTMLText(url, header):    
    try:
        r = requests.get(url, headers=header, timeout=30)
        r.raise_for_status()

最低0.47元/天解锁文章

有槑有

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫