python爬虫-淘宝商品比价定向爬虫

该博客介绍了如何使用Python进行淘宝商品比价定向爬虫,通过requests库模拟浏览器请求,避开反爬策略,提取搜索页面的商品名称和价格。程序结构包括提交搜索请求、解析页面信息和输出结果。遵循requests-re技术路线,尽管robots.txt有协议限制,但仍可实现爬取。
摘要由CSDN通过智能技术生成

淘宝商品比价定向爬虫

内容是根据中国大学嵩天老师的python网络爬虫与信息提取进行的
视频课件中的方法失效了,在其基础上改了一点点。

加入了带header的请求,来模拟浏览器,骗过服务器,获取和浏览器一致的内容

功能描述:

目的:获取淘宝搜索页面信息,提取其中的商品名称和价格
理解:淘宝搜索接口,翻页处理
技术路线: requests-re
查看淘宝robots.txt,有协议。。。但还是可以爬= =。。在这里插入图片描述

程序的结构设计

步骤1:提交商品搜索请求,循环获取页面
步骤2:对于每个页面,提取商品名称和价格信息
步骤3:将信息输出到屏幕上
右键查看网页源代码,寻找到货品名称和价格

在这里插入图片描述
F12,进入开发者工具,点击网络。
在这里插入图片描述
有很多网站为了防止爬虫程序爬网站造成网站瘫痪,所以我们的程序在模拟浏览器访问这些网站时,需要携带一些headers头部信息才能访问,最常见的有User-Agent,referer、cookie等参数。
代码

# 2.py
import re
import requests

def getHTMLText(url, header):    
    try:
        r = requests.get(url, headers=header, timeout=30)
        r.raise_for_status()
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值