淘宝商品比价定向爬虫
内容是根据中国大学嵩天老师的python网络爬虫与信息提取进行的
视频课件中的方法失效了,在其基础上改了一点点。
加入了带header的请求,来模拟浏览器,骗过服务器,获取和浏览器一致的内容
功能描述:
目的:获取淘宝搜索页面信息,提取其中的商品名称和价格
理解:淘宝搜索接口,翻页处理
技术路线: requests-re
查看淘宝robots.txt,有协议。。。但还是可以爬= =。。
程序的结构设计
步骤1:提交商品搜索请求,循环获取页面
步骤2:对于每个页面,提取商品名称和价格信息
步骤3:将信息输出到屏幕上
右键查看网页源代码,寻找到货品名称和价格
F12,进入开发者工具,点击网络。
有很多网站为了防止爬虫程序爬网站造成网站瘫痪,所以我们的程序在模拟浏览器访问这些网站时,需要携带一些headers头部信息才能访问,最常见的有User-Agent,referer、cookie等参数。
代码
# 2.py
import re
import requests
def getHTMLText(url, header):
try:
r = requests.get(url, headers=header, timeout=30)
r.raise_for_status()