1.项目基本信息
目标: 获取淘宝搜索页面的信息,提取其中的商品名称和价格
理解: 淘宝的搜索接口、翻页的处理
URL样式:
2.程序的结构设计
步骤1:提交商品搜索请求,循环获取页面
步骤2:对于每个页面,提取商品名称和价格信息
步骤3:将信息输出到屏幕上
3.Cookie内容的获取
由于淘宝的反爬机制,需要修改请求头,添加Cookie信息
运行结果:
4.代码
import requests import re def getHTMLText(url): try: # \连接多行 cookie_content = "miid=892389301891538214;cna=hnaTFWsdyW0CAXOX