作者: 锋小刀
微信搜索【Python与Excel之交】关注我的公众号查看更多内容
前言
今天就教大家进行程序打包,写个简单的爬虫程序,爬取某东商品数据,并进行打包,让没有python环境的电脑也可以运行。
##分析网页
某东网址:
https://www.jd.com/
该网址是一个动态网站,我们打开开发者工具,进入Network→XHR界面,然后在搜索框输入任一商品,这样会加载出一条get请求的链接。
向下拉动网页,接着他会再次加载出一条链接,说明一个页面会更新两条链接;当点击下一页时,page会也会随之变动。
因为两条链接携带的参数不同以及后期要打包程序,所以需要适当修改,删除些不用的参数。
https://search.jd.com/s_new.php?qrst=1&suggest=1.his.0.0&stock=1&page=1&s=1
实战代码
导入模块。
import pandas as pd
import requests
from lxml import etree
import time
创建DataFrame,构建headers,伪装请求头,防止被服务器识别。
df = pd.DataFrame(