目标网页:
游戏列表页
游戏详情页
游戏评论
目标数据:
列表页:游戏标题,游戏价格,折扣,评论总数,好评比例,游戏发布时间
详情页:游戏图片,游戏简介,游戏评论
首先创建一个scrapy项目
根据规律构造列表页的请求地址
分析标签,抓取数据
标题↑,价格↓
列表页解析函数
测试打印第一条数据
然后开始构建详情页请求(这里一定要加accept-language这个请求头,不然会返回英文页面)
详情页的解析函数
测试打印数据
接下来获取游戏评论
游戏评论没有和主页面一起加载,通过分析网络请求,发现了评论的请求地址
此地址需要传入参数,经过测试,至少需要这几个参数
里面的730为游戏id,可以通过正则从详情页地址中获取,后面两个参数设置为筛选中文评论
继续刚才的代码↓
发起评论页请求
回调到评论的解析函数