关于ajax动态网址url的python翻页爬取

url重新拼接,利用分析翻页后网址的XHR来取得翻页后网址的绝对url,整个过程可以参考本文:
https://blog.csdn.net/Urbanears/article/details/79204684

其中的参数部分可以参考本文:
https://blog.csdn.net/weixin_44077128/article/details/103747616

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
爬取汽车之家动态数据可以使用以下步骤: 1. 打开汽车之家动态页面(https://www.autohome.com.cn/news/),使用Chrome等浏览器开启开发者工具,切换到Network标签页,然后点击页面上的“更多”按钮,观察Network面板的请求。 2. 可以看到一个名为“https://www.autohome.com.cn/News/GetNewsListWithSubThids” 的Ajax请求,它返回了一页动态数据。 3. 使用requests库模拟这个请求,可以得到返回的json数据。 4. 对json数据进行解析,提取需要的信息。 下面是一个示例代码: ```python import requests import json url = 'https://www.autohome.com.cn/News/GetNewsListWithSubThids' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36' } params = { 'pageindex': 1, 'pagesize': 20, 'dataname': 'news', 'topimgnews': 1, 'order': '1|0', 'lastid': 0 } response = requests.get(url, params=params, headers=headers) if response.status_code == 200: data = json.loads(response.text) # 解析返回的json数据,提取需要的信息 news_list = data['result']['list'] for news in news_list: title = news['title'] pub_time = news['time'] content = news['summary'] # ... else: print(f'Request failed with status code {response.status_code}') ``` 需要注意的是,由于汽车之家的反爬虫策略比较严格,可能需要在请求添加一些反反爬虫的措施,如设置请求头信息、使用代理等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值