网络爬虫技术笔记——常规动态网页爬取

动态网页

与静态网页的区别

1.无法从HTML源码中直接获取页面元素

2.前端页面与后台数据库联动,动态更新

3.网页内容可能由JavaScript动态生成

4.可能应用了AJAX技术和动态HTML技术

查找爬取内容所在连接

方法一:

1.在页面中点击鼠标右键,选择检查,打开开发者工具

2.在开发者工具中,点击网络,进行所需要内容的搜索,查看表头,获取请求头等相关信息

爬取内容

import pandas as pd
import requests
import json
#请求网页
url='https://www.ptpress.com.cn/masterpiece/getMasterpieceListForPortal'
rq = requests.get(url)


#解析网页
# rq.text
# '{"data":[{"picPath":"https://cdn.ptpress.cn/uploadimg/Material/978-7-115-52057-9/72jpg/52057_s300.jpg","bookName":"科技改变中国丛书(2019年主题出版重点项目)","seq":1,"bookId":"140c53af-0fa9-4d80-ba79-a768169c9382"},{"picPath":"https://cdn.ptpress.cn/uploadimg/Material/978-7-115-44355-7/72jpg/44355_s300.jpg","bookName":"文明之光(中华优秀出版物奖图书奖)","seq":2,"bookId":"f7d8608d-fad6-4b50-8d7e-07e4e2e0ca0d"},{"picPath":"https://cdn.ptpress.cn/uploadimg/Material/978-7-115-51316-8/72jpg/51316_s300.jpg","bookName":"奇妙量子世界(2019年度“中国好书”)","seq":3,"bookId":"99e8d193-00c6-42fc-b8e7-4207f0ebb432"},{"picPath":"https://cdn.ptpress.cn/uploadimg/Material/978-7-115-26039-0/72jpg/26039_s300.jpg","bookName":"科学家带你去探险丛书(国家科技进步二等奖)","seq":4,"bookId":"31f74ba4-9afe-4fac-b95f-cba02744d61f"},{"picPath":"https://c
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值