动态网页
与静态网页的区别
1.无法从HTML源码中直接获取页面元素
2.前端页面与后台数据库联动,动态更新
3.网页内容可能由JavaScript动态生成
4.可能应用了AJAX技术和动态HTML技术
查找爬取内容所在连接
方法一:
1.在页面中点击鼠标右键,选择检查,打开开发者工具
2.在开发者工具中,点击网络,进行所需要内容的搜索,查看表头,获取请求头等相关信息
爬取内容
import pandas as pd
import requests
import json
#请求网页
url='https://www.ptpress.com.cn/masterpiece/getMasterpieceListForPortal'
rq = requests.get(url)
#解析网页
# rq.text
# '{"data":[{"picPath":"https://cdn.ptpress.cn/uploadimg/Material/978-7-115-52057-9/72jpg/52057_s300.jpg","bookName":"科技改变中国丛书(2019年主题出版重点项目)","seq":1,"bookId":"140c53af-0fa9-4d80-ba79-a768169c9382"},{"picPath":"https://cdn.ptpress.cn/uploadimg/Material/978-7-115-44355-7/72jpg/44355_s300.jpg","bookName":"文明之光(中华优秀出版物奖图书奖)","seq":2,"bookId":"f7d8608d-fad6-4b50-8d7e-07e4e2e0ca0d"},{"picPath":"https://cdn.ptpress.cn/uploadimg/Material/978-7-115-51316-8/72jpg/51316_s300.jpg","bookName":"奇妙量子世界(2019年度“中国好书”)","seq":3,"bookId":"99e8d193-00c6-42fc-b8e7-4207f0ebb432"},{"picPath":"https://cdn.ptpress.cn/uploadimg/Material/978-7-115-26039-0/72jpg/26039_s300.jpg","bookName":"科学家带你去探险丛书(国家科技进步二等奖)","seq":4,"bookId":"31f74ba4-9afe-4fac-b95f-cba02744d61f"},{"picPath":"https://c