python爬虫入门实战(四)！爬取动态加载的页面！

最新推荐文章于 2024-08-23 12:39:49 发布

「已注销」

最新推荐文章于 2024-08-23 12:39:49 发布

阅读量6.5k

点赞数 8

分类专栏： python 文章标签： python python爬虫爬虫 python3

本文链接：https://blog.csdn.net/weixin_45686592/article/details/103011248

版权

本文分享了如何使用Python爬虫处理动态加载的网页，以cocos论坛为例，介绍了分析网页、发送GET请求获取JSON数据以及解析JSON内容的方法。通过模拟浏览器行为，利用requests库抓取动态内容，并用多线程和CSV存储结果。

摘要由CSDN通过智能技术生成

有些网页是动态加载的，那么怎么处理呢？

今天的主题是爬取动态网页的经验分享，以cocos论坛为例子进行分享。(官方不会打我吧 )

配置环境

为什么选择cocos论坛呢？因为自己在浏览论坛时，发现标题内容会随着滚动条的位置而动态添加。

在这里插入图片描述

环境: python3 + requests 。还要引入几个系统库。参考如下：

import requests
import json
import csv
from multiprocessing.dummy import Pool

分析网页

以chrome浏览器为例，空白处右键->检查进入网页分析模式，选择 Network 中的XHR，滚动条往下滚，观察右侧加载了什么文件。

在这里插入图片描述

在网页分享模式下，点击刚才下载的文件，查看里面的内容，发现对一个地址使用了GET方法，并传入了页码的参数。

在这里插入图片描述

再看看返回的内容是一个json字符串。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

「已注销」

关注关注

8
点赞
踩
51

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

实习僧数据爬取-爬虫入门实战（完整版）

11-24

在本实践教程中，我们将深入探讨“实习僧数据爬取”的主题，这是一次使用Python进行网络爬虫的入门实战。实习僧是一个知名的求职平台，它提供了大量的实习岗位信息，对于学习如何爬取和分析互联网数据是绝佳的案例。...

Python轻松实现动态网页爬虫(附详细源码)！

热门推荐

爬遍所有网站

05-22

1万+

AJAX动态加载网页一什么是动态网页 J哥一向注重理论与实践相结合，知其然也要知其所以然，才能以不变应万变。所谓的动态网页，是指跟静态网页相对的一种网页编程技术。静态网页，随着html代码的生成，页面的内容和显示效果就基本上不会发生变化了——除非你修改页面代码。而动态网页则不然，页面代码虽然没有变，但是显示的内容却是可以随着时间、环境或者数据库操作的结果而发生改变的。——来源百度百科动态网页具有减少工作量、内容更新快、可完成功能多等特点，被很...

1 条评论您还未登录，请先登录后发表或查看评论

Python爬虫之动态网页抓取（万科更新时间）

bring_coco的博客

04-28

1万+

爬取的页面分为静态页面和动态页面，静态的页面爬取很常见，就如豆瓣top250的爬取，展示的内容都在HTML源代码中。而动态页面，很多内容不会出现在HTML源代码中，例如使用JavaScript时，很可能出现这种情况。豆瓣Top250页面标题https://movie.douban.com/top250?F12—>检查（选择触不可及），可以看到源码定位到触不可及标题这里。在右键打开源码。

Python爬取动态网页技术解析

sinat_30844883的博客

08-23

1510

动态网页中数据需要通过逆向分析的思路，借助浏览器中的开发者模式，定位目标数据所在的资源，并确定目标数据所在的URL。

Python爬虫基础（三）：使用Selenium动态加载网页

秃了也弱了

09-14

3225

（1）Selenium是一个用于Web应用程序测试的工具。（2）Selenium 测试直接运行在浏览器中，就像真正的用户在操作一样。（3）支持通过各种driver（FirfoxDriver，IternetExplorerDriver，OperaDriver，ChromeDriver）驱动真实浏览器完成测试。（4）selenium也是支持无界面浏览器操作的。模拟浏览器功能，自动执行网页中的js代码，实现动态加载（1）是一个无界面的浏览器（2）支持页面元素查找，js的执行等。

如何使用 Python 爬虫抓取动态网页数据

weixin_51151534的博客

04-23

6625

本文介绍了如何使用 Python 爬虫抓取动态网页数据，包括分析动态网页、模拟用户行为、使用 Selenium 等技术。通过本文的介绍，读者可以了解到如何使用 Python 爬虫来获取动态网页中的数据，并可以在实际应用中灵活运用这些技术。

Web Scraper 翻页——抓取「滚动加载」类型网页（Web Scraper 高级用法）| 简易数据分析 10

Bingo

07-07

2759

这是简易数据分析系列的第 10 篇文章。友情提示：这一篇文章的内容较多，信息量比较大，希望大家学习的时候多看几遍。我们在刷朋友圈刷微博的时候，总会强调一个『刷』字，因为看动态的时候，当把内容拉到屏幕末尾的时候，APP 就会自动加载下一页的数据，从体验上来看，数据会源源不断的加载出来，永远没有尽头。我们今天就是要讲讲，如何利用 Web Scraper 抓取滚动到底翻页的网页。今天我们的练手网站是知乎数据分析模块的精华帖，网址为： https://www.zhihu.com/topic/1

一个月入门Python爬虫学习,轻松爬取大规模数据

09-20

本文将详细介绍如何在一个月内快速入门Python爬虫，并能轻松爬取大规模数据。 #### 一、Python爬虫为何如此受欢迎？ 1. **丰富的资源**：Python作为一种流行的编程语言，拥有大量的第三方库支持，使得爬虫开发变得...

python爬虫入门实战案例教程-入门到精通（收藏版）

07-09

教程中会提供一系列实战案例，从简单的静态网页抓取，到动态加载内容的抓取，再到处理登录和cookie的网站，让你从实践中掌握爬虫技术。通过以上知识点的学习和实践，你可以从一个Python爬虫新手逐渐成长为精通爬虫...

Python爬虫开发：从入门到实战(微课版).pptx

06-12

《Python爬虫开发：从入门到实战》是一本详尽介绍Python爬虫技术的书籍，适合初学者和有一定编程基础的读者。通过本书，读者将系统地学习爬虫开发的各个方面，从基础知识到实战技巧。首先，书中涵盖了Python的基础...

Python爬虫进阶——爬取数据js动态加载的网页

zhiyan6415的博客

04-29

1万+

上一篇章，讲解了python简单爬取网页静态数据的方法。今天，来讲讲如何用python爬去数据用js动态加载的网页。所用到的库selenium以及与它搭配的webdriver，用来打开浏览器，从网页中读取数据的过程，这样才能找到数据。代码如下： from selenium import webdriver import time import xlwt import datetime '''get the url of the aim''' url = 'https://m.dewu.com/rout

Python爬虫自学笔记（三）动态网页爬取

qq_41597915的博客

09-13

1万+

现在很多网站用的是动态网页加载技术，这时候用前面的request库和BS4库就不能解决问题了，需要用新的办法。打开网页，按F12或者右键弹出菜单里选择“检查”，右侧会打开开发者工具。这里有一排菜单，最左边的是Element，显示的是网页的源代码，如果在这里能直接找到所需要爬取的内容，就说明这是静态页面，可以用 request库和BeautifulSoup4库的工具爬取所需内容。如果这里找不到所需内容，那么就是动态页面。这时候往右面看Network菜单。 Network的功能是：记录在当前页面上

【python 爬虫】requests模块

weixin_39407597的博客

08-28

1386

requests可以模拟浏览器发起HTTP或HTTPS协议的网络请求，从而获取网页源代码

【python爬虫高级案例-动态加载页面和代理】

weixin_36723038的博客

09-01

908

【python爬虫高级案例-动态加载页面和代理】

Python爬虫 | 碰到动态页面如何爬取？处理思路分享

WANGJUNAIJIAO的博客

05-16

2900

说到爬网页，我们一般的操作是先查看源代码或者审查元素，找到信息所在节点，然后用 beautifulsoup/xpth/re 来获取数据，这是我们对付静态网页的常用手段。先来梳理一下爬取的流程：1、先引入需要的包，可以边写边引入，用到哪个包就引入哪个包 from xxx import xxx2、按F12，选择network选项，找到type为document或js或XHR的页面，把header内容取出来。3、把url也取出来，等待解析 url = xxx。

Python爬虫技术之动态渲染页面爬取：十大技巧与示例代码

qq_72290695的博客

06-27

3259

无论是使用Selenium、PhantomJS、Requests-HTML等库，还是通过解析AJAX请求或使用浏览器开发者工具，我们都能够成功地获取动态渲染页面的数据。本文将介绍Python中使用动态渲染页面爬取的十大技巧，并附上相应的代码示例，帮助你更好地应对这一挑战。通过分析这些请求和代码，可以了解网页的动态渲染方式，并编写相应的爬取代码。处理页面加载延迟：动态渲染的页面可能存在加载延迟，我们可以使用time模块的sleep函数或者设置合适的等待时间来等待页面加载完成。

Python爬取动态网站实战

白帽阿叁的博客

12-12

7685

在之前的推文中，我们介绍了如何爬取一个简单的静态网站——「[Python爬取静态网站」，但是在实际过程中，常常会遇到需要爬取动态网站数据的情况。在本文中，我们也将通过一个比较简单的案例，来介绍爬取动态网站数据的基本思路和步骤。

Python爬虫：探索动态加载页面的奥秘

hitpter的专栏

08-22

1435

在传统的网页中，页面的内容是在服务器端生成的，并在浏览器中直接显示。但是，随着JavaScript技术的发展，越来越多的网站开始采用动态加载页面的方式。动态加载页面是指页面的内容并不是在服务器端直接生成，而是通过JavaScript代码在客户端生成和加载。这种方式可以使网页更加动态和交互，但也给爬虫带来了挑战。动态加载页面在现代网站中越来越常见，传统的爬虫工具可能无法很好地处理这些页面。通过使用Selenium和Scrapy这两个强大的工具，我们可以很好地处理动态加载页面，并获取到完整的内容。

Python爬虫：抓取动态加载的网页数据

CyberLancer的博客

09-07

645

例如，如果你使用的是Chrome浏览器，就需要下载Chrome驱动程序。然后，可以使用该对象的各种方法和属性来提取需要的数据。总结起来，以上就是使用Python编写爬虫代码来抓取动态加载的网页数据的方法。通过结合Selenium和BeautifulSoup库，我们可以轻松地解决这个问题，并提取需要的数据。需要注意的是，由于Selenium模拟了浏览器的行为，实际上会打开一个浏览器窗口。在上面的代码中，我们首先创建了一个Chrome浏览器的选项对象，设置了无界面模式运行浏览器。最后，我们打印出提取到的数据。

python 怎么爬取滚动加载的页面内容