网络爬虫
文章平均质量分 91
网络爬虫
对许
这个作者很懒,什么都没留下…
展开
-
数据源网站汇总(持续更新)
大数据是信息化发展到一定阶段的产物。随着信息技术和人类生产生活深度融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会进步、国家治理、人民生活都产生了重大影响。数据量大是大数据具有价值的前提,数据关联是大数据实现价值的基础,计算分析使大数据最终产生价值,广泛使用使大数据可以使效益倍增。数据的来源可以是数据库,文档文件,视频图像,当然也可以来自第三方网站,这种数据需要使用爬虫获取。本文主要汇总爬虫可能需要使用到的一些数据源网站,持续补充更新。注意:以下数据源后期会分类。原创 2023-11-27 22:50:46 · 564 阅读 · 0 评论 -
反爬虫机制与反爬虫技术(二)
反爬虫机制与反爬虫技术(一)上篇中,我们详细介绍和使用了User-Agent伪装、代理IP、请求频率控制等反爬虫技术,本篇将重点针对动态页面处理和验证码识别进行介绍和案件详解近年来,网站安全性越来越高,许多网站为了避免机器人恶意攻击,采用了滑动验证码。与传统的验证码相比,滑动验证码安全性更高,更难被攻击者破解。但是,这也给爬虫程序带来了困难。Python Selenium是一款非常出色的自动化测试工具,可以用来模拟浏览器行为,可以用于爬虫。原创 2023-11-23 18:05:06 · 2835 阅读 · 0 评论 -
Python如何爬取国家统计局教育部学生数据?
数据来源:国家统计局教育部文献教育统计数据2021年全国基本情况(各级各类学历教育学生情况)本次,我们爬取2021年教育统计数据全国基本情况各级各类学历教育学生情况数据。经过分析,我们发现,数据形式为HTML,数据主要嵌入在table标签中。剪切第二行列字段,覆盖到第一行,删除第二行空行,保存。新建空白Excel,数据->从文本/CSV导入。我们看到,最新的数据是到2021年。这样,也方便另存为Excel文件。选择不检测数据类型,点击加载。原创 2023-11-03 14:55:39 · 569 阅读 · 0 评论 -
深入理解Python线程池ThreadPoolExecutor
as_completed()方法可用于一次判断所有任务执行结果,as_completed()方法是一个生成器,在没有任务完成的时候,会阻塞,在有某个任务完成的时候,会yield这个任务,先完成的任务会先通知主线程。ThreadPoolExecutor提供了两种创建线程池的方法submit()和map(),map()底层实际上调用了submit()submit()不是阻塞的,而是立即返回。map()函数会为可迭代对象的每个元素启动一个线程,以并发方式来执行任务函数,map()直接返回任务执行的可迭代结果。原创 2023-11-01 16:21:51 · 240 阅读 · 0 评论 -
Scrapy爬虫框架
Scrapy是一个基于Python的开源网络爬虫框架,用于从网页中提取数据。它提供了一套高效、灵活和可扩展的工具,可以帮助开发者快速构建和部署爬虫程序Scrapy是一个由Python语言开发的适用爬取网站数据、提取结构性数据的Web应用程序框架。主要用于数据挖掘、信息处理、数据存储和自动化测试等。通过Scrapy框架实现一个爬虫,只需要少量的代码,就能够快速的网络抓取Scrapy基于Twisted,Twisted是一个异步网络框架,主要用于提高爬虫的下载速度。原创 2023-10-09 11:23:32 · 1841 阅读 · 0 评论 -
反爬虫机制与反爬虫技术(一)
User-Agent能够通过服务器识别出用户的操作系统及版本、CPU类型、浏览器类型及版本等。一些网站会设置User-Agent白名单,只有在白名单范围内的请求才可以正常访问。因此,在我们爬虫时,需要设置User-Agent伪装成一个浏览器HTTP请求,通过修改User-Agent,可以模拟不同的浏览器或设备发送请求,从而绕过一些简单的反爬虫机制原创 2023-10-06 17:59:48 · 2645 阅读 · 0 评论 -
Python网络爬虫基本库
网络爬虫(Web Crawler)是一种自动化程序,用于从互联网上采集信息。它通过自动访问网页并提取所需的数据,实现对大量网页的快速检索和数据抓取网络爬虫通常使用HTTP协议来访问网页,并通过解析HTML、XML等网页内容来提取数据。爬虫可以从一个起始点(如某个特定网页)开始,然后根据链接关系自动地遍历和抓取其他相关网页。原创 2023-08-21 20:54:13 · 1739 阅读 · 1 评论