python爬虫系列
文章平均质量分 60
爬虫基础知识,实战.
传说中的懿痕
这个作者很懒,什么都没留下…
展开
-
python 爬虫学习--DAY1-----requests模块
python 爬虫学习–DAY1-----requests模块python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。最主要的作用:模拟浏览器发送请求。文章目录python 爬虫学习--DAY1-----requests模块安装request模块推荐使用国内下载源下载,速度快requests模块爬取数据使用流程流程实例----爬取搜狗首页的页面数据一些可能出现的问题爬取某些网页,爬取结果为空安装request模块打开pycharm终端Terminal输入 pip inst原创 2021-08-07 22:55:58 · 190 阅读 · 0 评论 -
python爬虫学习--DAY2-----requests模块实战
python爬虫学习–DAY2-----requests模块实战文章目录python爬虫学习--DAY2-----requests模块实战1. 网页采集器代码2. 破解百度翻译代码UA:请求载体的身份标识UA(User-Agent)检测:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,说明该请求是一个正常请求,但是,如果检测到请求的载体标识不是某一款浏览器的,则表示该请求为不正常的请求(爬虫),则服务器很有可能拒绝该次请求UA伪装:让爬虫对应的请求载体身份标原创 2021-08-09 12:49:34 · 161 阅读 · 0 评论 -
python爬虫---DAY2-1-----数据解析(1)
python爬虫—DAY2-1-----数据解析(1)文章目录python爬虫---DAY2-1-----数据解析(1)数据解析原理概述:xpath解析环境安装xpath解析原理xpath表达式如何实例化一个etree对象案例:解析所有城市名称需求:从https://www.aqistudy.cn/historydata/中解析出所有城市名称分析:代码这里重点介绍用xpath进行数据解析如有错误,麻烦指正,万分感谢数据解析原理概述:解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储。所以原创 2021-08-09 22:22:19 · 300 阅读 · 0 评论 -
python爬虫---DAY3----xpath数据解析实战
python爬虫—DAY3----xpath数据解析实战文章目录python爬虫---DAY3----xpath数据解析实战4k图片解析爬取分析:代码三国演义爬取分析:代码4k图片解析爬取需求: 爬取 http://pic.netbian.com/4kmeinv/ 中图片数据,并保存分析:代码import requestsfrom lxml import etree# os 用来创建文件夹保存爬取的图片import osurl="https://pic.netbian.com/原创 2021-08-10 21:47:01 · 138 阅读 · 0 评论 -
python爬虫----DAY4---验证码识别--前置内容:打码平台的使用
python爬虫----DAY4—验证码识别–前置内容:打码平台的使用文章目录python爬虫----DAY4---验证码识别--前置内容:打码平台的使用识别验证码的操作人工肉眼识别(不推荐)第三方自动识别验证码是网站反爬机制的一种,识别验证码中的数据,用于模拟登录。识别验证码的操作人工肉眼识别(不推荐)爬取数据时将验证码图片爬取保存到本地,人工识别验证码信息后手动输入,实现模拟登录第三方自动识别第三方平台:超级鹰 http://www.chaojiying.com/注册:普通用户原创 2021-08-11 21:11:54 · 249 阅读 · 0 评论 -
python爬虫----DAY4-1-----验证码识别实战---识别古诗文网
python爬虫----DAY4-1-----验证码识别实战实战:识别古诗文网登录页面中的验证码 —https://so.gushiwen.cn/user/login.aspx文章目录python爬虫----DAY4-1-----验证码识别实战使用超级鹰平台识别验证码的编码流程:分析代码结果展示使用超级鹰平台识别验证码的编码流程: -将验证码图片进行本地下载 -调用平台提供的示例代码进行图片数据识别分析其他详细操作写在代码注释中代码import reque原创 2021-08-11 21:45:20 · 178 阅读 · 0 评论 -
python爬虫---DAY5----模拟登录
python爬虫—DAY5----模拟登录模拟登录:爬取基于某些用户的用户信息。需求:对古诗文网进行模拟登录分析分析登录流程,观察登录时发送的请求和请求地址(post上面为请求地址)观察请求携带的参数(底部)除了验证码外,其他参数可以固定,验证码通过打码平台识别获取编码流程1、验证码识别,获取验证码图片的文字数据2、对post请求进行发送(处理请求参数)3、对响应数据进行持久化存储补充实例化一个session对象,可以保存cookie,代替手动添加cookie代码im原创 2021-08-12 20:23:54 · 158 阅读 · 0 评论 -
python爬虫-----DAY5——代理IP
python爬虫-----DAY5——代理IP文章目录python爬虫-----DAY5——代理IP什么是代理代理操作什么是代理代理是指代理服务器,它的作用是突破自身IP访问限制,举个例子,如果服务器检测到在一个时间段内,同一个IP的访问次数过多,服务器就会将它认为是一种爬虫,从而禁掉该IP,是一种反爬措施。代理的作用就是1.可以突破自身IP访问的限制。2. 隐藏自身真实的IP。代理相关的网站:快代理 代理ip的类型: -http:只能应用到http协议对应的url原创 2021-08-12 20:40:31 · 428 阅读 · 0 评论 -
python爬虫----DAY6----selenium操作(前置知识)
python爬虫之selenium前置知识文章目录python爬虫之selenium前置知识selenium模块与爬虫之间的关系什么是selenium模块selenium的使用selenium模块与爬虫之间的关系便捷的获取网页中动态加载的数据(可见即可得)便捷的实现模拟登录什么是selenium模块基于浏览器自动化的一个模块自动化: 可以通过代码指定一系列的行为动作,然后将其作用到浏览器中selenium的使用环境安装pip install selenium -i http原创 2021-08-13 19:33:18 · 256 阅读 · 0 评论 -
python爬虫---DAY6----selenium基本操作
selenium基本操作注:如果没有安装chrome驱动,可以到这里文章目录selenium基本操作编写基于浏览器自动化的操作代码实例操作:解析药监局(http://scxk.nmpa.gov.cn:81/xk/)企业名称编写基于浏览器自动化的操作代码实例化浏览器对象bro=webdriver.Chrome(executable_path=r’C:\Users\Lenovo\PycharmProjects\pythonProject1\venv\爬虫之selenium\chromedriver.原创 2021-08-13 20:05:48 · 181 阅读 · 0 评论 -
python爬虫-----DAY6----selenium动作链和iframe的处理
selenium动作链和iframe的处理文章目录selenium动作链和iframe的处理selenium处理iframe动作链代码实例:拖动效果selenium处理iframeiframe可以简单的理解为一个嵌入在主页面中的小页面如果定位的标签存在于iframe中,则必须使用switch_to.frame(id),参数放frame的id 动作链动作链指一系列的动作,如拖动。from selenium.webdriver import AcrionChains1. 实例化一个动作链对象:原创 2021-08-13 20:48:00 · 143 阅读 · 0 评论 -
python爬虫----DAY7----selenium实战:模拟登录12306
模拟登录12306文章目录模拟登录12306编码流程代码实现编码流程12306:https://kyfw.12306.cn/otn/resources/login.html使用selenium打开登录界面对验证码图片进行截图注:直接请求验证码图片可能导致请求到的验证码与登录界面验证码不一样。所有采用截图使用超级鹰进行验证码识别如果不清楚基本基本操作,可以到这里具体操作过程写在注释中代码实现from selenium import webdriverfrom lxml import原创 2021-08-14 20:47:30 · 278 阅读 · 0 评论 -
python爬虫----DAY6----高性能异步爬虫之进程池
高性能异步爬虫之进程池高性能异步爬虫目的:实现高性能的数据爬取操作。文章目录高性能异步爬虫之进程池异步爬虫的方式普通爬虫与异步爬虫(进程池)的比较普通爬虫结果异步爬虫(线程池)结果异步爬虫的方式多线程,多进程(不建议):·好处:可以为相关阻塞的操作单独开启线程或进程,阻塞操作可以异步执行。·弊端:无法无限制的开启多线程或多进程线程池、进程池:·好处:我们可以降低系统对进程或线程创建和销毁的一个频率,从而很好的降低系统的开销·弊端:池中线程或进程的数量是有上限的普通爬虫与异步爬原创 2021-08-14 21:15:21 · 268 阅读 · 0 评论 -
python爬虫----DAY8----异步爬虫之协程
异步爬虫之协程异步编程大致流程: 1.事件循环:理解为一个死循环(去检测并执行某些代码) #伪代码 任务列表={任务1,任务2,任务3.。。。} while True: 可执行的任务列表,已完成的任务列表=去任务列表中检查所有的任务,将’可执行‘和’已完 成‘的任务返回 for 就绪任务 in 可执行的任务列表: 执行已就绪的任务原创 2021-08-16 21:13:06 · 165 阅读 · 0 评论