![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
It's possible
未来可期,人生值得!
展开
-
selenium模拟登陆
selenium和爬虫之间的关联在爬虫程序中可以使用selenium模拟浏览器登录来爬取数据优点:非常便捷的捕获到任意形式动态加载出来的数据,可见即可得缺点:爬取数据的效率低使用selenium爬取药监总局的数据from lxml import etreeimport timebro = webdriver.Chrome()url = 'http://125.35.6.84:81/xk/'bro.get(url)#爬取药监总局中前三页的数据time.sleep(2)#获取当前浏览器原创 2020-05-18 23:23:28 · 408 阅读 · 0 评论 -
python爬虫模拟登陆
使用python爬虫爬取网络数据时,某些页面需要登录成功之后才能访问,需要携带账号、密码以及验证码发起请求,以古诗文网为例进行爬取,验证码使用打码平台超级鹰进行识别。验证码识别线上的打码平台进行验证码识别云打码:http://www.yundama.com/about.html超级鹰(使用):http://www.chaojiying.com/about.html打码兔超级鹰注册:身份【用户中心】登录:身份【用户中心】创建一个软件:软件ID-》生成一个软件ID(899370)下载示例代码原创 2020-05-18 16:30:27 · 362 阅读 · 0 评论 -
python爬虫中的IP代理的使用
概念:代理服务器代理服务器的作用fiddler就是一个典型的代理服务器的抓包工具。代理服务器就是用来转发请求和响应。可以让代理服务器转发请求从而更换请求的原始ip地址。代理和爬虫之间的关联?爬虫程序可能会在短时间内对指定的服务器发起高频的请求。服务器端会将该高频请求的ip禁掉。代理的匿名度透明:对方服务器知道你使用了代理也知道你的真实ip匿名:知道你使用了代理,但是不知道你的真是ip高匿:不知道你使用了代理,更不知道你的真是ip代理的类型http:只能代理http协议的请求https原创 2020-05-18 16:12:23 · 281 阅读 · 0 评论 -
使用bs4和xpath做网页解析
在目录中新建一个示例文件,命名为python.html<html lang="en"><head><meta charset="utf-8"/><title>测试bs4</title></head><body><div><p>百里守约</p></div&g...原创 2020-04-20 11:43:53 · 319 阅读 · 0 评论 -
Scrapy的下载安装与简单使用
一.什么是Scrapy?Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。二.安装Linux: pip3 install scrapyWindows: a. pip...原创 2020-04-16 16:59:28 · 1476 阅读 · 0 评论 -
python爬虫——cookie校验
python爬虫反爬机制之一——cookie校验,创建session对象并将发送请求产生的cookie储存其中,携带cookie进行访问,即可获得正确数据,本文以雪球网为例进行演示。原创 2020-04-06 14:59:21 · 638 阅读 · 0 评论