![](https://img-blog.csdnimg.cn/20190120214229986.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python网络爬虫
文章平均质量分 67
全方面解析网络爬虫基本概念,及基于python爬虫的基础知识和高级技巧。
考古学家lx(李玺)
[ 笃信仁厚 , 慎思勤勉 ] 《爬虫逆向进阶实战》作者
展开
-
淘宝:使用微博账号模拟登陆
测试图放前面:一开始我是直接使用selenium来账号密码登陆的,没想到问题挺多的。去年搞过一次,当时的检测机制还没那么复杂。如果直接使用selenium来登陆的话,会被识别出来。出现一个滑块,并且手动拖动也会报错。然后我就使用了开发者模式,发现还是一样的问题。我就接着尝试,想看看是 navigator 哪一个被检测出来了,后来试了半天没找出来 =。=醉了再然后就发现,他这个检测机制,是...原创 2019-05-23 22:09:55 · 2368 阅读 · 0 评论 -
网页自动化工具DrissionPage
DrissionPage是一款新的基于 python 的网页自动化工具。原创 2023-04-19 13:30:06 · 6024 阅读 · 2 评论 -
ctbpsp响应数据DES案例
ctbpsp网响应数据的DES解密案例。原创 2022-05-24 13:54:32 · 1233 阅读 · 11 评论 -
001:网络爬虫基础理论整合
本篇文章整合了网络爬虫的基础知识,文章内容简明易懂。适合用来复习爬虫知识或者初识爬虫的人。下面步入正题:网络爬虫又被称为网络机器人,可以代替人们自动的在互联网中进行数据信息的采集与整理。在大数据时代,数据复杂度及采集数据效率是非常重要的。所以可以使用网络爬虫对数据信息进行自动采集并整合。要学习网络爬虫,首先要认识网络爬虫,在本篇中,我来介绍一下几种典型的网络爬虫,并了解其各种常见功能。初始网...原创 2019-01-20 17:28:04 · 10135 阅读 · 8 评论 -
002:Python爬虫Urllib库全面分析
Urllib:Python中有一个功能强大,用于操作URL,并且在爬虫中经常使用的库、就是Urllib库。(在python2的时候,有Urllib库,也有Urllib2库。Python3以后把Urllib2合并到了Urllib中)合并后,模块中有很多的位置变动。我在这里先介绍一些常用的改动。Python2: import urllib2 >>>>>Python...原创 2019-01-20 21:38:28 · 8181 阅读 · 8 评论 -
003:Python正则表达式讲解及习题练习
正则表达式:正则表达式就是描述字符串排列的一套规则。通常被用来检索、替换那些符合某个模式(规则)的文本。为什么要学习正则表达式呢,因为我们在爬取数据的时候需要根据我们想要获取的内容来进行爬取,而正则表达式就具有这个基本功能。在python中,一般我们会使用re模块来实现Python正则表达式的功能。re常用函数解析:练习:import reprint(re.match("www",...原创 2019-01-20 22:33:01 · 9560 阅读 · 3 评论 -
004:Python爬虫实战 由易到难(图文解析)
相信有了前面三章的基础了解,我们对爬虫的基础知识已经有所掌握。本篇内容是从易到难给大家讲解一些常用爬虫的手写。包括图片爬虫、链接爬虫、多线程爬虫等等。京东图片爬虫实战:实现目标:将京东商城手机类的商品图片全部下载到本地。首先打开京东首页。选择我们要下载的商品分类链接。点击链接之后,我们会看到这样一个Url这就是我们要爬取的第一个页面。复制下来他的url。https://list...原创 2019-01-21 18:28:00 · 11632 阅读 · 18 评论 -
005:认识Python爬虫框架之Scrapy
本篇文章带大家认识一下网络爬虫框架Scrapy。什么是框架:在建筑学概念中,框架是一个基本概念上的结构,用于去解决或者处理复杂的问题。通俗来说也就是一个有约束性的架子。在我们计算机领域中,特指为解决一个开放性问题而设计的具有一定约束性的支撑结构。所以,Python的爬虫框架就是一些爬虫项目的半成品。比如可以将一些常见爬虫功能的实现代码部分写好,然后留下一些接口,在做不同的爬虫项目时,...原创 2019-01-22 19:46:44 · 9841 阅读 · 3 评论 -
006:开启Scrapy爬虫项目之旅
上一篇文章介绍了Scrapy框架的安装及其目录结构和常用工具命令,相信大家也有了初步的认识。本章将从实战编写来补充scrapy的基础知识Items的编写:使用Scrapy中的Item对象可以保存爬取到的数据,相当于存储爬取到数据的容器。我们可以定义自己所关注的结构化信息,然后从庞大的互联网信息体系中提取出我们关注度的结构化信息,这样可以更利于我们对数据的管理,提取之后,这些数据信息需要一个...原创 2019-01-23 22:59:09 · 6560 阅读 · 0 评论 -
007:Scrapy核心架构和高级运用
本篇内容:Scrapy核心架构和其组件的功能Scrapy的工作流Scrapy的中文输出储存介绍CrawSpider编写了一个爬虫实战来进行我们的mysql数据库操作Scrapy的核心架构如下图所示:主要组件包括了Scrapy引擎,调度器,管道,下载中间件,下载器,spider蜘蛛,爬虫中间件,实体管道(Item Pipeline)等。1、Scrapy引擎:scrapy引擎是整...原创 2019-01-24 22:44:37 · 9839 阅读 · 0 评论 -
008:Http协议详解
我觉得之前的内容跨度相对比较大,很多概念性东西对于刚入门的人来说云里雾里,本篇内容为网络协议方面做一下补充,为后面的实战再打一下基础。本篇内容:后面我们主要介绍HTTP协议的URL、HTTP请求、HTTP响应、HTPP报头以及通讯过程等。HTTP协议:HTTP 是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。HTTP 协议的主要特点可概括如下:1...原创 2019-01-26 10:51:04 · 1703 阅读 · 3 评论 -
009:博客类爬虫项目实战
爬虫项目开发的第一步,首先需要对我们想要实现的爬虫项目的功能进行定位和分析,即进行需求分析工作。项目分析:在今天的项目中,我们建立的爬虫需要实现的功能有:1、爬取博客中任意一个用户的所有博文信息。2、将博文的文章名、文章URL、文章点击数、文章评论数等信息提取出来。3、将提取出来的数据写入Mysql数据库中。可以发现,该爬虫项目额主要目的是将博客中用户所有博文的相关信息提取出来并储存到...原创 2019-01-27 21:12:54 · 8133 阅读 · 3 评论 -
010:图片类爬虫项目实战
之间我们学习了使用Urllib模块手写图片爬虫,在本章内容中,我们会以图片类爬虫为例,为大家讲解如何通过Scrapy框架实现图片爬虫项目。利用Urllib手写爬虫回顾:之前在实战的时候使用Urllib手写了爬取京东手机图片信息。在这里我来写一个简单的输入关键字爬区百度图片搜索第一页的图片。1、安装requests2、获取百度图片搜索url信息通过观察我们可以发现百度图片搜索页面的...原创 2019-02-04 15:33:49 · 5420 阅读 · 0 评论 -
011:运用Scrapy爬取腾讯招聘信息
本章内容为一篇实战项目。不做太多介绍了。直接开始项目描述:进入官网后可以看到地址既是我们需要的地址为创建Scrapy项目:在tecent_recruit文件夹下找到spiders文件夹,在此处打开cmd窗口输入命令:scrapy genspider catch_positon tencent.com创建名为“catch_positon"的爬虫文件明确爬取目标我们在pychar...原创 2019-02-08 15:47:38 · 3766 阅读 · 3 评论 -
012:pyquery介绍与实战爬取糗事百科猫眼排行
很久没更新了。最近一直在使用pyquery做一些小爬虫文件。个人感觉是值得推荐的,本篇我来介绍下pq的用法及其实战。内容主要以代码为主。PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuery 几乎完全相同,所以不用再去费心去...原创 2019-03-01 00:22:58 · 2982 阅读 · 0 评论 -
013:实战爬取三个翻译网站掌握Ajax表单提交
本篇内容由易到难,涉及到ajax-form表单数据提交及md5解密一共有三个翻译网络。我们要实现的是找到翻译的接口,打造我们自己的翻译软件。首先是爬取百度翻译:打开百度翻译,来获取我们的url我们先确定我们的url:经过尝试发现数据跟随我们的输入同步更新这个搜索框,是一个ajax请求的form表单我们打开network发现了如图几个(XHR)也就是Xml-HttpResp...原创 2019-03-02 14:01:31 · 5659 阅读 · 2 评论 -
014:Django反爬虫和反反爬虫实战讲解
最近一直在用django写一个个人音乐在线播放平台。其中在网页数据保护方面,我采取了很多种的反爬虫措施,所以在本篇文章中,我从源码和实际操作上给大家分析下我所使用的反爬虫及其对应的破解技巧。首先我们声明的是,爬虫和反爬虫没有高低之分,虽然总有一种方法能突破你的安全保护。爬虫就像是一个钉子,反爬则是一扇铁窗。钉子坚持不懈,总能搞破窗。但是窗户是不能只针对于一点全力打造的。从此,修修补补,一般双...原创 2019-03-07 19:39:25 · 19561 阅读 · 1 评论 -
015:Scrapy获取淘车网十七万二手车数据
本篇内容将使用scrapy框架爬取淘车网所有二手车信息。我拿下了17W+数据,放入mongodb中。源码+数据链接:https://github.com/lixi5338619/taochewang_scrapy下面开始讲解下如何爬取我们想要的数据:明确爬取目标:首先,进入官网:https://www.taoche.com/进入官网发现,我们要获取的数据量是很大的,不仅要拿到所以的城...原创 2019-03-14 18:14:02 · 14796 阅读 · 0 评论 -
016:Scrapy使用中必须得会的问题
Scrapy 的优缺点?(1)优点:scrapy 是异步的采取可读性更强的 xpath 代替正则强大的统计和 log 系统,同时在不同的 url 上爬行支持 shell 方式,方便独立调试写 middleware,方便写一些统一的过滤器,通过管道的方式存入数据库(2)缺点:基于 python 的爬虫框架,扩展性比较差基于 twisted 框架,运行中的 exception 是不会干掉 re...原创 2019-04-24 15:44:20 · 995 阅读 · 0 评论 -
017:Opencv+Selenium模拟QQ邮箱滑块操作
本篇则是用opencv+selenium来对QQ邮箱的滑块进行模拟测试原创 2019-05-01 15:11:58 · 2687 阅读 · 12 评论 -
018:websocket实时动态数据爬取
我们先看一下斗鱼直播的弹幕:大家可以发现右下角在一直不断变化。轮询和WebSocket:Web 领域中,用于实现数据’实时’更新的手段有轮询和 WebSocket 这两种。轮询指的是客户端按照一定时间间隔(如 1 秒)访问服务端接口,从而达到 ‘实时’ 的效果,虽然看起来数据像是实时更新的,但实际上它有一定的时间间隔,并不是真正的实时更新。轮询通常采用 拉 模式,由客户端主动从服务端拉取...原创 2019-05-02 13:55:40 · 3851 阅读 · 5 评论 -
019:Selenium操作Boss直聘进行一键职位投递
这里不是打广告,好的招聘平台有很多,Boss直聘是一个。虽然Boss直聘上面可以跟 HR 直接沟通很实用,但是投递职位非常麻烦,需要一个一个的手动去点击,大多数沟通了还没有反应。所以我今天就用 Selenium + Python 写了一个自动沟通的脚本。写的时候发现,Boss直聘上面反 Selenium 措施也是很到位的。下面我就介绍下代码实现的具体步骤吧。首先模拟登陆:Boss直聘官...原创 2019-05-04 23:22:18 · 11554 阅读 · 19 评论 -
百科人物爬虫-属性解析
百科中的人物属性下还有各行业的人物标签,其对应的描述信息也是不同的,所以在做解析前需要提取出通用的字段。原创 2021-12-31 18:00:57 · 3709 阅读 · 9 评论 -
researchGate爬虫案例
ResearchGate是科研社交网站,有很多的认证专家和学术爱好者。本案例采集researchGate 的作者信息。先抓包,有时候会有三次请求,有时一次即可。第一次返回429,response有一段script。复制到控制台上输出可以看出是第二次发请求 ClientValidation.ajax.html ,验证浏览器第二次验证后 success = true时,开始第三次请求base页面,获取数据。经过对请求头的分析,在三次请求时不断的set-cookie,一次请求成功时cook原创 2021-02-01 18:15:25 · 2286 阅读 · 4 评论 -
capesandbox模拟登录案例
案例: https://www.capesandbox.com/ 模拟登录获取cookie。Post请求中有 login、password、以及csrfmiddlewaretokenlogin和password是明文的账号密码。csrfmiddlewaretoken 一般是为了解决csrf跨域攻击的随机值,保存在用户的页面上,每次请求都带着这个值过来完成校验。所以完成登录需要先获取csrfmiddlewaretoken。那么在控制台搜索一番后,并未找到本地的生成方法,说明该值是由服务端返回的。原创 2021-06-07 12:32:36 · 893 阅读 · 4 评论 -
抖音综合榜单数据爬虫案例
偶然在抖音创作平台中看到了一系列的排行榜,如热搜榜、热门视频榜、娱乐明星榜、音乐榜等等。网页链接: https://creator.douyin.com/billboard/home 登陆后可见数据榜单接口接口名类型链接热搜榜单Gethttps://creator.douyin.com/aweme/v1/creator/data/billboard/?billboard_type=1热点上升榜Gethttps://creator.douyin.com/aweme原创 2020-07-02 14:03:51 · 9905 阅读 · 20 评论 -
selenium-携程酒店评论
最近好像对这方面需求比较高,总有人问我爬过携程没,我寻思着拿selenium也没太大难度吧,晚上就做了个demo。这里做的是携程上面天津市酒店的所有评论信息demo,你要问我为啥不拿信息价格类型标签之类的,毕竟是demo嘛,评论跟那些数据在同一页面的,有需要可以自己花点时间改一下。我提的数据直接界面上copy xpath的,只拿了用户的id和他的评论。下面是测试图,这次放上面。那就先说下用...原创 2019-05-21 22:32:24 · 2407 阅读 · 2 评论 -
斗鱼password加密参数调试生成案例
斗鱼登陆输入账号密码,拖动滑块后会向登陆接口发起请求。通过抓包发现请求体 Formdata 中的 password 进行了加密。本案例演示如何通过控制台调试找到加密js方法。最后使用python来模拟生成,文末附有代码。斗鱼password加密参数js调试案例1.确定接口2.断点调试3.模拟生成4.Python调用1.确定接口2.断点调试点击控制台的 initiator ,可查看当前的请求是哪一行触发。然后点send,进入js文件点击左下角 {} ,格式化文件然后点击左侧行数,原创 2020-09-02 18:14:29 · 3068 阅读 · 5 评论 -
搜狐网模拟登录案例
需求:通过协议模拟登录搜狐网网址:https://www.sohu.com/打开登录框,抓包找接口,发现POST接口 https://v4.passport.sohu.com/i/login/116005userid是输入的邮箱password是加密后的密码没有找到调用对象,那么ctrl+F 全局搜索password大致看了一下,找到passport.js 进行断点调试发现,该位置就是password的加密方法点击跳转到 utils.md5()方法中,把这一段js复制出来复原创 2020-11-10 17:49:03 · 2176 阅读 · 18 评论 -
58同城协议登录案例
节日快乐!先打个卡,过两天把内容补上!原创 2020-10-24 07:18:50 · 5492 阅读 · 0 评论 -
万方protobuf协议请求案例
收到 Issues , 库中的代码不能使用了,看起来是接口的协议更新后使用了protobuf。原创 2021-04-14 15:55:13 · 4370 阅读 · 12 评论 -
ISO-8859-1处理案例
本文主要分享的内容是对光明网 ISO-8859-1 编码的处理方式。原创 2022-01-29 12:44:22 · 2104 阅读 · 1 评论