Python爬虫
睿里睿气
全栈工程师
展开
-
Python爬虫连载17-ItemPipeLine、中间件
一、ItemPipeLine1.爬虫提取出的数据存入item之后,item中保存的数据需要进一步处理,比如:清洗,去重,存储等2.pipeline需要process_item函数(1)process_item:spider提出来的item作为参数出入,同时传入的还有spider;此方法是必须要实现的;必须返回一个item对象,被丢弃的item不会被之后的pipeline处理(2)init:...原创 2020-03-26 00:01:18 · 163 阅读 · 0 评论 -
Python爬虫连载16-OCR工具Tesseract、Scrapt初步
一、验证码破解1.(上承连载15)极验(1)官网:http://www.geetest.com破解比较麻烦、可以模拟鼠标移动、一直在进化二、Tesseract1.机器视觉领域的基础软件2.OCR:OpticalCharacterRecognition3.Tesseract:一个OCR库,有谷歌资助安装:https://blog.csdn.net/showgea/article/de...原创 2020-03-22 14:27:38 · 255 阅读 · 0 评论 -
Python爬虫连载14-动态HTML、PhantomJS和Chromedriver
一、动态HTML1.爬虫跟反爬虫2.动态HTML连载(1)JavaScript(2)jQuery(3)Ajax(4)DHTML(5)Python采集动态数据从JavaScript代码入手采集;Python第三方库运行JavaScript,直接采集你在浏览器中看到的页面二、Selenium + PhantomJS1.Selenium:web自动化测试工具(1)自动加载页面;(2...原创 2020-03-14 00:18:52 · 225 阅读 · 0 评论 -
Python爬虫连载13-BeatuifulSoup四大对象、遍历文档对象、CSS选择器
一、BeautifulSoup四大对象1.Tag(1)对应的就是Html中的标签;(2)可以通过soup,tag_name(3)tag里面有两种重要的属性name:用于打印标签的名字attrs:用于打印属性(返回一个字典)contents:打印内容(返回一个列表)from bs4 import BeautifulSoupfrom urllib import requestur...原创 2020-03-10 00:08:28 · 324 阅读 · 0 评论 -
Python爬虫连载12-爬虫正则表示式、BeautifulSoup初步
一、正则常用的方法1.match:从开始位置开始查找,一次匹配2.search:从任何位置查找,一次匹配3.findall:全部匹配,返回列表4.finditer:全部匹配,返回迭代器5.split:分割字符串,返回列表6.sub:替换7.匹配中文中文unicode编码[u4e00-u9fa5]8.贪婪算法和非贪婪算法贪婪模式:在整个表达式匹配成功的前提下,尽可能的多的匹配非...原创 2020-03-06 00:17:51 · 129 阅读 · 0 评论 -
Python爬虫连载11-cookie、session、验证SSL证书、数据提取简介
一、cookie1.requests可以自动处理cookie信息import requestsrsp = requests.get("http://www.baidu.com")#如果对方服务器给传送过来cookie信息,则可以同通过反馈的cookie属性得到#返回一个cookiejar的实例cookiejar = rsp.cookiesprint(cookiejar)#可以将c...原创 2020-03-01 00:02:01 · 244 阅读 · 0 评论 -
Python爬虫连载10-Requests模块、Proxy代理
一、Request模块1.HTTP for Humans,更简洁更友好2.继承了urllib所有的特征3.底层使用的是urllib34.开源地址:https://github.com/requests/requests5.中文文档:https://requests.readthedocs.io/zh_CN/latest/6.先安装这个包:pip install requests7.g...原创 2020-02-26 00:11:04 · 434 阅读 · 1 评论 -
Python爬虫连载9-JS加密之“盐”、ajax请求
一、JS加密之“盐”1.salt属性“盐":多用于密码学,比如我们的银行卡是六位密码,但是实际上在银行的系统里,我们输入密码后,会给原始的密码添加若干字符,形成更加难以破解的密码。这个过程我们称为”加盐“。"""处理JS加密"""import time,randomdef getSalt(): """ salt公式:"" + ((new Date).getTime()...原创 2020-02-22 01:01:19 · 374 阅读 · 0 评论 -
Python爬虫连载8-JS加密(一)
一、JS加密1.有的反爬虫策略采用js对需要传输的数据进行加密处理。2.经过加密,传输的就是密文3.加密函数或者过程一定是在浏览器完成,也就是一定会把代码(js代码)暴露给使用者4.通多阅读加密算法,就可以模拟出加密过程,从而达到破解。5.举一个案例"""破解有道词典"""from urllib import request,parsedef youdao(key): ...原创 2020-02-18 00:21:48 · 263 阅读 · 0 评论 -
Python爬虫连载7-cookie的保存与读取、SSL讲解
一、cookie的保存与读取1.cookie的保存-FileCookie.Jarfrom urllib import request,parsefrom http import cookiejar#创建cookiejar实例filename = "cookie.txt"cookie = cookiejar.MozillaCookieJar(filename)#生成cookie的管理器...原创 2020-02-14 00:02:26 · 246 阅读 · 0 评论 -
Python爬虫连载6-cookie深入使用实例化实现自动登录
一、使用cookie登录1.直接把cookie复制下去,然后手动放到请求头2.http模块包含一些关于cookie的模块,通过他们我们可以自动使用cookie(1)cookieJar管理存储cookie,向传出的http请求添加cookie;cookie存储在内存中,CookieJar实例回收后cookie将消失;(2)FileCookieJar(filename,delayload=N...原创 2020-02-10 00:22:15 · 217 阅读 · 0 评论 -
Python爬虫连载5-Proxy、Cookie解析
一、ProxyHandler处理(代理服务器)1.使用代理IP,是爬虫的常用手段2.获取代理服务器的地址:www.xicidaili.comwww.goubanjia.com3.代理用来隐藏真实访问中,代理不允许频繁访问某一个固定网站,所以代理一定要很多很多。4.基本使用步骤:(1)设置代理地址(2)创建PoxyHandler(3)创建Opener(4)安装Opener"""...原创 2020-02-06 00:15:40 · 578 阅读 · 0 评论 -
Python爬虫连载4-Error模块、Useragent详解
一、error1.URLError产生的原因:(1)没有网络;(2)服务器连接失败;(3)不知道指定服务器;(4)是OSError的子类from urllib import request,errorif __name__ == "__main__": url = "http://www.baidu.comfdsfdfsf" try: req = reque...原创 2020-01-21 00:11:04 · 216 阅读 · 0 评论 -
Python爬虫连载3-Post解析、Request类
一、访问网络的两种方法1.get:利用参数给服务器传递信息;参数为dict,然后parse解码2.post:一般向服务器传递参数使用;post是把信息自动加密处理;如果想要使用post信息,需要使用到data参数3.Content-Type:application/x-www.form-urlencode4.Content-Length:数据长度5.简而言之,一旦更改请求方法,请注意其他...原创 2020-01-17 00:14:47 · 311 阅读 · 0 评论 -
Python爬虫连载2-reponse\parse简介
一、reponse解析urlopen的返回对象(1)geturl:返回网页地址(2)info:请求反馈对象的meta信息(3)getcode:返回的http codefrom urllib import requestimport chardet"""解析reponse"""if __name__ == "__main__": url = "https://www.b...原创 2020-01-13 00:25:33 · 216 阅读 · 0 评论 -
Python爬虫连载1-urllib.request和chardet包使用方式
一、参考资料1.《Python网络数据采集》图灵工业出版社2.《精通Python爬虫框架Scrapy》人民邮电出版社3.Scrapy官方教程4.[Python3网络爬虫](http://blog.csdn.net/c406495762/article/details/72858983二、前提知识url、http协议、web前端:html\CSS\JS、ajax、re、Xpath、xml...原创 2020-01-09 00:17:45 · 335 阅读 · 0 评论