爬虫
XIAOTWOB
在世界面前,堂堂正正的站立;
永远永远不再畏惧,即使在寒冷的街头
展开
-
爬取百度贴吧
#这里调用的是requests模块import requestsclass TiebaSpider(): #定义一个TiebaSpider类 def __init__(self,tieba_name): #定义贴吧名字 self.tieba_name=tieba_name #组合得到要爬取的url self.url_temp...原创 2019-08-22 13:09:20 · 253 阅读 · 0 评论 -
爬虫相关基础知识
摘自《Python3网络爬虫开发实战》 崔庆才著08-271、cookie和session都用来保存状态信息,都是保存客户端状态的机制,他们都是为了解决HTTP无状态的问题所做的努力。对于爬虫开发来说,我们更关注的是cookie,因为cookie将状态保存在客户端,session将状态保存在服务器端。cookie是服务器在本地机器上存储的小段文本并随没一个请求发送至同一个服务器。网络服务器用...原创 2019-08-27 16:05:10 · 281 阅读 · 0 评论 -
requests库
response = requests.get(url) 得到的是响应类型response.text 得到的是字符串类型response.json()与json.loads(response.text)得到的结果是一样的,都是字典类型响应类型可以直接调用json()跟loads调用response.text类型的效果是一样的,但是两者的参数不同获取二进制数据response = requ...原创 2019-08-28 15:12:32 · 237 阅读 · 0 评论 -
正则表达式
re.match从字符串的开始位置进行匹配,起始位置不匹配则停止最常规的匹配re.match(正则表达式字符串,待匹配对象,匹配模式)import recontent='hello 123 4567 world'result=re.match('^hello\s\d{3}\s\d{4}\sworld$',content)print(result)print(type(result)...原创 2019-08-28 17:50:05 · 136 阅读 · 0 评论 -
Selenium的基本使用
Selenium(对位于elements的源码进行操作)自动化测试工具,支持多种浏览器爬虫中主要用来解决JavaScript渲染的问题安装 pip3 install selenium基本使用声明浏览器对象from selenium import webdriver实例化浏览器对象browser = webdriver.Firefox()browser = webdriver.Ch...原创 2019-08-29 10:52:14 · 156 阅读 · 0 评论 -
css 选择器
https://www.runoob.com/cssref/css-selectors.htmlcss选择器用于选择你想要的元素的样式的模式。.intro:选择所有class='intro'的元素#firstname:选择所有id=‘firstname’的元素*:选择所有元素p:选择所有<p>元素div,p:选择所有<div>元素和<p>元素div...原创 2019-08-31 21:20:51 · 272 阅读 · 0 评论 -
关于Selenium的延时等待
在Selenium中,get()方法会在网页框架加载结束后结束执行。此时如果获得网页源代码,可能并不是浏览器完全加载完成的页面,如果某些页面有额外的Ajax请求,我们在网页源代码中也不一定能成功获取到。所以需要延时等待一定的时间,确保节点已经完全加载出来。这里的等待方式有两种,一种是隐式等待,一种是显式等待。隐式等待当使用隐式等待执行测试的时候,如果Selenium没有在DOM中找到节点将继...原创 2019-09-01 11:18:34 · 931 阅读 · 0 评论 -
验证码的识别
利用OCR技术识别图形验证码的方法OCR,即Optical Character Recognition,光学字符识别是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则字符,这些字符确实是由字符稍加扭曲变换得到的内容。tesserocr是Python的一个ocr识别库,但其实是对tesseract做的一层python API封装,所以它的核心是tes...原创 2019-09-01 21:40:00 · 183 阅读 · 0 评论