爬虫基础知识
文章平均质量分 90
爬虫基础知识点整理
薄荷杂学
触底反弹
展开
-
爬虫-验证码-图形验证码的识别
文章目录准备工作基本识别方法进一步处理转灰度二值化处理convert('1')方法指定二值化的阈值完整代码准备工作step1:安装tesseractstep2:安装tesserocr基本识别方法#1.导包import tesserocrfrom PIL import Image#2.创建image对象,打开本地文件image = Image.open('code.jpg') #3.调用tesserocr的image_to_text()方法,传入Image对象完成识别result =原创 2021-05-10 17:38:04 · 142 阅读 · 0 评论 -
爬虫-动态渲染页面爬取-Selenium
文章目录1-Selenium介绍2-准备工作3-基本使用4-声明浏览器对象5-访问页面browser.get(url)6-查找节点7-节点交互8-动作链9-执行JavaScript—execute_script()10-获取节点信息11-切换Frame—switch_to.frame()12-延时等待12-1-隐式等待—implicitly_wait()12-2-显式等待—WebDriverWait()12-3-等待条件及其含义13-前进forward()、后退back()14-Cookies15-选项卡管原创 2021-04-29 13:54:49 · 604 阅读 · 0 评论 -
爬虫-非关系型数据库存储-Redis
目录)NoSQL介绍0.Redis数据库介绍1. 准备工作2. Redis 和 StrictRedis3. 连接 Redis4. 键操作5. 字符串操作6. 列表操作7. 集合操作8. 有序集合操作9. 散列操作10. RedisDumpredis-dumpredis-loadNoSQL介绍NoSQL,全称 Not Only SQL,意为不仅仅是 SQL,泛指非关系型数据库。NoSQL 是基于键值对的,而且不需要经过 SQL 层的解析,数据之间没有耦合性,性能非常高。非关系型数据库又可细分如下。键值原创 2021-04-25 21:19:22 · 423 阅读 · 0 评论 -
爬虫-Beautiful Soup-基本原理
文章目录1-基本介绍2-解析器3-原理介绍1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取1)节点选择器⭐常用情况小案例2)关联选择器常用情况小案例3)方法选择器⭐常用情况小案例4)层级选择器5)CSS选择器⭐常用方法小案例参考文献1-基本介绍BeautifulSoup 提供一些简单的、Python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取原创 2021-04-24 21:27:22 · 584 阅读 · 0 评论 -
爬虫-代理的基本原理
文章目录1-基本原理2-代理的作用3-爬虫代理4-代理分类4-1根据协议区分4-2根据匿名程度区分⭐5-常见代理设置我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如 403 Forbidden,这时候打开网页一看,可能会看到 “您的 IP 访问频率太高” 这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个 IP 在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息原创 2021-04-22 21:24:32 · 112 阅读 · 0 评论 -
爬虫-会话和Cookies
@TOC在浏览网站的过程中,我们经常会遇到需要登录的情况,有些页面只有登录之后才可以访问,而且登录之后可以连续访问很多次网站,但是有时候过一段时间就需要重新登录。还有一些网站,在打开浏览器时就自动登录了,而且很长时间都不会失效,这种情况又是为什么?其实这里面涉及会话(Session)和 Cookies 的相关知识。1-静态网页和动态网页在开始之前,我们需要先了解一下静态网页和动态网页的概念。1-1静态网页这里还是前面的示例代码,内容如下:<!DOCTYPE html><htm原创 2021-04-22 21:17:20 · 100 阅读 · 0 评论 -
爬虫-爬虫的基本原理
文章目录1-爬虫概述1-1发起请求,获取网页1-2解压数据,提取信息1-3保存数据1-4自动化程序2-能抓怎样的数据3-JavaScript 渲染页面参考文献1-爬虫概述简单来说,爬虫就是获取网页并提取和保存信息的自动化程序。【B站】网络爬虫与浏览器的区别:浏览器是展示数据的,而网络爬虫是采集数据的。网络爬虫的定义:模拟客户端发送请求获取响应数据,按照一定规则,自动从互联网上获取信息的程序。作用:从互联网上获取我们需要的信息1-1发起请求,获取网页爬虫首先要做的工作就是获取网页,这里就是原创 2021-04-22 21:03:01 · 132 阅读 · 0 评论 -
爬虫-HTTP基本原理与网页基础
文章目录1- HTTP基础知识1-1 URI与URL定义关系1-2 超文本1-3 HTTP 和 HTTPS1-4 HTTP 请求过程1-5 请求请求方法(Request Method)请求的网址(Request URL)请求头请求体Content-Type 和 POST 提交数据方式的关系。1-6 响应响应状态码响应头响应体2- 网页基础2-1网页的组成HTMLCSS3. JavaScript2.2.2 网页的结构2-3 节点树及节点间的关系2-4 CSS选择器⭐#id.class标签名嵌套选择并列关系其他原创 2021-04-22 20:48:52 · 167 阅读 · 0 评论 -
爬虫-Ajax 数据爬取
为什么要使用Ajax?有时候我们在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有。这是因为 requests 获取的都是原始的 HTML 文档,而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果,这些数据的来源有多种,可能是通过 ==Ajax ==加载的,可能是包含在 HTML 文档中的,也可能是经过 JavaScript 和特定算法计算后生成的。对于第一种情况,数据加载是转载 2021-04-19 10:35:14 · 141 阅读 · 0 评论 -
爬虫-关系型数据库存储-MySQL
1. 准备工作在开始之前,请确保已经安装好了 MySQL 数据库并保证它能正常运行,而且需要安装好 PyMySQL 库。$ pip3 install PyMySQL在进行python访问MySQL数据库时,程序报错:OperationalError: (2003, “Can’t connect to MySQL server on ‘localhost’ ([WinError 10061] 由于目标计算机积极拒绝,无法连接。)”)解决办法:https://blog.csdn.net/BigData原创 2021-04-18 21:02:45 · 115 阅读 · 0 评论 -
爬虫-文件存储-txt\json\csv
文章目录1-文本打开方式2-文件写入方法第一种第二种(推荐)3-TXT 文本存储基本介绍示例4-JSON文件存储-import json基本介绍读取-json.loads()字符串读取json文件保存为json文件-json.dumps()5-CSV存储-import csv写入列表形式写入同时写入多行字典形式写入-利用pandas的读取1-文本打开方式r:以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。rb:以二进制只读方式打开一个文件。文件指针将会放在文件的开头。r+:以读写方原创 2021-04-18 20:00:05 · 133 阅读 · 2 评论 -
爬虫-re正则表达式-基本用法
常用匹配规则常用方法re.match()re.findall()re.sub()re.compile()原创 2021-04-18 18:36:06 · 120 阅读 · 0 评论 -
爬虫-xpath-基本原理
前言XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索。XPath 的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过 100 个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点,都可以用 XPath 来选择。使用之前,首先要确保安装好 lxml 库pip3 install lxml⭐1.X原创 2021-04-11 17:28:38 · 645 阅读 · 0 评论