自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

怕怕小虫子的博客

记录学习爬虫和数据分析的专用博客。

原创 Tesseract的安装和使用

实现OCR的库不是很多，特别是开源的。因为这块存在⼀定的技术壁垒（需要⼤量的数据、算法、机器学习、深度学习知识等），并且如果做好了具有很⾼的商业价值。这⾥介绍⼀个⽐较优秀的图像识别开源库：Tesseract。定义:Tesseract是⼀个将图像翻译成⽂字的OCR(光学⽂字识别,OpticalCharacter Recognition),⽬前由⾕歌赞助。Tesseract具有很⾼的识别度，也具有很⾼的灵活性，他可以通过训练识别任何字体。还有⼀个环境变量需要设置的是，要把训练的数据⽂件路径也放到环境变量中。

2023-04-16 15:42:19 2048

原创 selenium库行为链、页面等待以及打开多窗口和切换页面

现在的⽹⻚越来越多采⽤了 Ajax 技术，这样程序便不能确定何时某个元素完全加载出来了。如果实际⻚⾯等待时间过⻓导致某个dom元素还没出来，但是你的代码直接使⽤了这个WebElement，那么就会抛出NullPointer的异常。这时候肯定是需要进行切换的。selenium提供了⼀个叫做switch_to_window来进⾏切换，具体切换到哪个⻚⾯，可以从driver.window_handles中找到。有时候在⻚⾯中的操作可能要有很多步，那么这时候可以使⽤⿏标⾏为链类ActionChains来完成。

2023-04-16 15:41:36 450

原创 selenium库的基本使用和chromedriver安装

Beautiful Soup提供⼀些简单的、python式的函数⽤来处理导航、搜索、修改分析树等功能。它是⼀个⼯具箱，通过解析⽂档为⽤户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出⼀个完整的应⽤程序。Beautiful Soup⾃动将输⼊⽂档转换为Unicode编码，输出⽂档转换为utf-8编码。你不需要考虑编码⽅式，除⾮⽂档没有指定⼀个编码⽅式，这时，Beautiful Soup就不能⾃动识别编码⽅式了。然后，你仅仅需要说明⼀下原始编码⽅式就可以了。

2023-04-12 15:39:25 905

原创 BeautifulSoup库使用方法

Beautiful Soup提供⼀些简单的、python式的函数⽤来处理导航、搜索、修改分析树等功能。它是⼀个⼯具箱，通过解析⽂档为⽤户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出⼀个完整的应⽤程序。Beautiful Soup⾃动将输⼊⽂档转换为Unicode编码，输出⽂档转换为utf-8编码。你不需要考虑编码⽅式，除⾮⽂档没有指定⼀个编码⽅式，这时，Beautiful Soup就不能⾃动识别编码⽅式了。然后，你仅仅需要说明⼀下原始编码⽅式就可以了。

2023-04-08 11:33:45 785

原创 xpath语法以及解析库lxml库使用方法

Xpath是⼀⻔在HTML/XML⽂档中查找信息的语⾔，可⽤来在HTML/XML⽂档中对元素和属性进⾏遍历。

2023-04-06 17:18:06 289

原创 python的re正则库中的主要方法match()、search()、findall()等

作为re模块的三⼤搜索函数之⼀，findall()和match()、search()的不同之处在于，前两者都是单值匹配，找到⼀个就忽略后⾯，直接返回不再查找了。经过compile()⽅法编译过后的返回值是个re对象，它可以调⽤match()、search()、findall()等其他⽅法,但其他⽅法不能调⽤compile()⽅法。match()⽅法会在给定字符串的开头进⾏匹配，如果匹配不成功则返回None，匹配成功返回⼀个匹配对象，这个对象有个group()⽅法，可以将匹配到的字符串给出。

2023-04-01 09:53:42 2292 1

原创【正则表达式一】正则表达式语法及应用

正则表达式中的⼀些表示⽅法，可以同时匹配某个预定义字符集中的任意⼀个字符。⽐如，表达式\d可以匹配任意⼀个数字。虽然可以匹配其中任意字符，但是只能是⼀个，不是多个。表达式匹配\d任意⼀个数字，0~9 中的任意⼀个\w任意⼀个字⺟或数字或下划线，也就是 A-Z,a-z,0-9,_ 中的任意⼀个\s空格、制表符、换⻚符等空⽩字符的其中任意⼀个\D\d的反集，也就是⾮数字的任意⼀个字符，等同于[^\d]\W\w的反集，也就是[^\w]\S\s的反集，也就是[^\s]

2023-03-30 14:06:51 500

原创 requets小技巧和json数据提取

方法：requests.utils.dict_from_cookiejar。

2023-03-22 14:31:33 861

原创【requests深入】发送post请求、使用代理以及cookie和session简介

带上cookie、session的弊端：⼀套cookie和session往往和⼀个⽤户对应请求太多，请求次数太多，容易被服务器识别为爬⾍。requests提供了⼀个叫做session类,来实现客户端和服务端的会话保持。带上cookie、session的好处：能够请求到登录之后的页面。但是为了获取登录之后的⻚⾯，我们必须发送带有cookies的请求。准备⼀堆的IP地址，组成IP池，随机选择⼀个IP来⽤。不需要cookie的时候尽量不去使⽤cookie。问题：为什么爬⾍需要使⽤代理。

2023-03-18 15:48:30 1897

原创【爬虫基础】requests库的使用方法以及爬取百度贴吧案例

爬虫的请求库为什么要学习requests，⽽不是urllib？

2023-03-15 16:51:25 508 1

原创 HTTP和HTTPS协议简介

URL:统⼀资源定位符，是⽤于完整地描述Internet上⽹⻚和其他资源的地址的⼀种标识⽅法。基本格式：scheme://host[:port#]/path/…/[?scheme：协议(例如：http, https, ftp)host：服务器的IP地址或者域名port#：服务器的端⼝（如果是⾛协议默认端⼝，缺省端⼝80）path：访问资源的路径query-string：参数，发送给http服务器的数据anchor：锚（跳转到⽹⻚的指定锚点位置）

2023-03-13 11:21:54 158

原创什么是网络爬虫以及通用爬虫和聚焦爬虫的介绍

⽹络爬⾍（⼜被称为⽹⻚蜘蛛，⽹络机器⼈）就是模拟客户端发送⽹络请求，接收请求响应，⼀种按照⼀定的规则，⾃动地抓取互联⽹信息的程序。只要是浏览器能做的事情，原则上，爬⾍都能够做。通⽤网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要⽬的是将互联⽹上的⽹⻚下载到本地，形成⼀个互联⽹内容的镜像备份。通⽤搜索引擎（Search Engine）⼯作原理。

2023-03-11 10:22:08 1464

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除