自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

怕怕小虫子的博客

记录学习爬虫和数据分析的专用博客。

  • 博客(12)
  • 收藏
  • 关注

原创 Tesseract的安装和使用

实现OCR的库不是很多,特别是开源的。因为这块存在⼀定的技术壁垒(需要⼤量的数据、算法、机器学习、深度学习知识等),并且如果做好了具有很⾼的商业价值。这⾥介绍⼀个⽐较优秀的图像识别开源库:Tesseract。定义:Tesseract是⼀个将图像翻译成⽂字的OCR(光学⽂字识别,OpticalCharacter Recognition),⽬前由⾕歌赞助。Tesseract具有很⾼的识别度,也具有很⾼的灵活性,他可以通过训练识别任何字体。还有⼀个环境变量需要设置的是,要把训练的数据⽂件路径也放到环境变量中。

2023-04-16 15:42:19 1263

原创 selenium库行为链、页面等待以及打开多窗口和切换页面

现在的⽹⻚越来越多采⽤了 Ajax 技术,这样程序便不能确定何时某个元素完全加载出来了。如果实际⻚⾯等待时间过⻓导致某个dom元素还没出来,但是你的代码直接使⽤了这个WebElement,那么就会抛出NullPointer的异常。这时候肯定是需要进行切换的。selenium提供了⼀个叫做switch_to_window来进⾏切换,具体切换到哪个⻚⾯,可以从driver.window_handles中找到。有时候在⻚⾯中的操作可能要有很多步,那么这时候可以使⽤⿏标⾏为链类ActionChains来完成。

2023-04-16 15:41:36 355

原创 selenium库的基本使用和chromedriver安装

Beautiful Soup提供⼀些简单的、python式的函数⽤来处理导航、搜索、修改分析树等功能。它是⼀个⼯具箱,通过解析⽂档为⽤户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出⼀个完整的应⽤程序。Beautiful Soup⾃动将输⼊⽂档转换为Unicode编码,输出⽂档转换为utf-8编码。你不需要考虑编码⽅式,除⾮⽂档没有指定⼀个编码⽅式,这时,Beautiful Soup就不能⾃动识别编码⽅式了。然后,你仅仅需要说明⼀下原始编码⽅式就可以了。

2023-04-12 15:39:25 707

原创 BeautifulSoup库使用方法

Beautiful Soup提供⼀些简单的、python式的函数⽤来处理导航、搜索、修改分析树等功能。它是⼀个⼯具箱,通过解析⽂档为⽤户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出⼀个完整的应⽤程序。Beautiful Soup⾃动将输⼊⽂档转换为Unicode编码,输出⽂档转换为utf-8编码。你不需要考虑编码⽅式,除⾮⽂档没有指定⼀个编码⽅式,这时,Beautiful Soup就不能⾃动识别编码⽅式了。然后,你仅仅需要说明⼀下原始编码⽅式就可以了。

2023-04-08 11:33:45 341

原创 xpath语法以及解析库lxml库使用方法

Xpath是⼀⻔在HTML/XML⽂档中查找信息的语⾔,可⽤来在HTML/XML⽂档中对元素和属性进⾏遍历。

2023-04-06 17:18:06 230

原创 python的re正则库中的主要方法match()、search()、findall()等

作为re模块的三⼤搜索函数之⼀,findall()和match()、search()的不同之处在于,前两者都是单值匹配,找到⼀个就忽略后⾯,直接返回不再查找了。经过compile()⽅法编译过后的返回值是个re对象,它可以调⽤match()、search()、findall()等其他⽅法,但其他⽅法不能调⽤compile()⽅法。match()⽅法会在给定字符串的开头进⾏匹配,如果匹配不成功则返回None,匹配成功返回⼀个匹配对象,这个对象有个group()⽅法,可以将匹配到的字符串给出。

2023-04-01 09:53:42 1749 1

原创 【正则表达式一】正则表达式语法及应用

正则表达式中的⼀些表示⽅法,可以同时匹配某个预定义字符集中的任意⼀个字符。⽐如,表达式\d可以匹配任意⼀个数字。虽然可以匹配其中任意字符,但是只能是⼀个,不是多个。表达式匹配\d任意⼀个数字,0~9 中的任意⼀个\w任意⼀个字⺟或数字或下划线,也就是 A-Z,a-z,0-9,_ 中的任意⼀个\s空格、制表符、换⻚符等空⽩字符的其中任意⼀个\D\d的反集,也就是⾮数字的任意⼀个字符,等同于[^\d]\W\w的反集,也就是[^\w]\S\s的反集,也就是[^\s]

2023-03-30 14:06:51 240

原创 requets小技巧和json数据提取

方法:requests.utils.dict_from_cookiejar。

2023-03-22 14:31:33 779

原创 【requests深入】发送post请求、使用代理以及cookie和session简介

带上cookie、session的弊端:⼀套cookie和session往往和⼀个⽤户对应请求太多,请求次数太多,容易被服务器识别为爬⾍。requests提供了⼀个叫做session类,来实现客户端和服务端的会话保持。带上cookie、session的好处:能够请求到登录之后的页面。但是为了获取登录之后的⻚⾯,我们必须发送带有cookies的请求。准备⼀堆的IP地址,组成IP池,随机选择⼀个IP来⽤。不需要cookie的时候尽量不去使⽤cookie。问题:为什么爬⾍需要使⽤代理。

2023-03-18 15:48:30 1609

原创 【爬虫基础】requests库的使用方法以及爬取百度贴吧案例

爬虫的请求库为什么要学习requests,⽽不是urllib?

2023-03-15 16:51:25 321 1

原创 HTTP和HTTPS协议简介

URL:统⼀资源定位符,是⽤于完整地描述Internet上⽹⻚和其他资源的地址的⼀种标识⽅法。基本格式:scheme://host[:port#]/path/…/[?scheme:协议(例如:http, https, ftp)host:服务器的IP地址或者域名port#:服务器的端⼝(如果是⾛协议默认端⼝,缺省端⼝80)path:访问资源的路径query-string:参数,发送给http服务器的数据anchor:锚(跳转到⽹⻚的指定锚点位置)

2023-03-13 11:21:54 102

原创 什么是网络爬虫以及通用爬虫和聚焦爬虫的介绍

⽹络爬⾍(⼜被称为⽹⻚蜘蛛,⽹络机器⼈)就是模拟客户端发送⽹络请求,接收请求响应,⼀种按照⼀定的规则,⾃动地抓取互联⽹信息的程序。只要是浏览器能做的事情,原则上,爬⾍都能够做。通⽤网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要⽬的是将互联⽹上的⽹⻚下载到本地,形成⼀个互联⽹内容的镜像备份。通⽤搜索引擎(Search Engine)⼯作原理。

2023-03-11 10:22:08 979

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除