爬虫
文章平均质量分 94
Viviana-0
这个作者很懒,什么都没留下…
展开
-
(一) 爬虫教程 |正则表达式
一、概述:正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。二、常用的正则匹配规则三、match()match()方法会尝试从字符串的起始位置匹配正则表达式,如果匹配,就返回匹配成功的结果;如果不匹配,就返回None在 match()方法中,第一个参数传入了正则表达式,第二个参数传入了要匹配的字符串打印输出结果,可以看到结果是 SRE_Match 对象原创 2020-12-18 15:52:13 · 595 阅读 · 1 评论 -
(二) 爬虫教程 |基本requests库的使用
一、HTTP基本原理1.URL和URI这里我们首先了解一下URL和URI,URI的全程为Uniform Resource Identifier,即统一资源标志符,URL的全称为Uniform Resource Locator,即统一资源定位符做一个不完全准确的类比,URI的作用像身份证号一样,URL的作用像家庭住址一样,URN可以唯一标识一个人,而URL可以告诉邮递员怎么把货送到你手里。2.超文本我们在浏览器里看到的网页就是超文本,其网页源代码是一系列HTML代码,里面包含了一系列标签,比原创 2020-12-21 15:08:32 · 562 阅读 · 0 评论 -
(三) 爬虫教程 |解析库XPath的使用
在实现爬虫中,我们提取页面信息时使用的是正则表达式,这还是比较烦琐的,万一有地方写错了,可能会导致匹配失败。在Python中还有很多强大的库lxml、Beautiful Soup、pyquery等,有了它们我们就不必要为正则表达式发愁,解析效率也会大大提高。一、关于XPath概述XPath 全称 XML Path Language ,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索所以在做爬虫时,我们完全.原创 2020-12-22 14:46:58 · 1016 阅读 · 0 评论 -
(四) 爬虫教程 |解析库Beautiful Soup的使用
一、Beautiful Soup概述Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了原创 2020-12-23 15:06:44 · 495 阅读 · 0 评论 -
(五) 爬虫教程 |Ajax 数据爬取
一、前言有时候我们在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有,这是因为requests 获取的都是原始的 HTML 文档,而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果,这些数据的来源有多种,可能是通过 Ajax 加载的, 可能是包含在 HTML 文档中的,也可能是经过 JavaScript 和定算法计算后生成的对于第一种情况,数据加载是一种异步加载方式,原始的原创 2020-12-24 16:11:02 · 2787 阅读 · 0 评论 -
(六) 爬虫教程 |Selenium的使用
一、Selenium概述Selenium 是一个用于测试 Web 应用程序的框架,该框架测试直接在浏览器中运行,就像真实用户操作一样。它支持多种平台:Windows、Linux、Mac,支持多种语言:Python、Perl、PHP、C# 等,支持多种浏览器:Chrome、IE、Firefox、Safari 等。二、Selenium下载安装1.Selenium安装pip install selenium2. WebDriver安装我们安装好了Selenium库,但是它是一个自动化测试工具,需原创 2020-12-25 16:51:37 · 1102 阅读 · 0 评论 -
(七) 爬虫教程 |验证码的识别
目前,许多网站采取各种各样的措施来反爬虫,其中一个措施便是使用验证码。随着技术的发展,后来加入了英文字母和混淆。有的网站还可能看到中文字符的验证码,这使得识别愈发困难。一、tessereocr安装Windows下安装1.在Windows下,首先需要下载tesseract,它为tessereocr提供了支持。tesserac 下载地址: https://digi.bib.uni-mannheim.de/tesseract/2.进入下载页面,可以看到有各种.exe文件的下载列表。3..原创 2020-12-28 15:35:15 · 582 阅读 · 0 评论 -
(八) 爬虫教程 |Scrapy框架的使用
一、Scrapy框架的介绍Scrapy是一个基于Twisted 的异步处理框架,是纯 Python 实现的爬虫框架,其架构清晰,模块之间的耦合程度低,可扩展性极强,可以灵活完成各种需求。1.1架构介绍1.Engine:引擎,处理整个系统的数据流处理、触发事物Item:项目,它定义了怕去结果的数据结构,爬取的数据会被赋值成该Item对象Scheduler:调度器,接受引擎发过来的请求并将其加入队列中,在引擎再次请求的时候即哪个请求提供给引擎Downloader:下载器,下载网页内容,并将网页内容原创 2020-12-29 16:08:18 · 1059 阅读 · 0 评论