Python爬虫语法知识详解
一步一步介绍爬虫,慢慢的接触
王小王-123
【私信必回】CSDN博客专家、内邀精英签约作者,CSDN年度优秀创作者,华为云享专家,阿里云专家博主、腾讯云、简书、InfoQ、51CTO等开源社区创作者。左手诗情画意,右手代码人生,欢迎一起探讨技术的诗情画意!
展开
-
初识爬虫之Xpath语法篇
正则表达式虽然繁琐但是理解起来比较简单,它的缺点就是我们匹配数据的时候,处理很多的文本或者其他时刻,不小心写错了或者忘记了某一个字符,这个时候就很麻烦。作为爬虫我个人建议还是用Xpath这个解析,来匹配数据,比较好,虽然前期可能比较生疏,但是到了后面就会越用越顺手。 1. XPath 概览 XPath 的选择功能十分强大,它提供了非常简洁明了的路径选择表达式 。 另外,它还提供了超过100 个内建函数,用于字符串、数值、时间的匹配以及节点、序列的处理等 。 几乎所有我们想要定位的节点,者阿以用 XPath原创 2020-08-16 13:42:34 · 1711 阅读 · 0 评论 -
初识爬虫之requests库使用篇
之前我们了解过了urllib的库的使用方法,但是我们发现在实际的运用过程中,我们使用requests更加的频繁一些。它可以解决之前的一些繁琐的语法,强大的地方我们就开始看看吧! import requests r=requests.get("https://www.baidu.com/") # print(type(r))#类型 print(r.status_code)#状态码 # print(type(r.text))#响应体类型 # print(r.text)#内容 print(r.cookies)#c原创 2020-08-14 12:53:05 · 1445 阅读 · 1 评论 -
初识爬虫之urllib库使用篇
urllib库 前言 在爬虫的实际操作的过程中,我们想要获取网页内容,这个时候我们只需要两行代码即可。这个功能就是第三方库的实现… 在Python2中我们的库有urllib2和urllib两个库,但是在Python3的版本里面,我们将这个库直接合并为了urllib了,这个也是我们在平时安装它的时候,为什么安装不起的原因了。 使用urllib库 request:它是最基本的 HTTP 请求模块,可以用来模拟发送请求 。 error:异常处理模块,如果出现请求错误 , 我们可以捕获这些异常,然后进行重试或其他原创 2020-08-11 12:36:18 · 1752 阅读 · 0 评论 -
初识爬虫之爬虫概述篇
爬虫概述 我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。 把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息 。 可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛通过一个节点后,可以顺着节点连线继续爬行到达下一个节点,即通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了 。 获取网页 爬虫首先要做的工作就是获取网页,这里就是获取网页的源代码 。我们不可能去网页把那些源代码复制过来吧,在Python里面我原创 2020-08-10 12:55:18 · 2300 阅读 · 1 评论 -
初识爬虫之基本原理篇
在写爬虫之前,我们还需要了解一些基础知识,如 HTTP 原理、网页的基础知识、爬虫的基本原理 、 Cookies 的基本原理等。 HTTP基本原理 一个网站的图标链接,它就是一个URL,也可以叫URI,但是我个人习惯于URL,而且在互联网中URL也是比较常见的。 超文本 我们在浏览器里看到的网页就是超文本解析而成的, 其网页源代码是一系列 HTML 代码, 里面包含了一系列标签,在网页里面的HTML就是可以被称之为超文本。例如我们在谷歌浏览器,打开开发者工具,看到的就是一些源码,这些源代码就是超文本。原创 2020-08-10 12:08:12 · 3454 阅读 · 1 评论 -
初识爬虫之安装准备篇
第三库安装 requests库安装 这里总结了三种方法 1.通过anaconda终端包,安装。这里要注意的是,必须你的编译环境是用的anaconda,不然你安装了也没有用。 安装的时候,用 pip install 模块名,回车即可 当然这里有时候会出现安装不上的原因,可以多试几次,这个属于正常的情况,有时候网速和机器使用都会有影响。我这里推荐一个清华镜像网址,把这个输入到那个终端即可,回车,然后输入pip install 模块名 pip config set global.index-url https:/原创 2020-08-09 11:33:13 · 2467 阅读 · 0 评论 -
初识爬虫之概念认知篇
认识爬虫 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 爬虫也分为“善意爬虫”和“恶意爬虫”,比如像谷歌,百度这样的每天都会海量的网站,来保证用户的需要,这个是用户和网站都很喜欢的,所以叫善意爬虫,但是像一些“抢票软件”“非VIP性下载”,有的时候不但会增加网站的承受压力,还会导致一些资源隐私泄露,所以我们又称之为“恶意爬虫”。 简单来说爬虫是一个模原创 2020-08-09 10:23:33 · 2043 阅读 · 1 评论