![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 74
是zmj
这个作者很懒,什么都没留下…
展开
-
数据解析
数据解析对爬虫程序就如同是导盲犬对盲人一样,数据解析是爬虫程序的灵魂所在,所以我们今天来学习数据解析。首先最常用的三种数据解析方式有(beautifulSoup4库解析、xpath解析、正则表达式解析)三种。我们今天先来说说beautifulSoup4库解析。BeautifulSoup4库利用BeautifulSoup4库解析的大致思路是:1.首先实例化一个BeautifulSoup对象2.利用实例化出来的BeautifulSoup对象的属性和方法进行数据解析。3.数据的持久化存储。实例化B原创 2021-04-25 17:04:20 · 261 阅读 · 0 评论 -
xpath解析
xpath解析是我们最经常应用的数据解析方式,我们今天就来介绍xpath解析。xpath解析进行xpath解析大致分为以下几个步骤:1.导入lxml库,导入etree模块2.实例化etree对象tree3.数据解析4.保存爬取到的数据1.引入etree模块在这里,我学习的视频里面导入etree模块是直接从lxml库中导入的,但是好像py3以后就不能直接从lxml库中导入etree了,需要先从lxml中导入html库,利用html导入etree具体代码如下:from lxml import原创 2021-04-25 17:03:41 · 3694 阅读 · 1 评论 -
xpath实战01
经过了前面的讲解你是否已经能够熟练使用xpath表达式对数据进行解析了呢?下面给出我们上次布置的任务爬取某荣耀的英雄列表的代码供大家参考学习改进from lxml import htmlimport requestsimport osetree=html.etree#目标页面的urlurl='https://pvp.qq.com/web201605/herolist.shtml'headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0;原创 2021-04-25 17:02:10 · 418 阅读 · 0 评论 -
爬虫02
在上一小节中我们已经拿到了想要爬取的页面的源代码了,后面我们就可以对代码进行分析从而提取出我们想要的东西了。对于我们想要爬取的页面直接进入抓包工具进行分析选中任意一张图片(如图中1)即可在对应的页面代码中显示出对应它的那段代码我们需要的是图片的地址,有了地址就可以拿到图片从而保存图片,因此我们来分析一波:首先定位到class值为’ui segment imghover’的div标签(图中2),然后点开第一个div标签(图中3),点开其下的a标签(图中4)发现a标签下的img标签(图中5)中的dat原创 2021-04-21 14:06:58 · 285 阅读 · 9 评论 -
爬虫01
爬虫(一)就不跟大家扯别的了,我们直接来干货了。我们先来介绍静态页面的爬虫。首先要会辨识静态页面和动态页面。静态页面与动态页面就我自己来说,我判断一个页面是静态页面还是动态页面的时候就是看这个页面是不是一次加载完的。你们看这个网页的图片,图片的刷新是通过鼠标点击页底的页码来实现的,滚轮来回拖动时当前页面的图片不会进行刷新。所以对这种页面进行分析的时候就可以从标签中提取出图片的地址进行保存。这张页面的图片是没有底部的页码的,图片的刷新是通过鼠标滚轮往下滑实时刷新的,这种图片就是通过刷新动态加载原创 2021-04-20 21:02:54 · 175 阅读 · 4 评论