python爬虫
文章平均质量分 52
Explosion_M
最好的简介就是没(尽)有(情)简(想)介(像)
展开
-
Python爬虫入门(#10)——页面解析-xpath
Xpath概述最常用且最便捷高效的一种解析方式解析原理实例化一个etree对象,将被解析的源码数据加载到该对象调用etree对象中的xpath方法集合xpath表达式实现标签定位实例化一个etree对象from lxml import etreetree = etree.parse(filePath) # 从本地文件加载tree = etree.HTML(‘page_text’) # 使用网络获取的源码文本进行加载xpath表达式t.xpath("") # 使用xpath表达式原创 2021-04-22 16:48:14 · 403 阅读 · 1 评论 -
Python爬虫入门(#9)——bs4-css选择器基本格式
CSS选择器bs4的select()方法接受一个字符串参数,返回一个列表,这个字符串参数就是一个css选择器选择器可以使用标签,类,id等标签的属性进行选择常用选择器格式选择所有标签 *选择所有a标签· a选择所有class=“link” .link选择class="link"的a标签 a.link选择id=“home” 的标签 #home选择id=“home” 的a标签 ``a#home`选择父元素为a标签的所有span子标签 a > spa原创 2021-04-22 16:46:56 · 879 阅读 · 0 评论 -
Python爬虫入门(#8)——爬取B站新番时间表
文章目录爬取B站新番时间表获取url爬取json数据解析json数据提取信息爬取B站新番时间表本次使用bs4来进行解析实践获取url打开B站番剧页面,其url为https://www.bilibili.com/anime/timeline/但我们爬取该页面发现里面没有任何内容这说明数据使用ajax进行传输我们打开控制台,选定XHR包,然后点击新番索引表标签页一个叫做timeline_global的包中保存了全部的时间表数据而其Request URL为https://bangumi.b原创 2021-04-15 18:32:38 · 660 阅读 · 0 评论 -
Python爬虫入门(#7)——BeautifulSoup(其一)
文章目录基础内容基本对象基本方法遍历文档树搜索文档树修改文档树前面使用过BeautifulSoup来处理返回的html文档,这个库可以让我们不需要依赖正则而找到我们所需要的内容基础内容基本对象首先要了解一下一些基础的属性和方法BeautifulSoup将html解析为树形结构from bs4 import BeautifulSoup# 以文件形式解析html文档soup = BeautifulSoup(open("filePath"))# 以字符串形式解析html文档soup =原创 2020-08-08 11:16:56 · 349 阅读 · 0 评论 -
python爬虫入门(#6)——使用cookie免密码登录
很多网站都需要用户登录才能够访问一些内容,但是登录又需要填写用户名和密码,现在但凡是需要登陆的网站都使用验证码验证登录,这对于爬虫初学者来说实在是太不友好了。但是好在还有一个叫做cookie的东西可以让我们绕过登录这一步,直接建立连接至于cookie的原理就不做过多的赘述,感兴趣的可以看这里深入理解cookie我们尝试着用cookie登录csdn,然后把我们写过的博客爬取出来获取coo...原创 2020-01-11 21:29:43 · 776 阅读 · 0 评论 -
python爬虫入门(#5)——抓取二进制文件(视频,图片等)
网页中除了文本信息外,也会有很多的图片或者视频等非文本信息,既然浏览器能够获取这些信息,那么我们模拟浏览器行为的爬虫也可以获取到我们这次尝试爬取一个图片从哔哩哔哩相簿爬取一张图片我们打开哔哩哔哩相簿的网站,随便选择一张图片右键复制图片地址这个地址就是我们图片的 url,我们就可以通过他来下载图片import requestsheaders = { 'User-Agent'...原创 2019-12-29 19:53:02 · 2250 阅读 · 1 评论 -
python爬虫入门(#4)——get方法详解之params参数
前面说过,get 方法是可以向服务器发送信息的,除了可以请求需要的页面之外,也可以发送我们指定的内容,这就是通过 params 参数实现的request库 ----- get方法 ----- params这个 params 参数是字典结构,前面说到的 headers 其实也是字典结构,但他们传输的时候是以 json 的方式传输的首先我们构建一个字典,里面写上我们想要发送的信息headers...原创 2019-12-28 20:47:30 · 27630 阅读 · 4 评论 -
python爬虫入门(#3)——get方法详解之headers参数
前面写的程序都是使用了requests库的get方法来获取网页,教条式的东西比如requests库的起源,原理,作用啥的,我就不细说了,到处都是,书上也很多,我就只写我认为可以派上用场的东西,当然这不是指我不说就不重要,该了解还是要了解的request库 ----- get方法 ----- headersget方法是模拟了浏览器发起的get请求,这个请求方法所发送的信息是包含在请求头里的,我...原创 2019-12-27 22:19:41 · 9826 阅读 · 1 评论 -
python爬虫入门(#2)——还是网页源码的获取与解析
书接上文我们已经学会了怎么如何获取html源码并从中进行简单的信息提取那么现在我们要学习如何才能精确的获取我们想要的信息来做点有趣的事情吧????爬取哔哩哔哩排行榜获取源码并解析首先我们要获取网站的源码import requestsfrom bs4 import BeautifulSoupimport re # 这是python的正则表达式库,它终于来了!(无需安装)准备好了库,大...原创 2019-12-11 09:32:48 · 806 阅读 · 0 评论 -
python爬虫入门(#1)——网页源码的获取与解析
python的第三方库是真的强大,真的强大,真的强大python写爬虫是真的方便,真的方便,真的方便学校开的python课程水分大,进度慢,还无聊,索性自己学吧除了爬虫,python的数据可视化,图像处理等等还有一大堆好玩的东西可以学,不过鉴于下学期开数据挖掘与可视化,我决定先把爬虫和数据可视化学一下python爬虫✌开始前的准备python安装:略????html css 基本知识(...原创 2019-12-10 22:50:59 · 2803 阅读 · 0 评论