Python爬虫
文章平均质量分 57
Python爬虫专栏通常包含以下内容:爬虫基础概念、网络请求处理、HTML解析、Python编程基础、以及如何使用requests、BeautifulSoup等库进行数据抓取和分析。这些教程帮助读者从零基础开始,逐步掌握爬虫技术,适用于数据挖掘、市场分析等场景。
你好皮~
贵州师范大学 大数据学院 21级大数据专业
展开
-
打卡学习Python爬虫第一天|什么是爬虫?
爬虫,全称为网络爬虫,是一种自动获取网页内容的程序或脚本。它通过模拟人类浏览网页的行为,按照一定的规则和算法,自动访问互联网上的网页,提取所需信息,并可以递归地跟踪网页上的链接访问其他网页。爬虫的主要用途包括数据采集、信息监测、搜索引擎索引构建等。简单来说,爬虫就是自动化地在网上抓取和收集信息的工具。原创 2024-08-16 16:17:28 · 1233 阅读 · 0 评论 -
打卡学习Python爬虫第一天|python爬虫环境搭建
Anaconda 包及其依赖项和环境的管理工具为 conda 命令,文与传统的 Python pip 工具相比 Anaconda 的conda 可以更方便地在不同环境之间进行切换,环境管理较为简单。python是我们将解压安装包得到的目录重命名为python了,要根据自己的情况作相应变化。可以在以下链接中下载 Python 的文档,你可以下载 HTML、PDF 和 PostScript 等格式的文档。编译的源代码,功能上有更多的选择性, 为 Python 安装提供了更多的灵活性。原创 2024-08-16 18:56:34 · 1825 阅读 · 0 评论 -
打卡学习Python爬虫第一天|抓取百度首页html代码
# 1. 导入urllib.request模块# 2. 调用urlopen函数,传入URL地址,获取网页内容# 3. 打印网页内容# 4. 运行程序,查看结果原创 2024-08-16 19:52:36 · 495 阅读 · 0 评论 -
打卡学习Python爬虫第二天|Web请求过程刨析
接收到客户端的请求后,会生成页面的初始HTML内容,并将其发送给客户端。客户端渲染在第一次请求时只得到一个HTML骨架和必要的Js和CSS ,第二次请求才能拿到数据,进行数据展示,在页面源代码中看不到数据。原创 2024-08-17 12:57:11 · 612 阅读 · 0 评论 -
打卡学习Python爬虫第二天|HTTP协议
状态行 --> 协议 状态码 200为正常 响应头 --> 一些客户端要使用的一些附加信息 (数据加密,密钥等) 响应体 --> 服务器返回真正的用户端要用的内容(HTML,json)等。POST: 隐式提交。原创 2024-08-17 14:58:28 · 616 阅读 · 0 评论 -
打卡学习Python爬虫第二天|Requests的使用
requests库是一个非常流行和强大的HTTP库,它用于在Python中发送HTTP请求。这个库的主要特点是其简洁和易于使用的API,使得发送网络请求和获取响应变得非常简单。以下是requests发送HTTP请求requests库允许你发送各种类型的HTTP请求,如GET、POST、PUT、DELETE等。处理响应:每次发送请求后,requests会返回一个response对象,这个对象包含了响应的所有信息,如状态码、响应头、响应内容等。原创 2024-08-17 19:35:42 · 1192 阅读 · 0 评论 -
打卡学习Python爬虫第二天|数据解析Re 正则表达式
正则表达式:Regular Expression,一种使用表达式的方式对字符串进行匹配的语法规则。我们抓取的网页源代码本质上就是一个超长的字符串,想从中提取内容,用正则表达式刚好合适。正则表达式的语法:使用元字符(具有固定含义的特殊字符)进行排列组合来匹配字符串,在线测试正则表达式:https://tool.oschina.net/regex/在前面的学习中,我们已经基本掌握了抓取整个网页的基本技能,但是在实际的需求当中,我们不需要整个网页的内容,只需要一小部分。原创 2024-08-17 21:47:47 · 814 阅读 · 0 评论 -
打卡学习Python爬虫第三天|python的re模块的使用
1、findall查找所有,返回list2、search会进行匹配,返回匹配到的第一个结果,没有匹配到则返回None3、match只能从字符串的开头进行匹配4、finditer,和findall差不多,只不过这时返回的是迭代器(重点)5、 compile()可以将一个长的正则表达式进行预加载,方便后面的使用6、正则表达式中的内容如何单独提取可以通过分组对正则表达式的内容进行进一步的筛选原创 2024-08-18 16:10:01 · 629 阅读 · 0 评论 -
打卡学习Python爬虫第三天|爬取豆瓣电影Top250排行榜(附源码)
注意正则表达式的使用,先观察网页源代码,我们发现每一部电影的数据存放在一个中,如上图。这时候我们发现没有了刚才的字母,但是出现了其它的内容,这时候我们需要在电影名的位置加上(),并在()中写?P,中给该位置的数据取一个名字,这就表示只要这个数据:如下第三个.*?这里获取:电影名,时间,国家,评分,评价人数,短评。二、查看数据是否存在于网页源代码中。原创 2024-08-18 20:09:56 · 366 阅读 · 0 评论 -
打卡学习Python爬虫第三天|电影天堂案例
观察网页和页面源代码,每部电影都有一个超链接去到子页面,我们需要的内容在子页面,如果我们一个一个子页面的去爬取会比较麻烦,可以尝试先通过首页爬取子页面的超链接,在通过子页面链接与首页url拼接的方式去访问每一个子页面。需要其它内容,修改获取子链接数据的正则表达式即可,按自己需求来。目标:爬取最新更新的电影的豆瓣链接。原创 2024-08-18 23:09:01 · 522 阅读 · 0 评论 -
打卡学习Python爬虫第四天|bs4爬取优美图库的小清新图片
bs4解析比较简单,通过HTML的标签和属性去提取值,但是需要了解HTML的语法知识,然后再使用bs4去提取,逻辑和编写难度就会比较简单和清晰。思路:通过小清新图片的源代码获取子页面的链接,再将子页面的链接作为一个url,通过循环访问子页面来获取每一个子页面中的图片。一、安装bs4(PyCharm终端输入)六、根据子页面源代码特征提取想要的内容。五、将子页面链接作为新的url访问。目标:爬取优美图库的小清新图片。二、 找到网页url。原创 2024-08-20 17:56:40 · 389 阅读 · 0 评论 -
打卡学习Python爬虫第五天|Xpath解析的使用
Xpath是在XML文档中搜索内容的一门语言,HTML可以看作是xml的一个子集。原创 2024-08-22 15:35:37 · 1089 阅读 · 0 评论 -
打卡学习Python爬虫第五天|使用Xpath爬取豆瓣电影评分
思路:使用Xpath爬取豆瓣即将上映的电影评分,首先获取要爬取页面的url,查看页面源代码是否有我们想要的数据,如果有,直接获取HTML文件后解析HTML内容就能提取出我们想要的数据。其次观察HTML代码的标签结构,通过层级关系找到含有我们想要的数据的标签,提取出数据。数据存放在同一级的多个li标签中,我们只需要利用相对查找,循环遍历就能找到所有的libi'a。这里我们可以看到,有的电影是暂时没有评分的,等一下爬出的数据要做处理。找到想要的标签-->右键-->复制-->复制完整的Xpath。原创 2024-08-22 22:10:06 · 337 阅读 · 0 评论 -
打卡学习Python爬虫第六天|处理cookie登录小说网
一些网站不需要登录就能看到信息,但对于需要登录才能看见信息的网站,我们就需要借助cookie,使爬虫能够顺利登录网站,从而获取所需数据。右键-->检查或者直接按F12,进入开发者页面,找到数据,拿到其url。1、登录后查看页面源代码。4、保存为json文件。并没有我们需要的数据。原创 2024-08-23 20:25:53 · 345 阅读 · 0 评论