python爬虫—零—爬虫介绍

最新推荐文章于 2024-04-01 13:30:49 发布

ve9etable

最新推荐文章于 2024-04-01 13:30:49 发布

阅读量212

点赞数 1

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45557138/article/details/109248445

版权

python 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

本文介绍了网络爬虫的基本概念和工作流程，包括如何使用requests库进行网页请求。通过审查元素来查找感兴趣的数据，并展示了在Firefox和Chrome中检查元素的方法。还提到了解决乱码问题以及查看网页源代码的快捷方式。明日将继续深入讲解。

摘要由CSDN通过智能技术生成

零、何为爬虫

网络爬虫（Web Spider），网络蜘蛛，这只蜘蛛就在“互联网”上爬来爬去。

通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

爬虫的一般流程：

1、先获取网页的 html 文档

2、浏览器打开网页源代码分析各节点

3、获取数据

4、利用数据或存储数据

壹、审查元素

写爬虫一定少不了对元素的审查，这是极其重要的基础

检查元素这种方法可以很快的帮你找到你感兴趣地方的代码

firefox：感兴趣的地方右击-->检查元素快捷键：Fn+F12

chrome：感兴趣的地方右击-->检查

你也可以直接查看网页源代码右键-->查看页面源代码快捷键：CTRL+U

贰、requests库

在python3中，我们可以使用urllib.request和requests进行网页请求

urllib.requests是内置库，只要你安装了python就能使用。

requests是一个很强大的第三方库，但是需要自己安装

安装requests库
pip install requests

接下来我们使用requests发送一个网络请求，去请求百度的页面

import requests
r = requests.get("https://www.baidu.com/")

如此，就能以get方式去请求百度，其他的post，put等方式与此类似

那么我们已经发出了请求，会得到怎样的回应呢？

--snip--

print(r.text)

结果：我们看到有一些好像有一些乱码

我们可以通过下一行代码解决此问题

r.encoding = 'utf-8'

结果：

我们还可以定制请求头等等方法，详情可参考requests中文手册https://requests.readthedocs.io/zh_CN/latest/

叁、小结

好了，作为普及大概先说这么多，明天继续，本来今天是不想写的，因为今天事情比较多，但没办法，养成了习惯了，哈哈哈哈，那就写一篇短点的，明天在补回来，哎，不行，明天要体测，真要命啊。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
python爬虫—零—爬虫介绍

零、何为爬虫网络爬虫（Web Spider），网络蜘蛛，这只蜘蛛就在“互联网”上爬来爬去。通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。爬虫的一般流程：1、先获取网页的 html 文档2、浏览器打开网页源代码分析各节点3、获取数据4、利用数据或存储数据壹、审查元素写爬虫一定少不了对元素的审查，这是极其重要的基础检查元素这种方.
复制链接

扫一扫

专栏目录

ve9etable CSDN认证博客专家 CSDN认证企业博客

码龄5年

92: 原创

23万+: 周排名

2万+: 总排名

16万+: 访问

: 等级

1868: 积分

673: 粉丝

859: 获赞

23: 评论

1336: 收藏

私信

关注

热门文章

分类专栏

HackTheBox 59篇
WebSecurity 18篇
python 13篇

最新评论

Linux/Brainfuck
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Linux/Usage
普通网友: 文章内容通俗易懂，适合不同层次的读者。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Linux/Bizness
普通网友: 优质好文，支持支持。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Linux/Usage
普通网友: 优质好文，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Linux/October
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml

大家在看

计算文件md5值工具分析(自己写的）

最新文章

2024

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。