python爬虫入门实战！爬取博客文章标题和链接！

最新推荐文章于 2022-09-28 15:45:08 发布

「已注销」

最新推荐文章于 2022-09-28 15:45:08 发布

阅读量1.8k

点赞数

分类专栏： python 文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45686592/article/details/102808471

版权

最近有小伙伴和我留言想学python爬虫，那么就搞起来吧。

准备阶段

爬虫有什么用呢？举个最简单的小例子，你需要《战狼2》的所有豆瓣影评。最先想的做法可能是打开浏览器，进入该网站，找到评论，一个一个复制到文本中，保存，翻页，接着复制，直到翻到最后一页。而爬虫只要写脚本，执行，泡杯咖啡，坐等他执行完。

首先需要在电脑上装好 python3 和 pip 。此外还需要知道python的一些基本语法。这些内容网上搜索有许多教程(例如廖雪峰)，这边就不再细说了。

我们这次需要使用的是正则表达式 re 库和第三方的 requests 库，以下是安装方法。

pip3 install requests

引入库。

import requests
import re

爬虫可以简单的分为获取数据，分析数据，存储数据三个步骤。

下载数据

简单来说一个网页是由一个html文件解析构成，我们需要获取这个文本内容。

每个浏览器都可以通过开发者工具获取到文本内容，以chrome为例，打开网页后，右键->检查。
在这里插入图片描述

右边的 Elements 就是我们要下载的数据。

让我们看看 requests 是如何获取这个数据的。

url='http://lamyoung.com/';
html=requests.get(url);
if

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
python爬虫入门实战！爬取博客文章标题和链接！

最近有小伙伴和我留言想学python爬虫，那么就搞起来吧。准备阶段爬虫有什么用呢？举个最简单的小例子，你需要《战狼2》的所有豆瓣影评。最先想的做法可能是打开浏览器，进入该网站，找到评论，一个一个复制到文本中，保存，翻页，接着复制，直到翻到最后一页。而爬虫只要写脚本，执行，泡杯咖啡，坐等他执行完。首先需要在电脑上装好 python3 和 pip 。此外还需要知道python的一些基本语法...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。