python爬虫例子

最新推荐文章于 2024-05-11 11:28:36 发布

www13998641557hhu

最新推荐文章于 2024-05-11 11:28:36 发布

阅读量277

点赞数

文章标签： python

本文链接：https://blog.csdn.net/www13998641557hhu/article/details/108608779

版权

前言一、python爬虫要注意什么！！！2. 禁止所有网络爬虫3. 对个别文件夹有限制二、使用步骤1.引入库2.读入数据总结

摘要由CSDN通过智能技术生成

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、python爬虫要注意什么！！！
二、使用步骤
- 1.引入库
- 2.读入数据
总结

前言

总结一下近期的学习成果，沉淀一下自己。从python爬虫开始。爬虫作为一种网络“流氓”工具，有利也有弊。它可以帮助我们自动化获取数据，但是同样也给服务器端带来了很大的麻烦。如果运用不好可能会触犯法律，大家在使用时一定要注意。

一、python爬虫要注意什么！！！

在爬取一个网站之前，一定要确保这个网站允许爬虫，一定要看清楚爬虫允许的范围。
在网址后面加上robots.txt，查看该网站对爬虫的允许范围。
下面举三个例子

1. 没有限制（以新东方官网为例 www.xdf.cn）

在输入网址栏输入 www.xdf.cn/robots.txt
在这里插入图片描述
如果出现找不到页面，404 not found等页面，说明该网站并未对爬虫有限制（但是爬虫需适度，不可搞炸对方服务器）。

2. 禁止所有网络爬虫（以淘宝热卖网为例）

在这里插入图片描述

3. 对个别文件夹有限制

以京东为例 www.jd.com/robots.txt
在这里插入图片描述

二、使用步骤

1.引入库

代码如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据