爬虫练习（一）

最新推荐文章于 2023-04-21 11:54:45 发布

14077526

最新推荐文章于 2023-04-21 11:54:45 发布

阅读量443

点赞数

文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/weixin_62115589/article/details/127042742

版权

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

爬虫练习（一）

一、环境准备示例
二、网页结构
三.爬虫的合法性
四.基本原理
- 能爬取怎样的数据
- 网页请求

提示：以下是本篇文章正文内容，下面案例可供参考

一、环境准备示例

Python安装
requests库抓取网站数据
Beautiful Soup 解析网页

二、网页结构

网页一般由三部分组成，分别是 HTML（超文本标记语言）、CSS（层叠样式表）和 JScript（活动脚本语言）。
HTML常用标签

<html>..</html> 表示标记中间的元素是网页
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<li>..</li>表示列表
<img>..</img>表示图片
<h1>..</h1>表示标题
<a href="">..</a>表示超链接

CSS 表示样式＜style type=＂text/css＂＞定义了外观。
JScript 表示功能。交互的内容和各种特效都在 JScript 中，JScript 描述了网站中的各种功能。
一个基础的HTML

<html>
<head>
    <title> title1</title>
</head>
<body>
    <div>
        <p>title2</p>
    </div>
    <div>
        <ul>
            <li><a href="网址">爬虫</a></li>
            <li>数据清洗</li>
        </ul>
    </div>
</body>

三.爬虫的合法性

每一个网站都有一个名为 robots.txt 的文档，当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档，就要判断是否有禁止访客获取的数据。

User-Agent:*
Disallow:/

四.基本原理

1 获取网页：利用requests等库获取网页的源代码,提取想要的信息。
2. 提取信息： Beautiful Soup pyquery lxml等，使用这些库，可以高效快速地从中提取网页信息，如节点的属性文本值等, 提取信息是爬虫非常重要的部分，它可以使杂乱的数据变得条理清晰，以便我们后续处理和分析数据。
3. 保存数据：这里保存形式有多种多样，如可以简单保存为 txt 文本或 JSON 文本，也可以保存到数据库，如 MySQL, MongoDB, REDIS,也可保存至远程服务器。
4. 自动化程序：爬虫就是代替我们来成这份爬取工作的自动化程序，它可以在抓取过程中进行各种异常处理、错误重试等操作，确保爬取持续高效地运行。