爬虫练习(一)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


提示:以下是本篇文章正文内容,下面案例可供参考

一、环境准备示例

Python安装
requests库抓取网站数据
Beautiful Soup 解析网页

二、网页结构

网页一般由三部分组成,分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JScript(活动脚本语言)。
HTML常用标签

<html>..</html> 表示标记中间的元素是网页
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<li>..</li>表示列表
<img>..</img>表示图片
<h1>..</h1>表示标题
<a href="">..</a>表示超链接

CSS 表示样式<style type="text/css">定义了外观。
JScript 表示功能。交互的内容和各种特效都在 JScript 中,JScript 描述了网站中的各种功能。
一个基础的HTML

<html>
<head>
    <title> title1</title>
</head>
<body>
    <div>
        <p>title2</p>
    </div>
    <div>
        <ul>
            <li><a href="网址">爬虫</a></li>
            <li>数据清洗</li>
        </ul>
    </div>
</body>

三.爬虫的合法性

每一个网站都有一个名为 robots.txt 的文档,当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档,就要判断是否有禁止访客获取的数据。

User-Agent:*
Disallow:/

四.基本原理

1 获取网页:利用requests等库获取网页的源代码,提取想要的信息。
2. 提取信息: Beautiful Soup pyquery lxml等,使用这些库,可以高效快速地从中提取网页信息,如节点的属性 文本值等, 提取信息是爬虫非常重要的部分,它可以使杂乱的数据变得条理清晰 ,以便我们后续处理和分析数据。
3. 保存数据:这里保存形式有多种多样,如可以简单保存为 txt 文本或 JSON 文本,也可以保存到数据库,如 MySQL, MongoDB, REDIS,也可保存至远程服务器。
4. 自动化程序:爬虫就是代替我们来成这份爬取工作的自动化程序,它可以在抓取过程中进行各种异常处理、错误重试等操作 ,确保爬取持续高效地运行。

能爬取怎样的数据

各种二进制数据,如图片 、视频和音频等对应各自的 URL 是基于 HTTP或HTTPS协议的数据爬虫都可以抓取。
(使用JavaScript 渲染的页面特殊处理)

网页请求

网页请求的过程分为两个环节:
GET:最常见的方式,一般用于获取或者查询资源信息,也是大多数网站使用的方式,响应速度快。
POST:相比 GET 方式,多了以表单形式上传参数的功能,因此除查询信息外,还可以修改信息。
在写爬虫前要先确定向谁发送请求,用什么方式发送。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值