python之初级爬虫---->爬虫的开始

本文是Python爬虫的初级教程,介绍了浏览器的基本结构,包括用户界面、浏览器引擎、渲染引擎、网络等组件。同时,讲解了爬虫的四个步骤:获取数据、解析数据、提取数据和储存数据。文中提到了requests模块在爬虫中的应用,以及GET和POST方法。通过学习,读者将理解爬虫如何通过HTTP请求获取和处理网页数据。
摘要由CSDN通过智能技术生成

前言:

这篇博客涵盖了初级爬虫一些概念知识,刚开始学习爬虫时可能有些不理解,感觉繁琐,但是学到后面则慢慢逐渐发现这里的秘密,可以反过头来复习就会有很大的收获

爬虫原理可参考https://blog.csdn.net/xdc1812547560/article/details/107954805

浏览器

想要去获取数据,那么从哪里获取呢?

首先想到的,自然是网页,的确大部分数据都来源于网页,而网页则又与浏览器息息相关
浏览器抽象结构图:
在这里插入图片描述

👉1、用户界面(User Interface)

(1)用户界面主要包括工具栏、地址栏、前进/后退按钮、书签菜单、可视化页面加载进度、智能下载处理、首选项、打印等。除了浏览器主窗口显示请求的页面之外,其他显示的部分都属于用户界面。

(2)用户界面还可以与桌面环境集成,以提供浏览器会话管理或与其他桌面应用程序的通信。

👉2、浏览器引擎(Browser Engine)

(1)浏览器引擎是一个可嵌入的组件,其为渲染引擎提供高级接口。

(2)浏览器引擎可以加载一个给定的URI,并支持诸如:前进/后退/重新加载等浏览操作。

(3)浏览器引擎提供查看浏览会话的各个方面的挂钩,例如:当前页面加载进度、JavaScript alert。

(4)浏览器引擎还允许查询/修改渲染引擎设置。

👉3、渲染引擎(Rendering Engine)

(1)渲染引擎为指定的URI生成可视化的表示。

(2)渲染引擎能够显示【HTML】和【XML】文档,可选择【CSS】样式,以及嵌入式内容(如图片

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值