0基础小白入门Python,先了解Python爬虫这3个问题

0基础小白入门Python,先了解Python爬虫这3个问题

想要学习Python,爬虫绝对是学习Python首要的入门方式。
总结来说,Python学习网络爬虫主要分3个大的版块:抓取,分析,存储。

前言

我们首先来了解一下爬虫的原理,了解什么是爬虫?爬虫的实质是什么?

一、什么是爬虫?

爬虫就是爬取网络数据的“虫子”,简单来讲就是网络数据采集。就像一个探测机器,到各个网站去抓取采集想到的数据,然后再把信息带回来。

二、爬虫的实质是什么?

爬虫的实质就是模拟浏览器的工作原理,通过编程向网络服务器请求数据(HTML表单),然后解析HTML,提取出自己想要的数据。

在这里插入图片描述

总结来说,网络爬虫主要分3个大的版块:抓取,分析,存储

  • 根据url获取HTML数据
  • 解析HTML,获取目标信息
  • 存储数据
  • 重复第一步

在这里插入图片描述

了解了爬虫的原理之后,我们再来看看要学习Python爬虫,我们还需要解决哪三个问题?

  • 熟悉Python编程
  • 了解HTML
  • 学习使用Python爬虫库

1、熟悉Python编程

Python是一种计算机程序设计语言,是面向对象的动态类型语言。其基础语法包括数据类型、数据结构、运算符、逻辑结构、函数、文件IO、错误处理等等。

2、了解HTML

HTML是一种用于创建网页的标记语言。它并不是编程语言,而是一种标记语言 。HTML标记包含标签(及其属性)、基于字符的数据类型、字符引用和实体引用等几个关键部分。可以被浏览器读取,并渲染成我们看到的网页样子。

在这里插入图片描述
在这里插入图片描述
3、学习使用Python学习库

Python爬虫库有很多,通用的爬虫库主要有以下这些:

在这里插入图片描述
其中,requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多,因为是第三方库,所以使用前需要cmd安装,找到python安装路径中的Scripts的路径:

C:\Users\Administrator\AppData\Local\Programs\Python\Python38-32\Scripts
cmd:cd
C:\Users\Administrator\AppData\Local\Programs\Python\Python38-32\Scripts

在这里插入图片描述

最后

学习python这项技能,首先要确定自己的兴趣,正所谓“兴趣是最好的老师”,确立目标后,再找到合适的方法,小白也可以实现从零到精通。

以上就是给初学者分享的入门需要了解的一些知识,希望和更多的人一起迈向IT人工智能时代。

关注小编,后续分享更多Python相关知识

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值