0基础小白入门Python,先了解Python爬虫这3个问题
想要学习Python,爬虫绝对是学习Python首要的入门方式。
总结来说,Python学习网络爬虫主要分3个大的版块:抓取,分析,存储。
前言
我们首先来了解一下爬虫的原理,了解什么是爬虫?爬虫的实质是什么?
一、什么是爬虫?
爬虫就是爬取网络数据的“虫子”,简单来讲就是网络数据采集。就像一个探测机器,到各个网站去抓取采集想到的数据,然后再把信息带回来。
二、爬虫的实质是什么?
爬虫的实质就是模拟浏览器的工作原理,通过编程向网络服务器请求数据(HTML表单),然后解析HTML,提取出自己想要的数据。
总结来说,网络爬虫主要分3个大的版块:抓取,分析,存储。
- 根据url获取HTML数据
- 解析HTML,获取目标信息
- 存储数据
- 重复第一步
了解了爬虫的原理之后,我们再来看看要学习Python爬虫,我们还需要解决哪三个问题?
- 熟悉Python编程
- 了解HTML
- 学习使用Python爬虫库
1、熟悉Python编程
Python是一种计算机程序设计语言,是面向对象的动态类型语言。其基础语法包括数据类型、数据结构、运算符、逻辑结构、函数、文件IO、错误处理等等。
2、了解HTML
HTML是一种用于创建网页的标记语言。它并不是编程语言,而是一种标记语言 。HTML标记包含标签(及其属性)、基于字符的数据类型、字符引用和实体引用等几个关键部分。可以被浏览器读取,并渲染成我们看到的网页样子。
3、学习使用Python学习库
Python爬虫库有很多,通用的爬虫库主要有以下这些:
其中,requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多,因为是第三方库,所以使用前需要cmd安装,找到python安装路径中的Scripts的路径:
C:\Users\Administrator\AppData\Local\Programs\Python\Python38-32\Scripts
cmd:cd
C:\Users\Administrator\AppData\Local\Programs\Python\Python38-32\Scripts
最后
学习python这项技能,首先要确定自己的兴趣,正所谓“兴趣是最好的老师”,确立目标后,再找到合适的方法,小白也可以实现从零到精通。
以上就是给初学者分享的入门需要了解的一些知识,希望和更多的人一起迈向IT人工智能时代。