python爬虫初识

最新推荐文章于 2020-08-11 15:26:55 发布

wepkaitou

最新推荐文章于 2020-08-11 15:26:55 发布

阅读量106

点赞数

分类专栏：笔记

原文链接：http://c.biancheng.net/view/2011.html

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

python爬虫

1.了解爬虫

1.爬虫定义
学习python爬虫首先要知道python爬虫是什么：爬虫就是提取网页中有效的数据。
原理就是向服务器提交请求，服务器响应之后并返回数据。返回的数据再筛选提取之后就是我们要的有效数据。整个过程就是爬虫。

2.爬虫组成
1.发送请求的python代码。
2.被爬取的网页。
3.网页结构
爬取网页之前先简单了解一下网页的结构
HTML HTML是网页的结构，类似于网站框架。带’<>'符号都是HTML的标签，且成对出现
CSS 负责页面的样式
JScript 表示网页的各种功能。网页中所有的交互和特效都在JScript中。
在这里插入图片描述

2.实例

参照C语言中文网python爬虫入门http://c.biancheng.net/view/2011.html

3.总结

实例中用到requests库，这是一个功能强大、简单易用的http请求库。
用到requests库中的两种请求方式：
**1.get：**最常见方式，一般用于获取或者查询资源信息，也是大多是网站使用的方式，响应速度快。
2.post: 相比get方式多了以表单形式上传参数的功能，除了能够查询信息之外还可以修改信息。

Beautiful Soup： python自带的一个库，主要功能是从网页住抓取数据。但是目前被移植到bs4库中，在使用Beautiful Soup库时需要先安装bs4库。在实例中指定使用 lxml 解析器进行解析。
Beautiful Soup库支持 Python 标准库中的 HTML 解析器又支持一些第三方解析器，但是 lxml 库功能更加强大、速度更快，所以安装使用 lxml 库。

wepkaitou

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫初识

python爬虫1.了解爬虫1.爬虫定义学习python爬虫首先要知道python爬虫是什么：爬虫就是提取网页中有效的数据。原理就是向服务器提交请求，服务器响应之后并返回数据。返回的数据再筛选提取之后就是我们要的有效数据。整个过程就是爬虫。2.爬虫组成1.发送请求的python代码。2.被爬取的网页。3.网页结构爬取网页之前先简单了解一下网页的结构HTML HTML是网页的结构...
复制链接

扫一扫