Python简单爬虫开发的学习笔记整理（爬取百度百科词条）

Miles-

于 2017-10-02 18:36:31 发布

阅读量708

点赞数

分类专栏： Python 文章标签：爬虫 python 数据分析

本文链接：https://blog.csdn.net/wl_ss/article/details/78151977

版权

Python简单爬虫开发的学习笔记整理（爬取百度百科词条）笔者刚刚学完Python基础及利用Python进行数据分析，顺便跟着慕课网上的一个爬虫课程学习爬虫，网址：Python开发简单爬虫，课程条理逻辑清晰，简单易懂，项目代码易于拓展应用，适合入门学习。以下是课程的主要内容及笔记：第一章：课程介绍第二章：爬虫简介及其技术价值第三章：简单爬

摘要由CSDN通过智能技术生成

Python简单爬虫开发的学习笔记整理（爬取百度百科词条）

笔者刚刚学完Python基础及利用Python进行数据分析，顺便跟着慕课网上的一个爬虫课程学习爬虫，网址：Python开发简单爬虫，课程条理逻辑清晰，简单易懂，项目代码易于拓展应用，适合入门学习。

以下是课程的主要内容及笔记：

第一章：课程介绍

第二章：爬虫简介及其技术价值

第三章：简单爬虫架构

爬虫调度端：启动爬虫，停止爬虫，监视爬虫运行情况
URL管理器：对将要爬取的和已经爬取过的URL进行管理；可取出带爬取的URL，将其传送给“网页下载器”
网页下载器：将URL指定的网页下载，存储成一个字符串，在传送给“网页解析器”
网页解析器：解析网页可解析出①有价值的数据②另一方面，每个网页都包含有指向其他网页的URL，解析出来后可补充进“URL管理器”

爬虫架构运行流程：
调度器询问url是否有待爬取的url，如果有，则取出一个url传送给下载器，下载器下载完成后，返回给调度器，调度器将内容传送给解析器，解析器分析出有用数据及关联url，返回给调度器，调度器一方面将有价值数据传送给应用进行存储及分析，另一方面将新的url传送给url管理器。如此循环

第四章：URL管理器及实现方法

第五章：网页下载器和urllib2模块介绍

5.1 Python爬虫网页下载器简介

最低0.47元/天解锁文章

Miles-

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Python简单爬虫开发的学习笔记整理（爬取百度百科词条）

Python简单爬虫开发的学习笔记整理（爬取百度百科词条）笔者刚刚学完Python基础及利用Python进行数据分析，顺便跟着慕课网上的一个爬虫课程学习爬虫，网址：Python开发简单爬虫，课程条理逻辑清晰，简单易懂，项目代码易于拓展应用，适合入门学习。以下是课程的主要内容及笔记：第一章：课程介绍第二章：爬虫简介及其技术价值第三章：简单爬
复制链接

扫一扫

专栏目录