文章目录
前言
python学习笔记 (仅供学习使用)
一、介绍
1.开发环境:
mac
Python解释器3.8
集成开发环境Pycharm
2.什么是爬虫?
使用编程语言所编写的一个用于爬取web或app数据的应用程序
3.怎么爬取数据
找到要爬取的目标网站、发起请求
分析URL是如何变化的和提取有用的URL
提取有用的数据
4.爬虫数据能随便爬取吗?
遵守robots.txt协议
二、爬虫的分类
1.通用网络爬虫
百度,Google等搜索引擎,从一些初识的URL扩展到整个网站,
主要为门户站点搜索引擎和大型网站服务采集数据
2.聚焦网络爬虫
又称主题网络爬虫,选择性地爬行根据需求的主题相关页面的网络爬虫
3.增量式网络爬虫
对已下载网页采取增量式更新知识和只爬行新产生或者已经发生变化的网页爬虫
4.深层网络爬虫
大部分内容不能通过静态的URL获取、隐藏在搜索表单后的、
只有用户提交一些关键词才能获得的网络页面
三、爬虫原理
1.通用网络爬虫的原理
简单来说 有url就爬 。
2.聚焦网络爬虫的原理
简单来说 符合需求的url才进行爬虫。
四、为什么用python语言写爬虫
1.PHP
PHP是世界上最好的语言,但他天生不是做这爬虫的“材料”,
因为它对多线程、异步支持的不是很好,并发处理能力弱。
爬虫是工具性程序,对速度和效率要求比较高。
2.Java
是Python爬虫最大的竞争对手。但是Java语言本身很笨重,代码量很大。
重构成本比较高,任何修改会导致代码大量改动。爬虫经常要修改采集代码。
3.C/C++
运行效率是无敌的。但是学习和开发成本高。写个小爬虫程序可能要大半天时间。
4.Python:
语法优美、代码简洁、开发效率高、支持的模块多。
相关的HTTP请求模块和HTML解析模块非常丰富。
还有Scrapy和Scrapy-redis框架让我们开发爬虫变量异常简单。