python爬虫初识(1)


前言

python学习笔记 (仅供学习使用)


一、介绍

1.开发环境:

mac
Python解释器3.8
集成开发环境Pycharm

2.什么是爬虫?

使用编程语言所编写的一个用于爬取web或app数据的应用程序

3.怎么爬取数据

找到要爬取的目标网站、发起请求
分析URL是如何变化的和提取有用的URL
提取有用的数据

4.爬虫数据能随便爬取吗?

遵守robots.txt协议

二、爬虫的分类

1.通用网络爬虫

百度,Google等搜索引擎,从一些初识的URL扩展到整个网站,
主要为门户站点搜索引擎和大型网站服务采集数据

2.聚焦网络爬虫

又称主题网络爬虫,选择性地爬行根据需求的主题相关页面的网络爬虫

3.增量式网络爬虫

对已下载网页采取增量式更新知识和只爬行新产生或者已经发生变化的网页爬虫

4.深层网络爬虫

大部分内容不能通过静态的URL获取、隐藏在搜索表单后的、
只有用户提交一些关键词才能获得的网络页面 

三、爬虫原理

1.通用网络爬虫的原理

简单来说 有url就爬 。
在这里插入图片描述

2.聚焦网络爬虫的原理

简单来说 符合需求的url才进行爬虫。
在这里插入图片描述

四、为什么用python语言写爬虫

1.PHP

PHP是世界上最好的语言,但他天生不是做这爬虫的“材料”,
因为它对多线程、异步支持的不是很好,并发处理能力弱。
爬虫是工具性程序,对速度和效率要求比较高。

2.Java

是Python爬虫最大的竞争对手。但是Java语言本身很笨重,代码量很大。
重构成本比较高,任何修改会导致代码大量改动。爬虫经常要修改采集代码。

3.C/C++

运行效率是无敌的。但是学习和开发成本高。写个小爬虫程序可能要大半天时间。

4.Python:

语法优美、代码简洁、开发效率高、支持的模块多。
相关的HTTP请求模块和HTML解析模块非常丰富。
还有Scrapy和Scrapy-redis框架让我们开发爬虫变量异常简单。

总结

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

周小唁

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值