爬虫基础day01

最新推荐文章于 2024-08-03 19:27:22 发布

敷衍的温柔再温柔也是敷衍

最新推荐文章于 2024-08-03 19:27:22 发布

阅读量119

点赞数 1

分类专栏：爬虫基础文章标签：爬虫 python

本文链接：https://blog.csdn.net/weixin_45697354/article/details/116069708

版权

1 篇文章 0 订阅

订阅专栏

什么是网络爬虫？（面试题）

网络爬虫（Web Spider 又称为网页蜘蛛、网络机器人）就是模拟浏览器发送网络请求，就收请求响应，一种按照一定的规则，自动的抓取互联网信息的程序。
通俗的讲，爬虫就是能够自动访问互联网并将网站内容捕获下来的程序和脚本，我们可以通过爬虫过滤、筛选、归纳、整理等等逻辑拿到我们想要的数据。

根据被爬网站的数量不同 我们把爬虫分为：
	通用爬虫：通常指搜索引擎的爬虫，例如百度 https://www.baidu.com
	聚焦爬虫：针对特定旺网站的爬虫
	
我们程序员要做的是聚焦爬虫（定向爬虫）

1.其他公司开发的通用爬虫

通用的数据采集器，实用于爬取普通数据，但针对特定数据往往无法实现。

2.开发人员自己开发的爬虫

目的性强，适用特定数据，更加附带针对性，当然逻辑相对繁杂。

其实只要能够发送HTTP（s）请求的任何编程语言都是可以做爬虫的，像C语言、C++、java、php、js等

那为什么一般情况下提到爬虫，一般都默认指Python编程语言呢？

因为：python编程语言简洁，有大量现成的模块供我们使用，因此虽然Java也能做爬虫，但是他们写100行代码时，我们用python写10行就ok了，所以做爬虫还是python香。。。真香。。

在这里插入图片描述

起始url发送请求，获取响应

关注