一、爬虫简介

最新推荐文章于 2023-12-18 13:49:24 发布

虞过

最新推荐文章于 2023-12-18 13:49:24 发布

阅读量192

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_44210186/article/details/128240943

版权

简介

爬虫是会干扰网站的正常运营

爬虫不能抓取受到法律保护的特定类型的数据或信息

如何避免？

时常优化自己的程序，避免干扰网站正常允许
在抓取敏感数据时，审查抓取的内容，如果发现了涉及到用户隐私的内容要停止爬取或传播

爬虫再使用场景的分类：

1、通用爬虫

抓取系统重要的组成部分，抓取的是一整张页面数据

2、聚焦爬虫

是建立在通用爬虫的基础之上，抓取的页面中特定的局部内容

3、增量式爬虫

检测网站中数据更新的情况，只会抓取网站中最新更新出来的数据

爬虫的矛与盾

反爬机制：门户网站，可以通过制定相应的策略或者技术手段，防止爬虫程序进行网站数据的爬取

反反爬机制：爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站

robots.txt协议

网站中的该协议会约定哪些数据是可以爬取哪些数据是不能爬取，规约

Http协议和 https协议

概念：就是服务器和客户端进行数据交互的一种形式

常用请求头信息：

user-agent：请求载体的身份标识

connection：请求完毕后是断开链接还是保持连接

常用响应头信息：

content-type：服务器响应回客户端的数据类型

https协议：

安全的超文本传输协议，数据交互是加密的

加密方式：

对称密钥加密
非对称密钥加密
证书密钥加密

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

虞过

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

网络爬虫简介

08-29

网络爬虫简介网络爬虫是按照一定规则，自动抓取万维网信息的程序或者脚本。简单点说就是一段自动化执行的程序，它会请求网站并提取数据。网络爬虫技术是搜索引擎的根基，每天都要爬取网络上海量的数据，然后再做...

网络爬虫简介ppt课件.ppt

11-13

"网络爬虫简介ppt课件" 网络爬虫是指按照一定的规则，自动的抓取万维网信息的程序或者脚本。爬虫可以用于提供最新的数据，主要用于提供它访问过页面的一个副本，然后，搜索引擎就可以对得到的页面进行索引，以提供...

参与评论您还未登录，请先登录后发表或查看评论

爬虫协议-反爬虫

weixin_30912051的博客

03-26

360

# 例如 https://130.14.250.12/robots.txt User-agent: * Disallow: / http://www.robotstxt.org/robotstxt.html The "User-agent: *" means this section applies to all robots. The "Disallow: /" tells the r...

反爬虫一：robots协议实践

pygodnet的博客

12-14

796

一：什么是robots? Robots协议，又称作爬虫协议，机器人协议，全名叫做网络爬虫排除标准（Robots Exclusion Protocol）,是用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取，通常为一个robots.txt文本文件，一般放在网站的根目录下。如：https://www.jd.com/robots.txt 二：基本语法 User-agent:Baiduspider（描述了搜索爬虫的名称，这里为Baiduspider，代表设置的规则是对百度爬虫是有效的，如果有很多条的User-

反爬虫robots协议，处理方法

weixin_45070922的博客

03-15

2437

Robots协议 Robots：通过robots协议告诉搜索引擎那些页面可以抓取，那些页面不能抓取；位置：根目录下，网址/robots.txt; 例如： https://www.baidu.com/robots.txt https://www.douban.com/robots.txt 得到如下结果： User-agent: * Disallow: /subject_search Disallow: /amazon_search Disallow: /search Disallow: /group/sea

python爬虫由浅入深2--反爬虫Robots协议

rytyy的博客

09-26

1955

Robots协议：网络爬虫排除标准在我们想要爬取某个站点时，可以通过查看此站点的相关Ｒｏｂｏｔｓ协议来查看哪些可以爬，哪些不能爬，当然，仅仅是网站维护者制定的规则而已，并不是说，他们禁的数据我们就爬不到 Robots协议的形式：在网站的Robots

爬虫的概念、类型、反爬机制和反反爬策略及robots.txt协议

微滑低的博客

01-27

513

爬虫的概念及类型 1.什么是爬虫？通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程 2，类型通用爬虫：抓取系统重要组成部分,抓取的是一整张页面数据聚焦爬虫：是建立在爬虫的基础之上。抓取的是页面中特定的局部内容增量式爬虫：检测网站中数据更新的情况。之后抓取网站中最新更新出来的数据 3.反爬机制门户网站，可以通过制定相关的策略或者技术手段，防止爬虫程序进行网站数据的爬取 4.反反爬策略爬虫程序可以通过制定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而可以获取门户网站

Python网络爬虫技术第1章 Python爬虫环境与爬虫简介教案.pdf

05-29

**一、爬虫原理** 爬虫，又称网络蜘蛛或机器人，是一种自动化程序，通过模拟人类浏览网页的行为，抓取互联网上的信息。爬虫通常包括以下步骤：发送请求、接收响应、解析页面内容和存储数据。其工作流程为： 1. ...

Python爬虫包BeautifulSoup简介与安装（一）

09-20

Python爬虫包BeautifulSoup简介与安装的知识点主要涉及以下几个方面： 1. BeautifulSoup概述： BeautifulSoup是Python的一个库，主要用于从网页中提取和解析HTML/XML文档数据。它提供简单直观的API，允许用户轻松地...

Python网络爬虫技术第1章 Python爬虫环境与爬虫简介教案.docx

05-29

#### 一、爬虫概念与原理 - **定义**：网络爬虫（Web Crawler），又称网页蜘蛛或网络机器人，是一种按照一定的规则自动地抓取万维网信息的程序或者脚本。 - **工作流程**： - 发起请求：向指定的URL地址发送HTTP...

网络协议反扒机制 fidder 抓包工具

weixin_34235457的博客

04-22

366

协议 http 协议: client 端 server 端交互的一种形式请求头信息: User-Agent: 情求载体的身份标识 connection: 'close' 连接状态请求成功后断开连接响应头信息: Content-Type: HTTPS 协议: 数字证书认证机构是客户端与服务器都可信赖的第三方机构。证书的具体传播过程如下：服务器的开发者携带公开密钥，向数字证书认...

Python 反爬虫与反反爬虫

小嗷犬的博客

09-08

3033

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。大家可以理解为在网络上爬行的一只蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛，如果它遇到自己的猎物（所需要的资源），那么它就会将其抓取下来。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的链接，那么它就可以爬到另一张网上来获取数据。

反爬虫

qq_40233706的博客

04-08

192

爬虫的具体介绍就不说了，这里想对自己多年的爬虫中遇到的情况进行一个总结 1.模拟浏览器 2.Ip 3.登录 4.验证码 5.各种信息加密 6.请求频率 1.模拟浏览器目前度娘一搜一大把，最集中的就是ua了，搭建一个随机ua池，不断的变化ua，很普遍的方法, 这里推荐一个大神写的开源库 fake-useragenthttps://github.com/hellysmile/...

反爬反反爬,总是找不到，拿来做个备份，方便后面查看

qq_46906413的博客

04-04

3412

反爬与反反爬策略学习目录：一、常见反爬策略二、反反爬策略学习内容： " 爬虫与反爬虫永远是相生相克的：当爬虫知道了反爬策略就可以制定反-反爬+策略，同样地，网站知道了爬虫的反-反爬策略就可以制定反-反-反爬策略。正可谓是道高一尺魔高一丈，两者之间的斗争是永远不会结束的。" 一、常见反爬策略反爬虫，是指对扫描器中的网络爬虫环节进行反制，通过一些反制策略来阻碍或干扰爬虫的正常爬行，从而间接地起到防御目的。比如当我们在某一网站浏览过快时，这种快速浏览的行为很接近爬虫，系统往往就会要求输入验证码。在

从零开始学爬虫(7)——robots协议

qq_43029747的博客

11-19

166

一、robots协议下图截自《HTTP权威指南》：例如获取淘宝的robots.txt文件方法：登录：https://www.taobao.com/robots.txt

Robots协议（爬虫协议、机器人协议）

weixin_34253539的博客

05-07

968

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。 ____________________________________ Robots协议也称为爬虫协议、爬虫规则、机器人协议，是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信...

robots协议

qq_53221728的博客

02-13

1776

在我们用爬虫去爬取数据时，有些网站不会阻止，但有的网站就不会那么轻松的把数据交给你爬取，所以就有了反爬机制。那我们就想要有反爬机制的数据怎么办，于是就有了反反爬策略。反爬机制门户网站可以制定相应的策略和技术手段，阻止爬虫程序对网站数据的爬取。反反爬策略爬虫程序通过制定相应的策略和技术手段，破解门户网站中具备的反爬机制，从而可以获取网站的数据。它们的关系就很像矛和盾，之后我们会接触到很多的反爬机制，也会学习到很多的反反爬策略。现在就来学习一种最简单的反爬机制robots协议也叫君子协议。

反爬虫介绍及其处理方法