爬虫基础了解

最新推荐文章于 2024-04-14 17:30:00 发布

算法入门中

最新推荐文章于 2024-04-14 17:30:00 发布

阅读量176

点赞数

分类专栏： python 文章标签： python https http

本文链接：https://blog.csdn.net/weixin_44918193/article/details/108900139

版权

python 专栏收录该内容

14 篇文章 1 订阅

订阅专栏

最近开始学习爬虫开发入门，记录了一些学习笔记

以下是需要了解的一些术语：

反爬机制

	门户网站，可以通过制定相应的政策或者技术手段，防止爬虫程序进行进行网站数据的爬取

反反爬策略

	爬虫程序可以通过指定相关的策略或者技术手段，破解门户网站中具备的反爬机制，从而获取门户网站中的数据

robots.txt协议

	君子协议。规定了网站中哪些数据可以被爬虫爬取，哪些数据不可以被爬取

http协议

	-概念：就是服务器和客户端进行数据交互的一种形式。

常用请求头信息

	-User-Agent：请求载体的身份标识
	-Connection：请求完毕后，是断开连接还是保持连接

常用响应头信息

	-Content-Type：服务器响应回客户端的数据类型

https协议

	-安全的超文本传输协议

加密方式

	-对称密钥加密
	-非对称密钥加密
	-证书密钥加密

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

算法入门中

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

爬虫数据采集违法吗？什么样的行为使用爬虫是违法的

Python栈

06-26

9510

爬虫技术本身是不违法的，它只是一个工具，会造成违法后果的是使用工具的人的不当行为。那么想要合理正确的使用爬虫数据，就要知道哪些行为是不能做的。下面小编会在下面的文章详细介绍什么样的行为使用爬虫是违法的。

一个软件开发者的历史走在法律的边缘

JustinLee的专栏

10-27

857

刚看到一个关于程序员写爬虫被抓的故事。想起来，当年也遇到类似的情况。自己选择了离开。在互联网公司过去20年的发展中，从移动增值业务、短信PUSH 以及后来的大数据挖掘用户信息，其实很多都是走在法律的边缘。技术犯罪非常隐蔽。搜狐在增值业务上被处罚过，但是更多的是没有被处罚到的。比如有的域名服务商，注册一个网址告诉我已经被占用，后来查其他服务商，发现不是那么会事。立法上，应该有懂技术的， ...

1 条评论您还未登录，请先登录后发表或查看评论

做爬虫合不合法？爬取什么内容是合法的？

m0_59236602的博客

12-20

3721

首先还是那句老话，爬虫技术本身无罪是合法的，可以说互联网上 50%以上的流量都是爬虫创造的，也许你看到很多热门数据都是爬虫所创造的，所以可以说无爬虫就无互联网的繁荣。Robots 协议也叫 robots.txt（统一小写）是一种存放于网站根目录下的 ASCII 编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。这里把Python常用的技术点做了整理，有各个领域的知识点汇总，可以按照上面的知识点找对应的学习资源。

爬虫数据采集违法吗？什么样的行为使用爬虫是违法的_哪些爬虫行为是违法的

m0_59235508的博客

04-14

3372

爬虫技术本身是不违法的，它只是一个工具，会造成违法后果的是使用工具的人的不当行为。那么想要合理正确的使用爬虫数据，就要知道哪些行为是不能做的。下面小编会在下面的文章详细介绍什么样的行为使用爬虫是违法的。1.爬取商业数据如果只是爬取行业内公开在万维网上的数据那自然是不违法的，但是很多公司会为了在行业竞争中取得优势，非法的去爬取竞争对手的信息。像是爬取内部高层员工内容、公司内部通告、网站或软件后台数据等都是违法行为，18年的武汉元光公司爬取他人软件后台数据一案就是典型例子。2.站点有明确声明。

python爬虫笔记——可爬与不可爬

Fo*(Bi)的博客

06-21

2944

通常情况下，服务器不太会在意小爬虫，但是，服务器会拒绝频率很高的大型爬虫和恶意爬虫，因为这会给服务器带来极大的压力或伤害。服务器在通常情况下，对搜索引擎是欢迎的态度（因为谷歌和百度的核心技术之一就是爬虫）。当然，这是有条件的，而这些条件会写在Robots协议。 #Robots协议是互联网爬虫的一项公认的道德规范，它的全称是“网络爬虫排除标准”（Robots exclusion protocol），这个协议用来告诉爬虫，哪些页面是可以抓取的，哪些不可以。如何查看网站的robots协议呢，很简单，在网站的域

python爬虫基础课件.pdf

06-20

根据提供的文件信息，这份python爬虫基础课件主要涵盖了网络爬虫的概念、原理、基本流程以及实现数据抓取和处理的关键技术点。首先，网络爬虫是自动获取网页内容的程序，常用于搜索引擎、数据采集等场景。网络爬虫...

Python爬虫基础教程

04-02

本教程将引导你逐步了解Python爬虫的基础知识，包括如何发送网络请求、解析网页内容、提取所需数据以及存储数据。在开始之前，确保你已经安装了必要的Python库，如requests、BeautifulSoup和urllib，它们可以通过pip...

Python爬虫基础课件(PPT版)-欢迎来到Python爬虫基础课件！在这个课程中，我们将深入了解Python爬虫的概念

热门推荐

weixin_45583158的博客

05-27

2万+

在互联网上进行自动数据采集（抓取）这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”，有时会把网络数据采集程序称为网络机器人（bots）。最常用...

听说只要学会了Python爬虫，没有什么爬不到的！

码农王也的博客

10-22

1339

筒子们，你们知道怎么学爬虫吗？正确的入门姿势在这里！只要学好了Python爬虫，真的是可以想爬什么爬什么哟，像什么美女图片啦，美食图片啦，美景图片啦。（小编可不知道你想看啥，反正只要学会了，啥都有哦）一：爬虫准备（在安装好Python的前提下） 1.爬虫首先需要做的事情就是要确定好你想要爬取数据的对象，这里我将以百度主页logo图片的地址为例进行讲解。 2.首先，是打开百度主页界面，然后把...

爬虫要违法了吗？小编告诉大家：守住规则，大胆去爬

weixin_44099558的博客

12-30

2万+

最近我学习和实践网络爬虫，总想着在这儿抓点数据在那儿抓点数据。但不知为什么，抓取别人网站数据时，总会产生莫名恐慌生怕自己一不小心就侵权了，然后被关在监狱摩擦所以我想现在这个时候，非常有必要仔细研究一下有关网络爬虫的规则和底线。我们生活中几乎每天都在爬虫应用，如百度，你在百度中搜索到的内容几乎都是爬虫采集下来的(百度自营的产品除外，如百度知道、百科等)，所以网络爬虫作为一门...

如何防止网站被爬虫爬取的几种办法

weixin_34121282的博客

09-26

2565

今天想对一个问题进行分析和讨论，就是关于爬虫对网站页面爬取的问题，有些网站通过爬虫去采集其它的网站页面信息作为己用，大量的爬取行为会对web服务器有比较性能有影响，主要的表现就是会变得很慢。对于如何防止网站被爬取，我想从以下几种方法去分析：1.基于程序本身去防止爬取：作为爬虫程序，爬取行为是对页面的源文件爬取，如爬取静态页面的html代码，可以用jquery去模仿写html，这种方法伪装的页面就很...

【爬虫】了解爬虫相关信息这一篇文章就够了

weixin_51656605的博客

02-04

3638

在jupyter中添加自己创建的环境

weixin_44918193的博客

01-20

5477

1.创建想要添加的虚拟环境 conda create -n test python=3.7 其中test是我自己创建的环境的名称。创建之后可以通过conda env list 查看所有已存在的环境，并通过activate 环境名称进入该环境，进行各种包的安装及操作。 2.将新的环境添加到jupyter中 2.1安装ipykernel conda install ipykernel 2.2将环境写入notebook的kernel中 python -m ipykernel install --user

python基础知识3

weixin_44918193的博客

10-21

2642

1.python中的比较大小复数不支持比较大小类似元组，字符串，列表这类格式，在进行两者之间的比较时，先从第一个元素开始比较ASCII码值的大小，如果相等，则依次往后比较，如果全部相等，则比较数量大小 ASCII码值大小：数字：0-9 48-57 字母： A-Z 65-90 a-z 97-122 一串数字，字符的ASCII码值大小取决于最后一位的ASCII码值，例如：1234的ASCII码值为52，4的码值也为52.ABCDA的码值为65，A的码值也为65 2.装饰器 3. 新式类：c

根据QQ号获取昵称和头像

weixin_44918193的博客

02-03

1930

# 开发时间：2021/2/2 22:28 # 开发工具：PyCharm # 开发者：GoTop import requests import re def getPhoto(qqCode): url = f"http://q.qlogo.cn/headimg_dl?dst_uin={qqCode}&spec=640&img_type=jpg" headers = { 'Referer': 'http://pic.netbian.com/4kmeinv/in

Python网络爬虫基础教程

通过本资源的学习，用户将能够掌握如何使用Python编写简单的网络爬虫，了解爬虫的基本工作原理，学会使用常用库进行网页内容的抓取、解析和存储，为进一步深入学习和开发复杂的网络爬虫打下坚实的基础。对于有一定...