Python网络爬虫
文章平均质量分 82
网络爬虫个人笔记
Almango
正在努力学习网络技术的00后,爱好编程,硬件。
展开
-
Python网络爬虫入门基础 _简易的翻译小程序【7】
最后再次声明一下本次实战案例是以学习为目的,不会有其他恶意行为,文章仅供参考虽然我也觉得经常爬别人的网站是不对的,不过,我们也是抱着学习的态度去做,只要没有恶意,或者频繁使用爬虫,都是可以的。本次制作的翻译小程序我们只是利用到了金山词霸内的信息,目前只能翻译单词或词语,无法翻译语句,若想实现这一功能,同样可以按照上面的方法,添加一些代码即可。内容为本人学习笔记,难免有不足之处,恳请大家批评指正。原创 2023-07-26 11:03:11 · 219 阅读 · 1 评论 -
Python网络爬虫入门基础 _XPath解析【6】
XPath:XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath 的选择功能十分强大,它提供了非常简洁明了的路径选择表达式,另外它还提供了超过 100 个内建函数用于字符串、数值、时间的匹配以及节点、序列的处理等等,几乎所有我们想要定位的节点都可以用XPath来选择。本次简单地讲到了XPath用作于提取内容的过程。作为当前最流行火爆的爬虫解析器,其根本因素它拥有强大的数据分析能力和多样的定位功能,让爬虫有了更多的选择。原创 2023-07-22 15:13:52 · 692 阅读 · 0 评论 -
Python网络爬虫入门基础 _URL封装【5】
. 在我们访问网站时,通常会看到不一样的网址,就如豆瓣电影的动作片排行榜的网页路径一样。并不是一个很层级形式的路径。 . 这就是URL封装。原创 2023-07-24 11:06:29 · 212 阅读 · 0 评论 -
Python网络爬虫入门基础 _反爬虫【4】
反爬虫:**是指对扫描器中的网络爬虫环节进行反制,它会根据ip访问频率,浏览网页速度和User-Agent等参数来判断是否为网络爬虫,随后通过一些反网络爬虫机制来阻止或妨碍网络爬虫的正常爬取。**以此达到网络爬虫恶意获取网站资源的效果。指的是将爬虫伪装成其他工具,我们知道请求头中的User-Agent是用于告诉服务器请求是通过什么工具发出的(浏览器,程序,),以及工具对应的版本和类型是什么。原创 2023-07-16 11:56:54 · 1385 阅读 · 1 评论 -
Python网络爬虫入门基础 _发送HTTP请求【3】
本次我们简单地介绍如何用Python Requests模块来发送HTTP请求并得到响应内容。这下有人可能会说:就这?这不在浏览器就能搞的源码吗?但我想说的是:这只是爬虫的第一步,小试牛刀而言。我也是学一步,写一步。我相信后面一定会更精彩。后面讲解突破反爬虫机制。内容为本人学习笔记,难免有不足之处,恳请大家批评指正。原创 2023-07-13 09:33:36 · 386 阅读 · 1 评论 -
Python网络爬虫入门基础 _HTTP请求与响应【2】
1.HTTP:超文本传输协议(Hypertext Transfer Protocol,简称:HTTP)它是一个简单的请求-响应协议,架构运行在TCP之上。这套协议定义了客户端可发送什么样的请求(Request)信号和服务器可返回什么样的响应(Response)。它的作用是规定www服务器与浏览器之间信息传递规范,是二者共同遵守的协议。2.当用户使用浏览器输入网址访问目标网站时,需要向网站服务器发送HTTP请求,通过发送请求即可从服务器获取页面内容的响应。原创 2023-07-11 20:02:53 · 126 阅读 · 0 评论 -
Python网络爬虫入门基础 _初识【1】
Web Crawler:网络爬虫。顾名思义,可以把网络理解成一张网,爬虫就是每天在网上爬来爬去的蜘蛛,因为我们所访问的网页都是互通的,通过跳转,可以访问其他的网络资源,这样,爬虫就可以在网络中爬取我们想要的资源。(所以网络爬虫又被称为网页蜘蛛,网络机器人,在某一社区中。被称为网页追逐者)它可以按照指定的规则即网络爬虫的算法自动地在互联网,网页中抓取网络的信息。1.编写网络爬虫程序是一个长期的过程,往后的学习之路还很长。希望通过介绍,能对爬虫有个简单而深刻的认识。原创 2023-07-11 14:39:55 · 76 阅读 · 0 评论