爬虫
YIXiu-xiaowu
这个作者很懒,什么都没留下…
展开
-
网络爬虫分类
搜索引擎的主要组成,作用就是将互联网的上页面整体的爬取下来之后,保存到本地。网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页信息。2、定向爬虫(聚焦爬虫)我们编写的都是定向爬虫。原创 2024-09-04 11:00:56 · 603 阅读 · 0 评论 -
robots协议
robots协议是一个文本文件,位于网站的根目录下,名为robots.txt。它的作用是告诉网络爬虫在抓取网站时应该遵守的规则。这些规则包括哪些目录可以被爬取,哪些文件类型可以被爬取,以及哪些具体的页面可以被爬取或禁止被爬取。原创 2024-09-04 08:26:39 · 302 阅读 · 0 评论 -
一些反爬及其应对措施
若user-agent被检测到,可以找大量的user-agent,放入列表,然后随机,或者使用第三方库随机user-agent,比如fake_useragent这个库。解决方案:对于简单的验证码图片可以使用 ddddocr 来处理,对于复杂的可以去打码平台。解决方案:可以通过设置请求间隔,和爬取间隔。解决方案:可以通过伪装请求头中的user-agent来解决。( 1)通过user-agent来判断是否是爬虫。(3)通过访问频率来判断是否是一个爬虫。解决方案:可以通过代理来伪装IP。(2)将IP进行封杀。原创 2024-09-04 08:20:21 · 175 阅读 · 0 评论 -
python网络爬虫技术栈
以下是Python网络爬虫常用的技术栈,以表格形式展示:RequestsBeautifulSoupSeleniumMySQLMongoDB。原创 2024-09-04 08:10:16 · 1045 阅读 · 0 评论 -
User-Agent爬虫伪装
User-Agent 即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。绝大多数网站都具备一定的反爬能力,禁止网爬虫大量地访问网站,反爬虫。网站通过识别请求头中 User-Agent 信息来判断是否是爬虫访问网站。如果是,网站首先对该 IP 进行预警,对其进行重点监控,当发现该 IP 超过规定时间内的访问次数, 将在一段时间内禁止其再次访问网站。原创 2024-09-04 08:07:56 · 1369 阅读 · 0 评论 -
ip代理-爬虫
【代码】ip代理-爬虫。原创 2024-09-03 19:04:52 · 604 阅读 · 0 评论