爬虫
文章平均质量分 94
在飞行-米龙
这个作者很懒,什么都没留下…
展开
-
Scrapy框架 进阶
在Scrapy中,parse方法返回的数据(无论是Item对象还是其他数据结构)会被Scrapy引擎自动迭代、自动迭代、自动迭代,并逐个传递给Pipeline的方法。需要在pipline.py文件中创建一个类当爬虫开始时,这里会执行一些初始化操作例如,可以建立数据库连接、打开文件等spider参数不能少当爬虫结束时,这里会执行一些清理操作例如,可以关闭数据库连接、关闭文件等spider参数不能少每次要保存一个对象时,这个方法会被触发。原创 2024-04-15 13:22:57 · 877 阅读 · 1 评论 -
Scrapy 框架基础
官网:https://docs.scrapy.org/en/latest/topics/commands.html查看全部可用命令的帮助信息,或指定命令的详细信息# 全部命令 scrapy - h # 指定命令详细信息 scrapy 命令 - h全局命令不需要切换至项目文件夹项目命令需要切换至项目文件夹。原创 2024-04-15 12:00:00 · 1055 阅读 · 0 评论 -
爬虫 selenium
动作链是一种用于模拟复杂用户交互操作的功能鼠标、键盘操作等导入动作链类ActionChains导入键盘类Keys无头浏览器是一种没有图形界面(GUI)的的网络浏览器他通过在内存中渲染页面,然后将结果发送回请求它的用户或程序来实现对网络的访问,而不会在屏幕上显示网页优点执行速度快、减少干扰、资源消耗低、易于集成、应用范围广缺点不能完全模拟用户真实行为、不适用于需要页面渲染验证的场景、调试困难。原创 2024-04-10 19:07:07 · 910 阅读 · 0 评论 -
爬虫 xpath基础
xpath全程XML Path Language,即主要用途对比正则表达式。原创 2024-04-10 19:00:26 · 522 阅读 · 0 评论 -
爬虫 BeautifulSoup模块
导入【3】解析器解析器使用方法特点自带html.parserBeautifulSoup(页面源码,‘html.parser’)简单易用:标准库的一部分,无需安装速度适中:性能不是最快的,但对于大所数常见任务足以功能基础:提供了基本的HTML解析功能,对复杂的HTML或错误会吃力第三方lxmlBeautifulSoup(页面源码,‘lxml’)性能优越:所有python HTML/XML解析器中性能最好的功能丰富:支持Xpath和CSS选择器需要自行导入安装第原创 2024-04-09 17:04:35 · 927 阅读 · 0 评论 -
Scrapy 爬取m3u8视频
工具是ffmpegindex.m3u8文件开发者模式F12补全路径发起请求广告,可以过滤掉ts文件mp4文件原创 2024-04-09 17:00:23 · 2300 阅读 · 3 评论 -
Python 爬虫基础
有时,API 可能使用自定义的认证机制,而不是基本认证。在这种情况下,可以通过手动设置请求头来提供认证信息:创建一个包含认证信息的字典headers,并将其传递给headers参数这允许发送任何自定义的认证头。token } ' # 假设API使用Bearer token认证 } response = requests . get(url , headers = headers)' # 假设API使用Bearer token认证。原创 2024-03-28 21:59:51 · 1791 阅读 · 0 评论