![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
文章平均质量分 70
Python 爬取
YKenan
善待
展开
-
Python 爬虫 Selenium 中滑动验证码
Python 爬虫 Selenium 中滑动验证码1.1.原创 2021-07-08 19:42:30 · 2885 阅读 · 0 评论 -
Scrapy 项目中 settings 自定义参数和管道的基本使用
Scrapy 项目中 settings 和管道的基本使用1. settings 自定义参数1.1 引用获取1.2 内部获取2. 管道的基本使用1. settings 自定义参数KEY = "value"1.1 引用获取from mySpider.settings import KEY1.2 内部获取创建的爬虫文件获取print(self.settings["KEY"])print(self.settings.get("KEY"))yield { "KEY": self.set原创 2021-05-18 17:02:17 · 425 阅读 · 1 评论 -
Scrapy 项目 Item 数据基础使用
Scrapy 项目 Item 数据基础使用1. 配置 item 管道2. 传值3. 保存数据1. 配置 item 管道后面的数字是执行的级别, 数字越小越先执行.2. 传值Spider must return request, item, or None 传入值只支持这三种类型.3. 保存数据scrapy crawl csdn -o ./data/csdn/csdn.csv...原创 2021-05-17 15:16:08 · 809 阅读 · 1 评论 -
创建一个 scrapy 爬虫项目
创建一个 scrapy 爬虫项目1. 下载2. 创建一个新项目3. 生成一个爬虫4. 运行5. 修改日志水平和返回的内容1. 下载进入 cmd 中运行下面的语句pip3 install scrapy2. 创建一个新项目scrapy startproject mySpider进入项目路径cd mySpider用 IDEA 打开3. 生成一个爬虫到项目目录下运行下面的语句scrapy genspider 项目名 域名scrapy genspider csdn bl原创 2021-05-17 09:50:15 · 1808 阅读 · 0 评论 -
Python 爬虫 Selenium 基本使用
Python 爬虫 Selenium 基本使用1. 基础知识1.1 下载浏览器驱动1.2 帮助文档2. 浏览器操作2.1 浏览器导航2.2 窗口和选项卡2.3 Frames and Iframes2.3.1 通过元素切换2.3.2 通过 name 或 id 属性切换2.3.3 通过索引进行切换2.3.4 离开 iframe2.4 窗口管理3. 等待操作3.1 显式等待3.2 隐式等待3.3 流畅等待4. JS 的 alerts, 提示和确认5. 代理6. 页面加载策略7. Web 元素7.1 Find 元素原创 2020-12-31 22:02:29 · 701 阅读 · 0 评论 -
Python 爬虫线程
Python 爬虫线程1. 基础知识2. 基本使用免责声明:自本文章发布起, 本文章仅供参考,不得转载,不得复制等操作。浏览本文章的当事人如涉及到任何违反国家法律法规造成的一切后果由浏览本文章的当事人自行承担与本文章博客主无关。以及由于浏览本文章的当事人转载,复制等操作涉及到任何违反国家法律法规引起的纠纷和造成的一切后果由浏览本文章的当事人自行承担与本文章博客主无关。1. 基础知识爬取请求过程中遇到阻塞, 采用高性能异步爬虫爬取数据.异步爬虫方式:多线程, 多进程.1.1 好处: 可以为原创 2020-12-31 09:55:20 · 263 阅读 · 2 评论 -
Python 爬虫代理
Python 爬虫代理1. 基础知识2. 例子1. 基础知识代理: 代理服务器, 代理 IP, 解决封 IP 的反爬机制.代理的作用:突破自身 IP 访问的限制.隐藏自身真实 IP.代理的网站:快代理西刺代理www.goubanjia.com代理 IP 的类型:http: 应用到 http 协议对应的 URL 中.https: 应用到 https 协议对应的 URL 中.代理 IP 的匿名度:透明: 服务器知晓使用了代理, 且知道请求的真实 IP.原创 2020-12-30 22:07:44 · 302 阅读 · 0 评论 -
Python 爬虫云验证码识别
Python 爬虫验证码识别1. 百度智能云2. 使用2.1 API 文档使用2.2 SDK 文档使用3. 获取古诗文网验证码免责声明:自本文章发布起, 本文章仅供参考,不得转载,不得复制等操作。浏览本文章的当事人如涉及到任何违反国家法律法规造成的一切后果由浏览本文章的当事人自行承担与本文章博客主无关。以及由于浏览本文章的当事人转载,复制等操作涉及到任何违反国家法律法规引起的纠纷和造成的一切后果由浏览本文章的当事人自行承担与本文章博客主无关。1. 百度智能云我用的是百度智能云, 云打码平台估计已无几原创 2020-12-30 18:28:46 · 349 阅读 · 0 评论 -
Python 爬虫 xpath 数据解析基本用法
Python 爬虫 xpath 数据解析基本用法1. 基本语法1.1 解析 html 语法1.2 获取标签1.3 获取标签中的内容1.4 获取标签中的属性2. 实例xpath 解析比 bs4 解析常用.import requestsfrom lxml import etree1. 基本语法1.1 解析 html 语法解析本地文件# 解析本地 html 文件parser = etree.HTMLParser(encoding="utf-8")tree = etree.parse("原创 2020-12-30 14:48:57 · 929 阅读 · 1 评论 -
Python 爬虫 bs4 数据解析基本使用
Python 爬虫 bs4 基本使用1. bs4 基本语法1.1 获取 html 页面1.2 获取标签1.3 获取标签中的内容1.4 获取标签中的属性2. 实例import requestsfrom bs4 import BeautifulSoup1. bs4 基本语法1.1 获取 html 页面获取本地 html 页面# 读取文件fp = open("./data/base/taobao.html", "r", encoding="UTF-8")# 数据加载到该对象中 (本地的 ht原创 2020-12-30 11:21:52 · 831 阅读 · 2 评论 -
Python 爬虫 requests 基本使用
Python 爬虫 requests 基本使用1. 加载模块2. 请求数据3. 获取数据结果4. 实例1. 加载模块PyCharmhttps://blog.csdn.net/YKenan/article/details/96290603控制台pip3 install requests2. 请求数据引用模块import requests语法GET 参数:url: get 请求的 URL.params: get 请求传入的数据.headers: 请求头. 多进行设置原创 2020-12-29 22:12:23 · 262 阅读 · 0 评论 -
Python 爬虫基础
Python 爬虫 requests 基础1. 什么是爬虫2. 爬虫的价值3. 爬虫的规则免责声明:自本文章发布起, 本文章仅供参考,不得转载,不得复制等操作。浏览本文章的当事人如涉及到任何违反国家法律法规造成的一切后果由浏览本文章的当事人自行承担与本文章博客主无关。以及由于浏览本文章的当事人转载,复制等操作涉及到任何违反国家法律法规引起的纠纷和造成的一切后果由浏览本文章的当事人自行承担与本文章博客主无关。1. 什么是爬虫通过编程, 模拟浏览器上网, 使其抓取数据的过程.编程性: 不需要人为原创 2020-12-28 22:41:02 · 195 阅读 · 0 评论