自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 力扣刷题|“队列“标签小节 (简单1 中等6 困难4) 思路+代码+细致注释~

“队列”标签下的题目,共计12题:简单1题中等7题,其中1856最优解是单调栈,没做;1673最优解也是单调栈,先写了一个脑筋急转弯的方法~困难4题,1825最优解是堆吧,先写了个队列的解算法,好慢啊…队列就是先进先出的数组,有的题目可以使用多种数据结构实现,纯数组,有序数组,队列,双端队列,循环队列,栈,堆等等~数据结构+算法的最优组合,才可以做出最优解~~ 不合适就不要勉强~933. 最近的请求次数 (队列 数组 deque 细致注释~) &求解惑~~虽然是一道简单题,可是,问

2021-06-21 00:55:18 337

原创 力扣刷题|抽样 Random 算法小结~ (随机 拒绝采样 蓄水池抽样 中等*7 + 困难*1) 思路+代码+细致注释~

文章目录382. 链表随机节点398. 随机数索引478. 在圆内随机生成点470. 用 Rand7() 实现 Rand10()528. 按权重随机选择497. 非重叠矩形中的随机点710. 黑名单中的随机数519. 随机翻转矩阵本周选择了“随机”项下的三个标签,随机 + 拒绝采样 + 蓄水池抽样,共计8题(中等7题 + 困难1题),大致分为四类,按照下表的顺序刷会比较舒服~以下按照类别和难度顺序记录了每题的思路,链接中有python3代码和细致的注释。请多指教~~382. 链表随机节点(蓄水池抽

2021-06-08 20:54:26 599

原创 Python爬虫学习笔记 (15) [中级] 动态网页处理 selenium 3 - Glidedsky爬虫基础2

更新日期: 2021.04.10本节内容 :镀金的天空: http://glidedsky.com一个专供爬虫升级打怪的网站~~做了基础 1&2 部分,以下是基础 2 部分~目录1. 需求描述2. 代码3. 关于 selenium 的使用4. selenium 的其他功能 - 先不学啦1. 需求描述爬虫往往不能在一个页面里面获取全部想要的数据,需要访问大量的网页才能够完成任务。目标网站一个有1000个网页,每个页面有有12个数字,拿到每页上的数据,把这些数字求和。答案正确,即可通关。

2021-04-10 22:09:00 504 2

原创 Python爬虫学习笔记 (16) [中级] 处理简单的加密字体(&#x) - 获取某眼电影票房信息

更新日期: 2021.04.10本节学习内容 :动态网页加载完毕,获得了全部的网页代码,接下来就要解析目标信息了。这个阶段的反扒措施主要有字体加密,JS代码,图片信息等等。今天先看看加密字体中最简单的一种~目录1. 目标信息 - 某眼电影票房信息2. 研究编码规律3. 解码 - 中文3. 解码 - 数字和英文4. 总结1. 目标信息 - 某眼电影票房信息网站页面上显示了票房信息(31.00亿),代码中显示为&#x开头的一组代码。2. 研究编码规律数字: ‘&#’ 出现在

2021-04-10 15:14:44 472

原创 Python爬虫学习笔记 (14) [中级] 动态网页处理 selenium 2+ 豆瓣网电影清单 (下拉&点击加载页面)

更新日期: 2021.04.09本节学习内容 :上一节练习了获取当当网图书清单,页面上没有判停的标志,使用 selenium不断的下拉滚动条继续加载,拉了 97次,终于到底了~本节操练下使用 selenium 的另一种场景,即页面下方有个按键,比如 “点击下载更多”,不断的下拉滚动条,然后点击这个按键,直到这个按键不再出现了(拉到底了),或者,已经拉到了我预定的次数(获得了足够的信息),不需要继续加载了。目录1. 采集豆瓣网电影清单2. 关于 selenium 的使用1. 采集豆瓣网电影清单代码

2021-04-09 23:50:31 363

原创 Python爬虫学习笔记 (13) [中级] 动态网页处理 selenium 1+ 当当网图书清单 (下拉滚动条加载页面)

更新日期: 2021.04.05本节学习内容 :处理动态网页的利器 selenium~目录1. selenium是什么?为什么比requests慢?1. selenium是什么?为什么比requests慢?selenium是一套web测试系统,包含了测试的录制,编写和运行,以及测试的并行处理。支持多种主流浏览器。selenium被应用在爬虫中,是因为它可以模拟人的操作来驱动浏览器,完成加载动态网页所要求的点击和下拉等动作,以获取网页的完整代码。selenium驱动浏览器操作的过程是可以在网页

2021-04-06 08:12:48 344

原创 Python爬虫学习笔记 (12) [初级] 阶段总结~

更新日期: 2021.04.04二月开始学习 Python,三月开始学习爬虫,现在四月初了,基本学完了初级爬虫的内容,总结一下~~目录1. 收获2. 问题2.1 代码不规范2.2 信息不规范3. 走在通往中级爬虫的路上3.1 处理网页代码上的问题3.2 数据可视化3.2 其他1. 收获经过一个月的学习,基本可以爬取没有反扒机制的网站了~~学习了获取网页代码的 requests 库,解析代码的 bs4 库和精细解析的 re 库,存为 txt 和 Excel (通过xlwings库) 文档的方法,还尝

2021-04-04 22:00:50 123

原创 Python爬虫学习笔记 (11) [初级] 小练习 爬取Eason所有歌曲歌词 & 制作词云图

更新日期: 2021.04.03本节内容 :爬虫学了这么久,一直想不到想要目录1. 爬取歌曲信息1. 爬取歌曲信息爬取九库音乐网上 Eason 的歌曲清单,含歌曲名字和歌词。meixiaimport requestsfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupimport reimport timeimport randomimport xlwings as xw# 获

2021-04-03 21:30:30 431 2

原创 Python爬虫学习笔记 (10) [初级] 正则 re 常用方法总结

更新日期: 2021.03.31本节内容 :前面的 re 学习笔记内容源自官网文档,逐一介绍了 re 的的诸多才艺。本节将从 how to 的视角来介绍并总结常用方法清单。目录1. 分析目标信息在文档中出现的规律2. 确定查找工具 - 目标是一个还是多个?每个目标出现一次还是多次?3. 确定需匹配的字符串 - 目标信息有规律,还是 TA 的上下文有规律?4. 为需匹配的字符串设计匹配方法4.1 匹配单个字符串4.2 匹配一定数量的字符串4.3 单词边界确认 & 开头/结尾确认4.4 转义元字

2021-03-31 22:49:09 132 1

原创 Python学习笔记 - 阿里云天池Python训练营打卡(3)

打卡记录:Python学习 - 阿里云天池Python训练营打卡(1)Python学习 - 阿里云天池Python训练营打卡(2)目录1. 阿里云天池教程链接 (3)2. 函数2.1 函数的定义1. 阿里云天池教程链接 (3)阿里云天池教程(3) (点击打开链接)2. 函数2.1 函数的定义函数以def关键词开头,后接函数名和圆括号()。函数执行的代码以冒号起始,并且缩进。return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。d

2021-03-30 21:54:36 943

原创 Python爬虫学习笔记 (9) [初级] 小练习 爬取慕课网课程清单

更新日期: 2021.03.21已经学习的内容:爬取网页:掌握 requests 的常用方法。解析代码:掌握 Beautiful Soup (bs4) 和 re 的常用方法。保存信息: 先用最简单的文件类型 txt。本节学习内容 :爬取网页:练习 requests 的使用。解析代码:练习Beautiful Soup (bs4) 和 re 的使用。保存信息: 存储为Excel文档。目录1. 目标信息2. 爬取步骤3. 获取免费课程首页代码4. 解析首页代码上的课程名称和链接5. 获取

2021-03-28 00:42:44 510 1

原创 Python爬虫学习笔记 (8) [初级] 将信息存储为 Excel 文件 - xlwings 库

更新日期: 2021.03.23已经学习的内容:爬取网页:掌握 requests 的常用方法。解析代码:掌握 BeautifulSoup (bs4) 和 re 的常用方法。保存信息:最简单的文件类型 txt。本节学习内容 :使用 xlwings 将获取的信息存储为 Excel 文件。目录1. 为什么选择 xlwings ?2. 安装和导入3. 创建/打开文件4. 获取工作表中单元格的值5. 写入数据6. 保存文件,关闭文件和程序7. 其他功能1. 为什么选择 xlwings ?对于 t

2021-03-27 23:03:53 499 4

原创 Python爬虫学习笔记 (7) [初级] BeautifulSoup bs4 常用方法总结

更新日期: 2021.03.23已经学习的内容:爬取网页:掌握 requests 的常用方法。解析代码:掌握 BeautifulSoup (bs4) 和 re 的常用方法。保存信息:最简单的文件类型 txt。本节内容 :前面的 bs4 学习笔记内容源自官网文档,逐一介绍了它的的诸多才艺。本节内容如下:bs4 解析思路及常用方法。定位目标标签 召之即来~获取目标信息 探囊取物~目录1. 解析思路及常用方法1.1 观察网页代码的规律1.2 常用方法2. 定位目标标签 召之即来~2.

2021-03-23 23:22:27 694

原创 Python爬虫学习笔记 (6) [初级] re 和各种 bs4 解析器 - 速度测试

更新日期: 2021.03.22已经学习的内容:爬取网页:掌握 requests 的常用方法。解析代码:掌握 Beautiful Soup (bs4) 和 re 的常用方法。保存信息:最简单的文件类型 txt。本节内容 :比较 bs4 和 re 解析器的解析速度。目录1. 测试目的2. 测试内容3. 测试文档及目标信息4. 比较两种 re 方法的解析速度每个 re 语句提取两个信息每个 re 语句提取一个信息, 提取两次5. 测试 bs4 在各种依赖下运行的速度1. 测试目的分析两类解

2021-03-22 23:30:20 633 1

原创 Python爬虫学习笔记 (5) [初级] 学习 re 正则解析库

更新日期: 2021.03.20已经学习的内容:获取网页:掌握 requests 的常用方法解析代码:掌握 bs4 的常用方法,初步了解 re 的使用保存信息:先用最简单的文件类型 txt本节学习内容 :掌握解析库 re 的常用方法目录1. bs4 是什么?能帮我完成什么任务?1. bs4 是什么?能帮我完成什么任务?Beautiful Soup是Python的一个库。...

2021-03-21 15:26:38 260 2

原创 Python爬虫学习笔记 (4) [初级] 学习BeautifulSoup bs4 靓汤

日期:2021.03.13目录学习资料来源学习资料来源通过Python官网学习.打开官网找到Beautiful Soup (bs4),当前最新beautifulsoup4版本是4.9.3 (Released on Oct 3, 2020). 英文版介绍是基于4.9.0,而中文版…不清楚是4.2.0还是4.4.0… 好多内容, 先看下中文版, 再看看英文版有什么不同吧…...

2021-03-17 23:17:37 554

原创 Python爬虫学习笔记 (3) [初级] 学习 requests

日期:2021.03.12目录学习资料GET发起请求提交参数获取网页信息获取网页中二进制编码的信息(图片,视频等)处理JSON格式内容 - 暂时不学获得页面的raw内容 - 暂时不学个性化请求头POST - 暂时不学响应状态代码响应头信息Cookies重新定向网址及其历史学习资料在Python官网学习requests打开www.python.org,找到第三方库中的requests,注意屏幕右上方的 “Latest version" 是绿色的,确保导入和学习的都是当前最新版本:requests 2.

2021-03-13 17:10:03 316

原创 Python爬虫学习笔记 (2) [初级] 初识 requests + bs4 + re

日期:2021.03.12目录本节学习内容学习步骤手打代码本节学习内容1)获取目标网页(第一页)的源代码: 使用requests2)解析代码:使用Beautiful Soup (bs4)3)保存所需信息: 先用最简单的文件类型 txt4)继续爬取余下的网页,并重复以上 2和3步学习步骤1)手打教程中的程序代码,理解每一句,可灵活运用2)进一步学习requests库其他功能,记录3)进一步学习 bs4库其他功能,记录4)使用2) 和3) 中学到的功能改写1) 中的代码~5)总结~~~

2021-03-13 12:42:45 589 2

原创 Python爬虫学习笔记 (1) 初识爬虫 + 学习线路图

为什么打算学习爬虫?对爬虫的理解学习路线为什么打算学习爬虫?二月起开始学习Python, 逐渐了解了Python语言的优势方向,发现不止各大深度学习框架的接口都有TA,在爬虫领域,TA更是绝对的霸主~ 既然学了Python,就试着到处爬一爬吧~~~对爬虫的理解了解下基本的概念,说的 low一点 - 就是到处爬取数据????我的理解,爬虫是使用优雅的计算机语言,从广阔网络空间的纷繁复杂数据中获取我们所需要的。其实,搜索引擎做的也是类似的事情。有效的获取数据,对深度学习以及其他需求也是有帮助

2021-03-10 23:01:06 478

原创 Python学习笔记 - 阿里云天池Python训练营打卡(2)

打卡记录:*Python学习 - 阿里云天池Python训练营打卡(1)Python训练营打卡(2)简单数据类型:int, float, bool容器型数据类型:list, tuple, dict, set, str[列表]有序,可保存任意类型对象创建 x = list(range(15, 5, -3)), x = [i for in range(15, 5, -3)], mix_list = [1, "Alice, (2, 3)]添加元素 - .append(obj), .extend(se

2021-03-03 22:42:11 402 1

原创 Python学习笔记 - 阿里云天池Python训练营打卡(1)

一月底突然想学Python, 二月一日正式开始~~发现阿里云天池的AI训练营非常好,提供全方位系列化培训,免费,有各种群可以加入。每节学完后打卡,再通过在线测试,还可以得到如下的证书~~本来也计划学完之后自己做一下笔记的,因为输出知识是强化学习效果的最有效方法之一,但是,一个字,懒(哈哈哈)~ 想要这张证书,考试昨晚已经通过了,开始补打卡。学习目标可以用Python编写简单的程序;可以读懂别人编写的较复杂的程序;了解常用库(如深度学习需要使用的numpy)。Python学习和打卡方法学习深

2021-03-03 21:03:36 579 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除