自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 收藏
  • 关注

原创 多任务Python爬虫

一、多任务简介1、为什么要使用多任务爬虫?在大量的url需要请求时,单线程/单进程去爬取,速度太慢,此时cpu不工作,浪费cpu资源。 爬取与写入文件分离,可以规避io操作,增加爬取速度,充分利用cpu。 2、多任务分类进程:进程是操作资源分配的最小单位,一个运行的程序,至少包括一个进程,进程之间数据不能共享。(利用多核) 线程:线程是cpu调度的最小单位,一个进程中至少含有一...

2020-03-31 14:07:28 197

原创 Python——迭代器的几个高级用法

今天我们依然介绍的是迭代器,不过介绍的是几个比较常用的 高级用法,在实际场景当中非常实用,可以帮助我们大大简化代码的复杂度。跳过开头首先是跳过开始部分,这个在我们读取文本的时候最常用。在实际的应用当中,比如记录的日志或者是代码等等,一般来说 头部都会附上一段说明,或者用注释标注或者是用特殊的符号标记。这些信息是给用到数据的程序员看的,当我们通过代码获取数据的时候,显然是希望可以过滤...

2020-03-31 14:02:04 157

原创 学以致用,Python定时采集微博评论

【Part1——理论篇】试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存。首先从微博api寻找抓取评论的接口,如下图所示。但是很不幸,该接口频率受限,抓不了几次就被禁了,还没有开始起飞,就凉凉了。接下来小编又选择微博的移动端网站,先登录,然后找到我们想要抓取评论的微博,打开浏览...

2020-03-31 13:49:34 286

原创 很少人知道,但是非常实用的 Python 库

Python 是一个很棒的语言。它是世界上发展最快的编程语言之一。它一次又一次地证明了在开发人员职位中和跨行业的数据科学职位中的实用性。整个 Python 及其库的生态系统使它成为全世界用户(初学者和高级用户)的合适选择。它的成功和流行的原因之一是它强大的第三方库的集合,这些库使它可以保持活力和高效。在本文中,我们会研究一些用于数据科学任务的 Python 库,而不是常见的比如pand...

2020-03-31 13:45:43 131

原创 让人想骂街的 Python 炫技操作:条件语句的七种写法

有的人说 Python 入门容易,但是精通难的语言,这点我非常赞同。Python 语言里有许多(而且是越来越多)的高级特性,是 Python 发烧友们非常喜欢的。在这些人的眼里,能够写出那些一般开发者看不懂的高级特性,就是高手,就是大神。但你要知道,在团队合作里,炫技是大忌。为什么这么说呢?我说下自己的看法:越简洁的代码,越清晰的逻辑,就越不容易出错; 在团队合作中,你的...

2020-03-30 19:18:58 488

原创 python模块:JSON模块

目录在日常开发中,对数据进行序列化和反序列化,是常备的操作。而在Python标准库中提供了json模块对JSON数据的处理功能。什么是json?JSON(JavaScript Object Notation)是一种使用广泛的轻量数据格式,相对于XML而言更简单,也易于阅读和编写,机器也方便解析和生成,Json是JavaScript中的一个子集。Json 模块提供了四个方法: d...

2020-03-30 19:12:45 88

原创 Python爬虫进阶必备 | X中网密码加密算法分析

0x01. 分析请求通过输入账号密码抓包查看加密字段可以见到基本的参数是显而易见的, <font color="red">username</font>也没有加密,只有<font color="red">password</font>和<font color="red">_</font>两个参数是我们需...

2020-03-30 16:08:43 225

原创 Python实现Wordcloud生成词云图的示例

wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式,通过词云生成的图片,我们可以更加直观的看出某篇文章的故事梗概。首先贴出一张词云图(以哈利波特小说为例):在生成词云图之前,首先要做一些准备工作1.安装结巴分词库pip install jiebaPython中的分词模块有很多,他们的功能也都是大同小异,我们安装的结巴分词是当前使用的最多的类...

2020-03-30 15:39:06 1460

原创 Python老司机总结新手常见10大错误

作为python的新手,大家在上手python的时候都会或多或少的接触到一些rookie mistake,也就是菜鸟级别的错误。小编作为一个老司机也是从这些错误中一点一点的积累经验,才慢慢的能够熟练的使用python。遇到错误不可怕,关键是要学会如何去避免犯这些错误。今天小编就带领大家看一下作为python新手最常见的几个错误,希望大家能够在学习的过程中,尽量的去避免这些错误。1.默认可变...

2020-03-30 15:35:34 184

原创 Python 实现新冠病毒分布实时追踪

目前,随着新型冠状病毒(COVID-19)的全球范围内蔓延,海外地区现有确诊已经上升至 293683(数据更新至 2020.03.25 16:54)。为了更好了保证自身健康,我们必须了解正在影响⽣活所在地区的实际统计数据。如何利用现有工具来事实追踪病情分布呢?近日,一个有趣的开源项目正好解决了这一问题。只需一台电脑,谁都可按照步骤利用 Python 获得专属个人的疫情信息。作者发布了文...

2020-03-28 16:04:56 586

原创 用Python盘点那些豆瓣评分低于3.0的奇葩电影

最近刷抖音,刷到一部抄袭《X战警》电影海报的电影。连电影海报都需要抄袭,这得是什么烂片!尝试百度了一下,果然让人哭笑不得,连雷神的麒麟臂都一起抄了。《女娲日记》绝对刷新你的认识看了一下它的豆瓣评分,竟然是2分。纵横观影界那么多年,看到的至少也是3分起步的电影,现在居然还有2分的电影豆瓣评分最低打一星,换算成分数就是2分,因此豆瓣电影理论上的最低分不是0分,而是2分。看...

2020-03-28 15:20:05 403

原创 Jupyter的安装和基本使用

1. 安装Jupyterpip install jupyter2. Jupyter的初次使用# 进入虚拟环境workon ai# 输入命令jupyter notebook本地notebook的默认URL为:http://localhost:8888想让notebook打开指定目录,只要进入此目录后执行命令即可3. Jupyter的常用命令及操作简介:...

2020-03-28 13:25:12 220

原创 Python要点总结,我使用了100个小例子!

1静态/动态OR强类型/弱类型 静态类型 vs 动态 编程语言 强类型 vs 弱类型 编程语言 1.1 类型检查类型检查是一个验证和施加类型约束的过程,编译器或解释器通常在编译或运行阶段做类型检查。例如,你不能拿一个string类型值除以浮点数。用更简单的术语,类型检查仅仅就是查看变量和它们的类型,然后说这个表达式是合理的。因此,现在我们知道类...

2020-03-27 19:36:20 124

原创 python代码编辑工具pycharm的使用技巧

目录后端开发使用pycharm的技巧 1、使用说明 2、database 3、HTTP Client 1、使用说明首先说明,本文所使用的功能为pycharm专业版所支持,其他版本如社区版,教育版,则不一定支持。作为一名后端开发,我猜你的桌面上一定打开着一系列的软件,用作开发调试工具,比如navicat数据库连接工具,postman接口调试工具,pycharm代码编写...

2020-03-27 16:43:02 525

原创 教你用Python 每日定时推送睡前小故事给你__的人

本文利用了简单的Python爬虫、邮件发送以及定时任务实现了每天定时发送睡前小故事的功能,是一篇步骤详尽的文章。经过测试,该程序仍能正常运行。最近,某可爱要求我忙完之后给她每晚睡前讲讲小故事,我想了下,网络上应该有各种资源,小故事也都能搜得到,但是数量比较少,而且格式不够统一,提取比较困难。转念一想,面向儿童的睡前故事可能也比较适用,于是我准备从儿童睡前故事中取材,搜索之后发现有...

2020-03-27 14:34:42 203

原创 Python编程 | 新手必会的 9 个 Python 技巧

有很多介绍Python中各种很酷的功能(如变量拆包、偏函数、枚举可迭代对象)的文章,但说到Python时,还有很多东西可以谈论,这里我将尝试展示我所知道和使用的一些特性,我还没有在其他地方看到有人提到过它们。我们开始吧。清理字符串输入对用户输入进行清理的问题几乎适用于您编写的所有程序。通常情况下,将字符转换为小写或大写就足够了,有时您可以使用Regex来完成这项工作,但对于复杂的情况来说,...

2020-03-27 13:20:24 102

原创 击败无聊的办公室重复操作,用 Python 控制鼠标和键盘

还在为需要在电脑做一些重复的点击或者提交表单等操作而苦恼吗?如果告诉你能通过 Python 预先写好相关的操作指令,让它帮你操作鼠标和键盘,而你翘着二郎腿和妹子聊着天岂不是美滋滋?​一、pyauogui库我们可以先安装一下 pyauogui 这个库,通过它你就可以写一些 Python 脚本来控制你的鼠标和键盘了,比如你可以定义鼠标在哪个位置点击,定义键盘在什么时候输入...

2020-03-26 18:07:00 1183

原创 这十个不常见但却十分实用的Python库,你知道几个?

Python是一门神奇的语言,它是世界上发展最快的编程语言之一,尤其在数据科学方面的作用大家是有目共睹,Python的整个生态系统和它的库使它成为全世界用户(初学者和高级用户)的最佳选择。它的成功和流行的一个原因是背后强大的库集合。​今天,我们将和大家分享一些用于数据科学任务的Python库,这些库并不常见,它们不如panda、scikit-learn、matplotlib等知名,但却十分...

2020-03-25 18:55:42 254

原创 python系统性能模块笔记

内存信息psutil.cpu_times() 使用cpu_times方法获取cpu完整信息,需要显示所有逻辑cpu信息(指定变量percpu=True)psutil.cpu_times().user 获取单项数据信息,如用户user的cpu时间比psutil.cpu_count() 获取cpu逻辑个数,默认logical=Tr...

2020-03-24 18:47:11 52

原创 使用Python打造一款间谍程序

知识点这次我们使用python来打造一款间谍程序程序中会用到许多知识点,大致分为四块  win32API 此处可以在MSDN上查看  Python基础重点在cpytes库的使用,使用方法请点击此处  C语言基础  Hook​程序的基本原理在于通过注册Hook,记录系统事件那么什么是Hook呢Hook 技术又叫做钩子函数,系统在调用函数之前,钩子程序就先捕获...

2020-03-24 16:09:43 251

原创 手把手教你进行pip换源,让你的Python库下载嗖嗖的

主题Python/1 前言/今天我们来说说python的pip换源吧,这个换源,相对来说,还是比较重要的,能让自己少生好几次气的,哈哈哈!/2 为什么要换源/​我们搞python的,肯定离不开各种各样的第三方包,比如爬虫,有requests,xpath,爬虫界的扛把子Scrapy;Web有django,flask,restframework啥的,还是挺多的,我们一般安装的方式...

2020-03-24 16:02:07 216

原创 Python+Appium实现APP自动化测试

一、环境准备1.脚本语言:Python3.x IDE:安装Pycharm2.安装Java JDK 、Android SDK3.adb环境,path添加E:\Software\Android_SDK\platform-tools4.安装Appium for windows,官网地址http://appium.io/​点击下载按钮会到GitHub的下载页面,选择对...

2020-03-24 13:12:43 2112 2

原创 一篇文章教会你使用Python定时抓取微博评论

【Part1——理论篇】试想一个问题,如果我们要抓取某个微博大V微博的评论数据,应该怎么实现呢?最简单的做法就是找到微博评论数据接口,然后通过改变参数来获取最新数据并保存。首先从微博api寻找抓取评论的接口,如下图所示。​但是很不幸,该接口频率受限,抓不了几次就被禁了,还没有开始起飞,就凉凉了。接下来小编又选择微博的移动端网站,先登录,然后找到我们想要抓取评论的微博,...

2020-03-24 13:05:30 764 1

原创 用Python扒出B站那些“惊为天人”的阿婆主!

前言近期B站的跨年晚会因其独特的创意席卷各大视频网站,给公司带来了极大的正面影响,股价也同时大涨,想必大家都在后悔没有早点买B站的股票:​然而今天我们要讨论的不是B站的跨年晚会,而是B站的核心资源:“惊为天人”的阿婆主们,文章的灵感来自于知乎热榜上的一个问题:数据获取上面的问题一共获得了859个回答,本文的数据也正来...

2020-03-23 16:57:51 117

原创 Python 常见的17个错误分析

对于刚入门的Pythoner在学习过程中运行代码是或多或少会遇到一些错误,刚开始可能看起来比较费劲。随着代码量的积累,熟能生巧当遇到一些运行时错误时能够很快的定位问题原题。下面整理了常见的17个错误,希望能够帮助到大家​1、忘记在if,for,def,elif,else,class等声明末尾加:会导致“SyntaxError :invalid syntax”如下:ifspa...

2020-03-23 16:32:47 121

原创 用Python给你的女神带上口罩~

前言2019 年底开始蔓延的新型肺炎疫情牵动人心,作为个体,我们力所能及的就是尽量待在家中少出门。看到一些朋友叫设计同学帮忙给自己的头像戴上口罩,作为技术人,心想一定还有更多人有这样的诉求,不如开发一个简单的程序来实现这个需求,也算是帮助设计姐姐减少工作量。​于是花了些时间,写了一个叫做 face-mask[1] 的命令行工具,能够轻松的给图片中的人像戴上口罩,而且口罩的方向和大小...

2020-03-23 15:56:49 258

原创 基于python开发的口罩供需平台

主要是对需求表Product进行设计,在此项目中,我们需要标题、联系人、电话等字段。可参考models.py文件。设计字段如下:​class Product(models.Model): list_display = ("title", "type", "location") title = models.CharField(max_length=100,blank=Tr...

2020-03-18 20:50:18 157

原创 Python爬虫进阶 | 某某街 | 某乐网 加密算法分析

个简单的md5加密算法,非常适合新手练习链接:aHR0cDovL3d3dy5jaHVjaHVqaWUuY29tL2luZGV4Lmh0bWw=0x01. 分析请求通过输入账号密码抓包查看加密字段​0x02. 定位加密位置直接通过检索<font color="red">password:</font>0x03. 分析加密一个一个...

2020-03-14 20:20:07 2624

原创 AI朋克致敬MNIST:只用Python和开发板,制作永不重样的时钟

我们见惯了上古时代,由电子管组成的时钟。在 AI 时代,有没有更加新潮的时间显示方式?是的,数据集也能做成时钟,每天早上,让 MNIST 手写数字唤醒你一天的记忆。​MNIST 是计算机视觉中不老的经典,当第一代卷积神经网络在这个手写数字数据集上绽放出耀眼的光芒,它注定会载入「史册」。尽管目前计算机视觉已经早就走出了 MNIST 数据集的时代,甚至连一千多万图像的 ImageNet...

2020-03-10 20:41:12 183

原创 Python命令行实现—查全国7天天气

为什么要爬天气呢?1.可以练练手2.利用itchat库实现自动回复功能后,把查天气的功能集成起来,实现微信自助查天气功能!​首先,还是相似的套路,我们看看能不能在官网上直接抓包(XHR)来获取一个通用API。然后直接用API查询就OK?在百度搜关键词【天气】或者【南京天气】会跳出对应的网页:http://www.weather.com.cn/weather/101190101.shtml.点进...

2020-03-09 19:59:38 479

原创 Python程序员晒追女神聊天截图,坦言第一次没经验,网友直呼凭实力单身

前段时间网络上一名程序员晒出了自己与女神之间的聊天记录的对话截图,通过截图中我们可以看出,应该是这位程序员在追求这位女神,但是短短的十几分钟几条聊天记录,却以女神不再愿意搭理程序员结束,对于这样的结局,楼主无奈道:到底是这个女人太搓还是自己太直?​通过聊天记录我们可以看到两个人应该是了解了一段时间了,聊天记录中程序员问女神:觉得自己怎么样,而女神则是用相同的话反问道程序员,刚开始程序员...

2020-03-08 20:38:55 187

原创 那些年我们一起写过的Python爬虫

在一家能从业务里源源不断产生数据的公司工作是一件很幸福的事情,但很多人如我就没有这样幸运。没有数据又想蹭住人工智能的风口,一种方法是潜心学术研究算法,但用来做实验的数据往往都是学术界或者一些好心的工业界提供的低配版数据,练就的屠龙刀倚天剑离实战还有很多距离;另一种方法就是费尽心机寻找真实数据。在聊(已经学不动的)各种神乎其技的算法之余,我也想简单总结下那些年我们写爬虫的经验。甄选网站写...

2020-03-05 19:51:48 211

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除