自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(272)
  • 收藏
  • 关注

原创 小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

看到标题,啪的一下你就进来了吧!如果有经常刷B站的小伙伴,肯定都知道B站鬼畜现在的顶流是谁?印度:没错正是在下那必须是当代大师浑元形意太极拳掌门人「马保国」先生啊!实话讲,马保国走进大家...

2020-11-18 20:01:53 67868 292

原创 绝了!Python定时爬取微博热搜+pyecharts动态图展示

作者:叶庭云来源:凹凸数据本文介绍了可以实现定时执行任务的schedule模块,利用它实现定时爬取微博热搜数据,保存到CSV文件里。讲解pyehcarts绘制基本时间轮播图,最后利用py...

2020-09-19 20:04:53 4347 9

原创 Python 爬取 201865 条《隐秘的角落》弹幕数据,发现看剧不如爬山?

Python 爬取 201865 条《隐秘的角落》弹幕数据,发现看剧不如爬山?本文不涉及剧透!请放心食用最近又火了一步国产剧:《隐秘的角落》如果你没看过,那可能会对朋友圈里大家说的“一起去爬山”、“小白船”、“还有机会吗”感到莫名其妙。小五在这个端午假期也赶紧刷完了本剧,必须要写篇文章了,由于《隐秘的角落》是在爱奇艺独播,所以数据从爱奇艺下手最直接。如果没爬过爱奇艺,可以考虑使用豆瓣、微博、知乎(电视剧数据分析 · 万能三件套)的数据。爬虫剧很精彩,但追剧界有句俗话说得好:“弹幕往往比剧更

2020-06-29 22:52:22 4145 15

原创 用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?

大家好,我是朱小五今天给大家带来一个关于电影的数据分析文章。别走啊,这次不是豆瓣,也不是猫眼真的今天分析的电影是韩国电影《寄生虫》。它是由韩国导演奉俊昊自编自导的影片,一举拿下最佳影片、最佳导演、最佳原创剧本和最佳国际电影四座奥斯卡奖杯,创造历史成为奥斯卡史上首部非英语最佳影片。nb plus!这次带大家看看韩国人如何评价这部韩国电影的?获取数据数据从哪获...

2020-03-03 15:51:03 17780 25

转载 matplotlib绘图技巧详解(三)

↑关注 + 星标~有趣的不像个技术号每晚九点,我们准时相约大家好,我是黄同学我们之前已经讲述了matplotlib的绘图原理,陆续会更新绘图技巧、相关图形绘制。《matplot...

2020-02-26 21:00:00 1683 1

原创 用Python爬虫的request方式实现自动签到

之前我曾经写过一个系列的文章,介绍自己如何使用Python解决了各种各样的日常需求。在这其中有一篇文章《》,就是以我亲身的经历来讲解如何实现某网站的定时签到。不瞒大家说,这个方法非常实用,一年前的代码至今仍然可以正常使用。但我今年年初时候买了个服务器,就寻思将这些本地电脑的定时任务都迁移到服务器上。这个时候再去回看之前的代码,使用Selenium作为我们的自动签到解决方案就显得有些“笨重”了。我今天呢,要给大家分享一下升级款——request方式。

2022-09-20 14:15:23 2845 2

原创 Python实战-乱序文件重新命名编号

最近我遇到了一个小问题,感觉也会有其他同学会遇到,所以干脆分享出来。如下图所示,在本地文件夹中有这样一堆视频文件,在这种情况下并不是乱序的。但是将其上传到网盘中后,就会经常变成乱序。即它们会按照1、10、11、2、20这样排序,并不方便我们按顺序去依次观看。所以我们希望能够给它们在本地重新命名编号,比如可以按照001、002、003···、020这样排序,就可以避免上面这种尴尬的情况了。

2022-09-14 14:33:30 290

原创 要被抖音笑死了,打开个网页就算黑客?

大家在刷抖音的时候都会看到类似的视频:营销号用txt记事本巴拉巴拉写几行代码,就可以伪装成黑客了。▲一顿操作猛如虎又比如下面这样,远看一顿操作猛如虎,近看代码原来是打开网页。▲打开某个网页简单看了几个视频,发现“黑客”营销号们最常用的套路就是 dir/s start和exit do和loop。其中DOS命令start这个命令,它可以启动一个exe程序,也可以启动一个BAT批处理脚本。

2022-09-08 02:49:01 34976 37

原创 大数据扫黄,是真的吗?

在当前的大数据时代背景下,每个人的大量社会活动都会被大数据系统记录下来。最近跟小伙伴聊起一件事:大数据扫黄,结果发现大家格外感兴趣。而我平时呢,也会看【守护解放西】、【孝警阿特】之类的视频,发现相关视频的播放量也特别高,那么今天就来探讨一下:大数据扫黄,是真的吗?▲【孝警阿特】视频截图1先一个很久之前的说法,看起来就非常假的很,很难不怀疑是大数...

2022-08-23 22:25:26 1999 3

原创 用Python爬取手机壁纸,太简单了吧

我们只需访问接口,再解析json数据,即可获取精准的壁纸图片url。其中我们需要先利用Python中的request库和正则构建获取函数,以此爬取页面中的图片url。最近我花了两年写的新书已经上市,也算是我在CSDN博客分享Python知识3年的一个总结!小米壁纸是什么,其实就是小米手机系统自带的app,包含了各种风格的手机壁纸。如果你使用浏览器打开该链接,就能得到10张壁纸图片的详细数据。剩下的只需调用Python下载图片到本地即可,具体代码如下所示。的文件夹,会发现所有的图片都已经被下载到本地。

2022-08-22 17:37:51 124

原创 Python也可以实现Excel中的“Vlookup”函数

Python实现VLOOKUP函数大家应该都很熟悉吧,它可以帮我们根据指定的条件快速查找匹配出相应的结果,通常被用于核对、匹配多个表格之间的数据。与数据透视表,并称为数据er最常用的两大Excel功能。那我们今天就聊聊,如何Python写Excel中的“Vlookup”函数?...

2022-08-09 16:32:17 375

原创 别再问我如何制作甘特图了!

大家好,我是朱小五。甘特图,又称横道图或条状图,是美国科学管理学派创始人亨利·甘特在20世纪初,设计的一种组织和监控项目进度的工具。在工作上,我们可以将其用作在产品开发管理、项目管理等;在生活中,我们可以使用甘特图来标注自己的月度计划、个人提升规划等等。用来制作甘特图的专业工具也不少,常见的有:Microsoft Office Project、GanttProject、W...

2022-07-27 20:00:12 1037

转载 Python操作Excel、Word、PPT、PDF、复杂文件、通信软件(微信、邮件、飞书、钉钉)、图片集合大全

很多朋友为了学习如何用Python自动化地处理各种文档,应该都下载过这个文档:python操作excel、word、pdf.pdf。时至今日,仅仅在CSDN一个渠道的下载量便超过了3W+!这个文档也算国内第一个真正意义上的Python自动化文档。无论是从内容上,还是从排版上,都受到了大家的一致好评!也因此有读者建议,是否可以将此类相关内容整理成知识体系完整、内容翔实的书!于是,我就开始了两年的写书历程!并针对图书内容进行了反反复复的沟通,还征求了许多读者朋友们的意见,最终将全网累计阅读量超2000000的原

2022-07-11 20:55:50 2524 3

原创 Python自动化办公 | 用Python自动生成数据日报

Python自动化办公 ,用Python自动生成数据日报!用Python批量生成数据报告!

2022-07-09 19:35:22 2147 44

原创 Python比较两个日期的多种方法

之前我们曾经分享过:Python获取某一日期是“星期几”的6种方法!实际上,在我们使用Python处理日期/时间的时候,经常会遇到各种各样的问题。今天我们就来探讨另一个问题,如何用Python比较两个日期?如果需要用Python处理日期和时间,大家第一时间肯定会想到datetime、time、calendar等模块。在这其中,datetime(日期时间)模块主要是用来表示日期的,就是我们常说的年月日/时分秒。d...

2022-07-03 03:20:19 2564 1

原创 Python识别二维码的两种方法

人生苦短,快学Python!大家好,我是朱小五最近在搜寻资料时,发现了一则10年前的新闻:二维码将成线上线下关键入口。从今天的移动互联网来看,支付收款码/健康码等等与我们息息相关,二维码确实成为了我们生活中不可或缺的一部分。在学习Python处理二维码的过程中,我们看到的大多是“用python生成酷炫二维码”、“用Python制作动图二维码”之类的文章。而关于使用Python批量识别二维码的教程,并不多见。所以今天我会给大家分享两种批量识别二维码的Python技巧!二维码又称二维条码,常见的二维码为QR C

2022-06-29 16:22:58 2941

原创 Python中查询缺失值的4种方法

在我们日常接触到的Python中,狭义的缺失值一般指DataFrame中的。广义的话,可以分为三种。今天聊聊Python中查询缺失值的4种方法。在Pandas中查询缺失值,最常用的⽅法就是,返回True表示此处为缺失值。我们可以将其与⽅法搭配使用来查询存在缺失值的行,也可以与⽅法搭配使用来查询存在缺失值的列。在交互式环境中输入如下命令:输出:在交互式环境中输入如下命令:输出:在交互式环境中输入如下命令:输出:由于在Pandas中方法返回True表示此处为缺失值,所以我们可以...

2022-06-13 23:46:28 1775 2

原创 搭建了一个可视化大屏。

大家好,我是朱小五如果制作数据可视化大屏,我感觉已经分享过超多次了,真的是“万物”皆可制作数据看板。从Excel、到Python中的pyecharts、Streamlit,再到镝数图表,甚至为了实现更加的动态交互我还学习了web开发。不过在实际工作中,用BI工具搭建数据看板才是最常用的方式。在国内大家使用最多的BI工具应该就是:Tableau、Power BI、帆软、或者...

2022-06-09 22:18:13 480

原创 最近常用的几个数分模型。

现在的618活动越来越提前,从最早的618当日抢购,再到6月份开始便是618的预售,最后到今年520就开始了618活动。我发现甚至还分为了预售期、专场期、高潮期和续售期。而对于电商平台来说,就需要在更提早制定营销方案,在现有预算的情况下实现用户的精准营销。而针对用户精细化运营、精准化营销最离不开的就是用户分群。所谓用户分群,就是我们以具备某几种特征的用户(who)在某段时...

2022-06-08 21:57:17 210

原创 Python实战:将头像变成动漫风

将头像转化为动漫风,就是希望在保持原图像信息和纹理细节的同时,将真实照片转换为动漫/卡通风格的非真实感图像。目前除了百度api,Github上还有不少开源库可供我们直接使用。其中AnimeGAN是来自武汉大学和湖北工业大学的一项研究,采用的是神经风格迁移 + 生成对抗网络(GAN)的组合,实现效果非常符合我们的需求。...

2022-06-08 15:54:31 4689 5

原创 Python中堪称神仙的6个函数

注:本文作者朱小五,原文首发于公众号【快学Python】,站内同一标题那篇文章是抄袭,最恶劣的是直接复制还抹去我的水印人生苦短,快学Python!大家好,我是小五。之前给大家分享过3个节省时间的Python技巧,当时就提出了,大家可以多使用Python的内置函数,既能提高自己的Python程序速度,同时还能保持代码简洁易懂。今天,它们就来了,我们会一次性分享6个堪称神仙的内置函数。在很多计算机书籍中,它们也通常作为高阶函数来介绍。而我自己在日常工作中,经常使用它们来使代码更快,更易于理解。La.

2022-05-29 12:47:44 229

原创 通过数据:提升用户转化与留存全攻略

如何想要产品收益最大化?就应该这样做——提升用户转化与留存全攻略首先我们看一下提升用户转化的运营价值。如图1所示,先引入两个概念——用户生命周期与用户价值(LTV)。如果将用户在一款产品中的行为轨迹当成一个生命周期,那么从最初用户了解、知晓产品开始,整个周期中将经历五个阶段,每个阶段用户为产品所能创造的价值是不同的。而用户价值(Life Time Value,LTV)指的...

2022-05-24 23:20:43 444

原创 图解Pandas:查询、处理数据缺失值的6种方法!

大家好,我是小五。 上周我码了几篇文章,其中一篇是《花了一周,我总结了120个数据指标与术语。》。另外我还写了两篇Pandas的基础操作文,发在了「快学Python」上,如果还没看过的同学正好可以再看一下。在Pandas数据预处理中,缺失值肯定是避不开的。但实际上缺失值的表现形式也并不唯一,我将其分为...

2022-05-09 23:02:41 1408

原创 最近面试太难了。

在面试数据分析师时,往往会考察一下SQL的掌握程度。最近有位同学面试了几家,分享了一些觉得有些难度的SQL面试题:比如会让你用SQL实现行转列和列转行操作、用SQL计算留存、用SQL计算中位数、还有如何统计用户最大连续登录天数?当然这种题变形也很多,连续打卡天数、连续学习天数,连续点击天数等等都是同一个类型,今天我们将会给大家分享SQL和Pandas的多种做法。让大家一次...

2022-05-08 22:24:49 2282

原创 花了一周,我总结了120个数据指标与术语。

大家好,我是小五。数据分析总是离不开各种指标和术语,最近我花了一周整理了共120个数据分析指标与术语:用户数据指标、行为数据指标、业务数据指标、数据分析术语、统计学常用语、数据报告常用术语。文章较长,建议大家先点击本文右上角收藏保存。用户数据指标IP、UV、PV、VVIP(Internet Protocol):独立IP数。UV(Unique Visitor):独立访问客数...

2022-05-06 23:18:23 339

原创 Python还能把“长的”变成“短的”?

人生苦短,快学Python!大家好,我是小五。最近我遇到了一些问题:需要将几百条长链接转成短链接。经过一番学习,发现Python可以轻松解决这个问题,不仅可以实现缩短【长链接→短链接】,也可以实现还原【短链接→长链接】。缩短链接【长链接→短链接】缩短链接,就是把长的要死的链接,缩短到只有几个字符那么长。这么做是为了什么呢?打个比方,如果你们公司搞了一个活动,需要群发营销短信,结果单单活动链接就占据了一页,那就会非常影响活动效果了。所以公司机构往往会使用短链接,将其应用于活动推广、短信推广、邮

2022-04-26 21:33:17 742

原创 Excel 还可以做历史朝代表?这次连同期世界历史也可以一起对比了!

大家好,我是小五去年年末我曾经分享过【用Excel制作中国历史朝代跨度表】,我们发现Excel不仅可以用来处理数据,还可以这么玩!具体高清图和Excel原始表-下载地址见文末该中国历史朝代跨度表,图中横向代表朝代疆域大小,纵向则是朝代存在时间,非常直观。另外Excel表格冻结的首行,分别指的是古代中国历史上重要的6个地域组成部分(青藏高原、西域、中原、东北、外蒙古、中亚)...

2022-04-16 20:00:00 1413 14

原创 从各大APP年度报告看用户画像——标签,比你更懂你自己

在忙碌的日常里,人们抽不出时间了解自己,却能抓紧所有的空闲,用手机里的APP去了解世界,在探求的过程中,也被探求着。用户画像,最初的应用起源于电商平台,和面对面一样,网路中的商家也想知道自己在卖东西给谁,谁更想要,怎么样才卖得更好?无差别推送的广告带来的巨大成本,并不能换来预期的收益,为了实现精准营销,用户画像应运而生。而今,用于构造画像而积累的无数标签,有了越来越多不同...

2022-04-06 23:07:01 1146

原创 如何将 Matplotlib 可视化 插入到 Excel 表格中?

大家好,我是小五????在生活中工作中,我们经常使用Excel用于储存数据,Tableau等BI程序处理数据并进行可视化。我们也经常使用R、Python编程进行高质量的数据可视化,生成制作了不少精美优雅的图表。但是如何将这些“优雅”延续要Excel中呢?Python绘图库有很多,我们就还是拿最基本的Matplotlib为例。今天就为大家演示一下,如何将Matplotlib绘制的...

2022-03-23 18:29:11 3979

原创 6万人砍不下来一部拼多多手机,背后原来是这个原因。

大家好,我是小五????3.15刚过,忍住不吃老坛酸菜的我惊奇地发现,各个平台的首页都在等拼多多一个道歉。事情的经过也比较简单,3月17日,一位游戏主播“超级小桀”在在直播间直播时与水友们聊到了...

2022-03-19 23:59:17 4436 2

原创 太强了,Python还可以计算农历

大家好,我是小五最近处理工作任务的时候遇到了转换农历的问题。一开始我打算搜索在线处理的网站或者转换的接口,结果找到了一个Python库可以直接解决,今天正好同大家分享一下。农历,是我国现行的传统历法。它是根据月相的变化周期,每一次月相朔望变化为一个月,参考太阳回归年为一年的长度,并加入二十四节气与设置闰月以使平均历年与回归年相适应。对于我们处理数据来说,并不需要去详细研究农历与公历之间的转换关系。在Python中,ZhDate库支持农历-公历互相转换、日期加减以及全中文日期生成,内置了1900-21

2022-03-16 18:36:59 424

原创 盘点66个Pandas函数,轻松搞定“数据清洗”!

大家好,我是小五????之前黄同学曾经总结过一些Pandas函数,主要是针对字符串进行一系列的操作。在此基础上我又扩展了几倍,全文较长,建议先收藏。今天我们重新盘点66个Pandas函数合集,包...

2022-03-15 21:01:22 494

原创 再见Python!数据分析可以这样做。

大家好,我是小五????如果你是一位数据分析师,必须学习并掌握结构化查询语言——SQL。但它主要用于查询检索数据,所以往往还需要掌握一门编程语言。在我的公众号中,数据分析相关文章似乎都是用Pyt...

2022-03-03 20:41:26 2934

原创 国足1-3不敌越南后,9000人在重温范志毅的“神预言”!

大家好,我是小五????在刚刚结束的世界杯亚洲区预选赛十二强赛,中国对阵越南。上半场中国队后防稍显松散,胡晋才、阮进灵先后破门;下半场潘文德远射破门,张玉宁进球无效,徐新扳回一城。最终,中国1-...

2022-02-01 23:07:31 1721 2

原创 汤加火山爆发引发跨洋海啸?数据可视化告诉你真实威力!

大家好,我是小五????据新华社消息,汤加的洪阿哈阿帕伊岛14日和15日发生火山喷发,首都努库阿洛法观测到海啸。专家指出,事发地火山口已苏醒,喷发活跃期可持续数周甚至数年,尚不清楚目前是否已达喷...

2022-01-16 22:13:20 1252

原创 如果只让我推荐一本书。(第2弹)

大家好,我是小五????经常有小伙伴会问,能不能推荐一些书籍?今天就来喽,小五邀请了100位好友进行的好书推荐???? 都超级走心!今天看看都安利了哪些书籍呢?如果只让我推荐一本书。(第1弹)了不起的...

2022-01-13 23:54:47 372

原创 又来了!今天再分享几个Jupyter Notebook的使用技巧!

大家好,我是小五????之前分享过 很多Jupyter Notebook使用技巧,无论是简单的快捷键,还是优秀的插件,都能帮助我们实现高效编程。今天再分享几个 Jupyter Notebook ...

2022-01-12 23:23:45 8723

原创 最近给公司撸了一个可视化大屏。

大家好,我是凹凸数据的热心读者最近我在设计公司的【可视化大屏】踩了好多坑,今天正好有机会把这些内容分享给大家。序言本文的可视化大屏是利用帆软report大屏模板实现,知识点大致分为【Pyt...

2021-12-26 20:00:00 742

原创 如何用Python快速生成SQL语句?

大家好,我是小五????作为一名搞数据的,写SQL是每天必不可少的工作。而我又是一个喜欢偷懒的人,就想着能不能使用Python快速生成SQL语句呢?假如现在想建一个临时表自己练习,我使用crea...

2021-12-24 18:00:00 1398

原创 数据科学竞赛:递增特征构建的简单实现

在智能风控或者其他的数据科学竞赛当中,我们经常可以从用户的基础信息表中发现类似这样的特征:字段英文名字段含义last_3m_avg_aum近3个月均aumlast_6m_avg_aum近6...

2021-12-15 13:00:00 1779

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除