自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

CDA数据分析师

专注数据科学教育16年专业品牌

  • 博客(84)
  • 资源 (4)
  • 收藏
  • 关注

原创 增长黑客:如何用户留存?

这节我们来聊一下用户留存的话题,用户留存有多重要呢?“不留存,就去死”,听起来还是有点耸人听闻的对吧。在一节的时候小P介绍过,很多大佬们往往更关注留存这一环节,那么这一环节有什么奇妙的地方呢?由于这一章内容较多,小P给大家找到了思维导图方便大家理解:首先,书中关于用户留存举了BranchOut的反例:从2012年1月开始,短短几个月时间里,BranchOut的总用户数增长到2500万,月活跃用户一度达到1400万,并且完成了C轮融资。就是这样一个看起来前景一片大好的社交网站,是怎么最后沦落到到处找买

2020-05-30 15:29:25 395

原创 hadoop:伪分布模式环境变量的配置 !

单节点集群模式(a Single Node Cluster)又称伪分布模式,只需一个节点即可运行。这种模式一般只是用来学习或者开发、测试使用。实际使用中还是使用多节点的分布式。 1、环境变量配置为了方便的执行Hadoop程序,需要配置很多系统环境变量。主要有以下几个变量设置HADOOP_HOME为Hadoop的安装路径export HADOOP_HOME=/home/hduser/hadoop设置将hadoop添加到PATH,上文中已...

2020-05-30 15:21:43 365

原创 hadoop:伪分布模式参数配置指南!

Hadoop通过改变其配置文件来更改运行模式,我们通过修改如下四个配置文件core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml即可让Hadoop以伪分布模式运行。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value的方式来实现。接下来让我们开始进行hadoop的配置吧,配置之前首先启动Ubuntu虚拟机,然后打开Xshell软件并连接登录虚拟机。1、设置hadoop-env.sh配置文

2020-05-30 15:10:46 291

原创 增长黑客:如何绘制用户的旅程?

第一节说到了比较重要的北极星指标,这也是我们增长团队打造增长模型的第一步。那么第二步就是绘制用户旅程,简单来说就是针对你所设定的北极星指标所代表的用户状态,一步一步地将用户旅程绘制出来。举例来说,对于电商产品,如果北极星指标是“销售额”,那么一个访客需要经过:1.访问电商网站;2.注册账户;3.第一次买东西;4.重复性购买这四步才能到达“产生销售额”的状态。将用户旅程绘制完成之后,就到达我们的最后一步——组装增长模型。同样拿电商产品举例,北极星指标如果是“销售额”,那么销售额=新

2020-05-29 13:40:56 502

原创 增长黑客:要如何引导用户激活?

接着上文我们来聊一下“用户激活”这个话题,提到用户激活,相信很多同学脑海都浮现一个词,没错,就是“Aha”时刻,用户激活是离不开Aha时刻的。如何定义它呢?Aha(惊喜)时刻,就是新用户第一次认识到产品的价值,从而脱口说出“啊哈,原来这个产品可以帮我做这个啊”的那个时刻。这是一个至关重要的时刻,他区分了那些从产品中发现了价值和那些没发现价值的用户。这也是一个“有感情”的时刻,用户觉得他从广告里看到的那些承诺,产品在这一刻都履行了,因此觉得满足甚至感到惊喜。在这里给大家列举了几个知名产品的Aha时

2020-05-29 10:52:58 389

原创 大数据工具:Zookeeper的安装宝典!

之前介绍了Hbase本地单节点模式的安装,该模式资源占用少适合学习使用。但是在生产环境中为了保证数据的安全,普遍采用集群模式来运用Hbase。在集群模式下Hbase的数据存储在HDFS文件系统而非本地文件系统,还需配以zookeeper集群来提供协调一致性服务。我们先来安装zookeeper然后再配置Hbase使其可以以集群模式运行。1、安装zookeeper解压zookeeper-3.4.11.tar.gz更改文件目录名zookeeper-3.4.11为zookeeper34更改系

2020-05-29 10:41:05 250

原创 hadoop:集群网络介绍,及相关文件配置指南!

上篇文章中我们已经将之前配置好的伪分布集群虚拟机复制出来做为master节点的虚拟机,接下来我们还需对该虚拟机做进一步的配置来达到我们的要求。对master虚拟机的配置将从网络、hostname、更改Hadoop相关配置等几方面展开。1、网络配置目前虚拟机网卡IP地址为自动获取模式。也就是说虚拟机每次开机IP地址都不是确定的。这对于集群来说是不可接受的,因为集群节点(master、slave)之间通讯是靠IP地址找到对方的,如果IP地址不固定会造成集群间无法访问也就是集群无法工作。因此我们首先需

2020-05-29 10:29:23 172

原创 7本有关Python的经典好书推荐,适合各类人群

Python越来越受到各行业从业者的关注,成为职场人士极为关注的职业提升技能,为了解答很多初学者的问题,今天特别给大家推荐9本有关Python的书籍,大家有兴趣可以看看哦!1、基础书籍:《Python编程》豆瓣评分:9.1分推荐指数:★★★★★推荐理由:架构非常漂亮,针对所有层次的Python读者而作的Python入门书,完美描绘了Python的“景象”,没有教科书式的分章节阐释语法,没有太复杂的概念延伸。适读群体:零基础、小白读者。2、入门秘籍:...

2020-05-28 12:15:15 649

原创 Python可视化:matplotlib的坐标轴和rc参数设置指南!

设置坐标轴​ 还记得上次画的那条“项链”嘛?结尾的时候有说过,这些是新手村礼包,还有很多其他值得探索的地方呢,那么就一起来康康还有哪些意想不到的操作吧(包括但不限于折线图哦,很多操作再其他图中也是可以运用哒!)当我看到这样一副图的时候,心里有点点疑问,貌似和手绘的图有点不一样啊,到底哪里不一样呢,来个对比看一下。这是matplotlib绘制的y = x^2:这是本人亲手绘制的y = x^2:(本灵魂画手已上线,非战斗人员请撤离!不要太在意细节哈,忽视那个长的不太协调的x轴和弯弯曲曲如蚯蚓的抛物线

2020-05-28 10:41:55 814

原创 大数据时代:SSH如何免密码登录?

Hadoop集群是由许多的节点服务器组成的,当我们启动hadoop集群时,hadoop的Namenode需要连接并且管理这些节点服务器(主要是DataNode)。此时系统会要求用户输入密码,提示内容与上篇文章中的ssh连接localhost时的提示是一样的,这从侧面说明Hadoop的Namenode是通过ssh方式连接控制节点DataNode服务的。如下图所示,hadoop使用ssh连接各个节点,ssh会对传输的数据进行加密,防止在数据传输过程中发生泄漏的问题。为了让系统可以顺利..

2020-05-28 10:23:14 419

原创 hadoop:分布式集群,初次启动!

上篇文章中我们通过克隆已有虚拟机并修改相应的参数配置将hadoop分布式集群搭建完成,接下来我们启动Hadoop分布式集群。1、ssh免密登录首先打开虚拟机软件VMware然后开启master、slave1、slave2三个虚拟机。一般搭建hadoop分布式集群时需要配置集群中各个节点间的ssh免密登录,然后才可以启动hadoop分布式集群。我们在master虚拟机终端中输入命令ssh slave1,此时出现如下提示,然后输入yes注意输入exit命令退出slave2的...

2020-05-28 10:09:49 473

原创 增长黑客:如何打造高效运转的增长引擎?

说到组建增长团队,不同发展阶段的公司组建有所不同,拿一个小型创业企业来说。他的目标是成立一个1-3人的“最小化可行性”增长团队,开始增长实验。他的挑战是:资源有限、人员有限,不知如何下手。那他成功的关键在于:最大化利用现有资源,尽快开始做增长试验。这个时候女主在书中给到的建议是:如果有产品或市场背景,可以由CEO牵头再加上现有的程序员和设计师资源,成立一个“机动”的增长团队。在这种配置下,CEO需要在核心产品增长实验之间统一分配资源。什么意思呢?我们前面说过,好的产品必不可少,在这里强调的是——boss

2020-05-28 09:45:56 433

原创 python可视化:matplotlib绘制直方图进阶篇!

在上篇文章中介绍了直方图的前五个参数,实际上直方图一共有十几个参数,剩下的参数利用这篇文章解释清楚,让大家能够将如何绘制直方图理解的透透的。bottom参数这个参数的含义也很直观,底部的意思,指的是条形的底从哪里开始。这个参数接收标量和序列,或者None,默认为None,如果是标量,则所有条形的底都从同一个数值处开始,如果为序列,则可以指定每个条形的底不一致。fig = plt.figure(figsize=(16,4))pic1 = fig.add_subplot(131)plt.hist(d

2020-05-27 10:18:05 355

原创 hadoop:分布式集群参数master节点的配置!

之前的文章中我们已经将master节点的网络IP、hostname文件、hosts文件配置完成,接下来还有hadoop相关配置文件需要修改。今天我们来讲master节点hadoop的配置。1、hdfs-site.xml在hadoop的配置文件中与HDFS(hadoop分布式文件系统)相关的是hdfs-core.xml文件。在伪分布集群中只有一个节点,因此此节点即要有NameNode功能也要有DataNode功能。在工作环境中这两个是不会在一个节点上的,在我们的多节点分布式集群中master只运.

2020-05-27 10:05:53 1295

原创 hadoop:伪分布模式启动步骤分解!

1、格式化HDFS在运行伪分布式前,需先对NameNode进行格式化,在命令行中输入hdfs namenode -format # 格式化hdfs若出现successfully formatted字样,则说明格式化成功2、启动hadoop然后启动hadoop集群start-all.sh # 一次性启动所有服务或使用以下命令单独启动各项服务start-dfs.sh #启动hdfsstart-yarn.sh #启动mapredu...

2020-05-27 09:48:00 614

原创 Hbase:安装及模式配置指南!

所谓知己知彼,百战不殆!在安装HBASE前,我们需要了解它的版本,从而好进行选择与下载。通过之前介绍的Hbase的集群架构,我们可以知道Hbase数据需要存储在HDFS上,因此在选择Hbase版本时要兼顾之前安装的Hadoop版本。Hbase各个版本与Hadoop各个版本之间的兼容性可以从Hbase官网上得到,如下图所示:我们之前安装的是Hadoop2.7.5这个版本的hadoop支持的Hbase版本是最多的,支持上图中所有的Hbase版本。目前Hbase1.3.2使用比较广泛所以我们选择此版。

2020-05-27 09:31:45 297

原创 大数据:hadoop多节点集群搭建指南!

1、多节点集群架构设计后续介绍的hadoop多节点集群由三台计算机构成:一台主节点为master,两台从节点为slave1、slave2。master节点上主要运行namenode、Resourcemanager进程;slave节点上运行datanode、nodemanager进程。由于大家一般只有一台计算机,因此我们使用虚拟机软件VMware workstation虚拟出三台计算机来分别运行master、slave1、slave2节点。因为是虚拟出的集群,所以跟实际的进群还是...

2020-05-26 14:14:19 543

原创 你了解matplotlib吗?直方图基础篇

​ 首先按照惯例先来认识下直方图是谁,以下是从维基百科搬运过来的直方图的定义:​ 在统计学中,直方图(英语:Histogram)是一种对数据分布情况的图形表示,是一种二维统计图表,它的两个坐标分别是统计样本和该样本对应的某个属性的度量,以长条图(bar)的形式具体表现。因为直方图的长度及宽度很适合用来表现数量上的变化,所以较容易解读差异小的数值。直方图也是用条形进行标注的,而条形图和直方图犹如孪生兄弟般让很多人都傻傻分不清,那么我们就先来好好区分一下这两种图形吧:条形图是用条形的长度表示各类别频数

2020-05-26 13:54:56 554

原创 Spark:安装及环境配置指南!

前篇文章介绍了scala的安装与配置、接下来介绍一下spark的安装及环境配置。 1、Apache spark下载在浏览器输入网址https://spark.apache.org/downloads.html进入spark的下载页面,如下图所示:下载时需要注意的是在第1步选择完spark版本之后的第2步“choose a package type ”时,spark与hadoop版本必须配合使用。因为spark会读取hdfs文件内容...

2020-05-26 13:33:34 440

原创 Python告诉你:从《入海》到《消愁》毛不易的歌里都在唱些什么?

【导语】:今天我们来聊聊——B站联合毛不易发布的毕业季主题曲《入海》,以及背后不一样的毛不易。Python技术部分请看第三部分。Show me data,用数据说话!今天我们聊一聊 毛不易的《入海》,没错,还是那个B站,在520这个既浪漫且有营销价值的一天又「搞事情」了。5月20日, B站联合毛不易发布毕业季主题曲《入海》。这首歌主题是“献给即将或已经毕业的人们”,歌曲MV中以主人公毕业的时候为原点,追忆过去,并用大量篇幅展现普通人毕业后的社会生活。这首歌一经发布就在B站引爆了...

2020-05-26 11:46:28 513

原创 口红?剃须刀?Python告诉你,刚过去的520,大家都在送什么礼物

【导语】:今天我们来聊一聊刚过去的520,大家买得最多的都是什么?Python技术部分请看第二部分。Show me data,用数据说话!今天我们聊一聊 520的礼物,一年一度的520刚刚过去,由于受疫情影响错过了今年的2月14日情人节,2020年5月20日,这个谐音为“爱你爱你我爱你”的 “世纪520”,对情侣们来说显得格外有吸引力。网上都是婚礼、告白、结婚等甜蜜新闻,微博排行榜上的蜜都要溢出屏幕了,520简直就是大型“撒狗粮”节日。其中,最大的狗粮来自民政局!全国各地的民政局都爆满了!想在这天领

2020-05-26 11:30:00 541

原创 EXCEL知识:数组运算是什么?

​ 对于Excel中的“数组”,我在最开始接触的时候觉得很难,理解不了它的原理。虽然会用数组写出来,但是很多时候完全不理解为什么要那样写。后来我看了一些资料,然后重复听老师讲课,最后慢慢理解了。到现在也有几个月的时间没有再看,但是最近做了一些有关数组方面的例题,发现很多以前无法理解的问题,现在豁然开朗。可能是过了一段时间再去看,忽然就理解了很多以前无法理解的问题。下面我主要介绍一些我自己理解的数组运算。什么是数组​ 在Excel中,数组可以理解为多个单元格的集合。单行数

2020-05-25 13:20:12 825

原创 见识matplotlib:不常见的一面,折线图!

​ 江湖上所公认的一句话,字不如表,表不如图!人们往往都更喜欢看图说话,那么用python的各位大侠们,大家都在用什么画图呢?各种各样的画图包犹如各式各样的兵器,有的兵器功能单一但是在细分领域超级专业无敌,有的兵器功能多而全,用法灵活。​ 众所周知,matplotlib是python绘图的基础包,能够生成各种各样2D或者3D的图形,用法算是多而全的那种,下边是matplotlib官网首页作为例子的几张图,大家感受一下:​ 什么?丑拒?不不不,别激动!其实matplotlib一直是一个低调奢华有内涵的包

2020-05-25 11:31:33 323

原创 未来10年最具潜力的行业已出现,你一定不能错过?

已经退居幕后的马云,因宣布“6月25日将辞去软银董事职务“”一事,而再次进入大众的眼帘,成为老百姓热议的人物。马云是个传奇的人物,比起商场,他更偏爱公益和教育,并自称马老师。但他敢于创新,引领阿里巴巴“一路高歌”,创造了一个又一个的销售“票房奇迹”,不得不说马老师的商业洞察力十分敏锐。某次主题演讲上,马云曾讲到过未来20年,人工智能会取代50%的工作岗位,或将成未来最具潜力的行业,其应用将涵盖生产、运输、无人驾驶、服务、医学等领域。随着人工智能技术的突飞猛进,近年来很多岗位已被其代替,而未来

2020-05-25 11:03:56 557

原创 Spark集群:环境搭建之Scala安装指南!

前篇文章介绍了Spark计算框架相较于MapReduce框架的种种优势,接下来我们一起安装、配置Spark集群环境,方便后期继续学习研究。Spark项目是由Scala语言编写的,因此需提前配置Scala环境才能运行Spark程序。1、Scala版本选择与下载我们安装spark2.1.2版本与之对应的环境要求可以在spark官网可以得到。如下图所示:从上图可一看到安装Spark2.1.2我们需要安装scala2.11...

2020-05-25 10:43:01 327

原创 大数据分析:学习工具JDK,在线安装指南!

hadoop是使用Java语言开发的并且Hadoop运行需要有Java环境的支持,因此在安装hadoop之前需要安装Java开发环境即JDK(Java Development Kit)。安装前首先向大家介绍以一下本文会用到的几个词:JAVA_HOME:一是为了方便引用,比如,JDK安装在/usr/lib/jvm/java-7-openjdk-i386目录里,则设置JAVA_HOME为该目录路径, 那么以后要使用这个路径的时候, 只需输入$JAVA_HOME即可, 避免每次引用都输入很长的路径串;

2020-05-25 10:25:42 178

原创 大数据分析:学习工具Hadoop,基本安装指导!

Hadoop版本主要分为原生Apache Hadoop版和Hadoop商业发行版两种,而其中商业发行版Hadoop多为原生Apache Hadoop的集群模式下的优化版,除少数社区版外,商业发行版大多需要付费使用,且对于初学者而言使用难度较大,因此本教程主要采用Apache Hadoop进行安装与使用方面教学。同时,兼顾一线企业实际使用差别和教学PC机器性能,本次课程将主要采用Apache Hadoop 2.6.5版本。如何下载Hadoop打开Hadoop官网下载地址,页面如下图所示,根据提示选择2

2020-05-25 10:08:16 432

原创 基于Python图表绘图系统:matplotlib散点图和气泡图,你了解吗?

​ 惯例先来简单介绍下什么是散点图:用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。散点图将序列显示为一组点。值由点在图表中的位置表示。类别由图表中的不同标记表示。(来源:百度百科)​ 散点图很主要的是可以很直观的查看两组数据之间的关系,另外还可以很显示数据的分布情况。干巴巴的描述来描述去也没有一个图来的直观容易理解:例如这张图,x轴数据和y轴数据就存在很强的正向关!而这幅散点图,显示数据分布,对于分类有很大的帮助。绘制简单散点图​ 既然已经知

2020-05-22 13:29:19 757

原创 数据处理:销售业绩分箱工具,pd.cut() Vs pd.qcut()

​ 相信很多进行数据处理工作的小伙伴都遇到过这种需求,比如已经有了各个销售员的销售业绩,现在需要给各个销售业绩进行一个分档,诸如未完成任务,完成任务,超额完成任务等。要完成分档需要先对销售业绩的数值进行判断,然后再根据判断的结果进行一个分类,那么大家都是怎样进行分类的呢?​ 实际上,上述需求是要对连续型的数值进行分箱操作,实现的方法有N种,但是效率有高有低,这里我们介绍两种效率比较高而且也容易理解的方法。方法一:pd.cut()参数介绍先来看一下这个函数都包含有哪些参数,主要参数的含义与作用都是什.

2020-05-22 11:54:33 562

原创 pandas数据处理:常用却不甚了解的函数,pd.read_excel()

人们经常用pandas处理表格型数据,时常需要读入excel表格数据,很多人一般都是直接这么用:pd.read_excel(“文件路径文件名”),再多一点的设置可能是转义一下路径中的斜杠,一旦原始的excel表不是很规整,这样简单读入势必报错!其实这个函数有很多参数可以设置,为了应对各式excel表满足各种读入的需求,我们来详细了解下pd.excel()中的主要参数。首先,认识一下pd.read_excel(),函数的官方文档是这么说的:将Excel文件读取到pandas DataFrame中,支持本.

2020-05-22 11:19:19 907 1

原创 Python数据分析:强大字符串处理工具,正则表达式!

正则表达式是处理字符串的强大工具。作为一个概念而言,正则表达式对于Python来说并不是独有的。 正则表达式是一个特殊的字符序列,它能帮助开发人员方便的检查一个字符串是否与某种模式匹配。Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。下面将介绍Python中对字符串进行搜索和查找的一些函数方法。常用函数一般字符(1)“.”字符为匹配任意单个字符。例如,a.b可以的匹配结果为abc、aic、a&c

2020-05-22 10:49:08 403

原创 matplotlib中简单条形图,你了解吗?

​ 条形图是数据可视化图形中很基础也很常用的一种图,简单解释下:条形图也叫长条图(英语:bar chart),亦称条图(英语:bar graph)、条状图、棒形图、柱状图、条形图表,是一种以长方形的长度为变量的统计图表。长条图用来比较两个或以上的价值(不同时间或者不同条件),只有一个变量,通常利用于较小的数据集分析。长条图亦可横向排列,或用多维方式表达。那么一个普通的条形图是长什么样子的呢?当!当!当!就是下图的这个样子:​ 图先亮出来啦,接下来研究这个图是怎么画的吧,先看一下原数据长什么样子:

2020-05-22 09:48:36 444

原创 数据统计方法:确定性时间序列的分析法

时间序列分析是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计变化规律,以用于解决实际问题。通常影响时间序列变化的4个要素如下:长期趋势(T):是时间序列在长时期内呈现出来的持续向上或持续向下的变动。季节变动(S):是时间序列在一年内重复出现的周期性波动。循环波动©:是时间序列呈现出得非固定长度的周期性变动。随机因素(I):是时间序列中除去长期趋势、季节变动和循环波动之后的随机波动。不规则波动通常总是夹杂在时间序列中,致使时间序列产生一种波浪形或震

2020-05-21 14:41:09 1566

原创 matplotlib的环形图,你真了解吗?

​ 环形图是饼图衍生出来的统计图形,可以看作是两个以上饼图的叠合。环形图与饼图类似,其实是有差别的。饼图是用圆形及圆内扇形的面积来表示数值大小的图形,主要用于表示总体中各组成部分所占的比例。与之对比,环形图中间留有空白,可以用多个环展示多个样本,既可以表示每个样本中各部分的占比,又可以对多个样本的结构同时进行对比。​ 文字表达永远没有图片来的直观,从网上随便搜了一个环形图先简单感受下:绘制简单环形图​ 上边的环形图只有一个环,实际上可以根据需要绘制多个环嵌套在一起的环形图,并且也可以加上每一段弧形所

2020-05-21 13:45:37 835

原创 你了解matplotlib吗?多类别条形图篇

​ 这篇文章来探索下多类别条形图比如各学校包含语文、数学、英语三科成绩的条形图怎样绘制。在绘图之前,先来复习一下条形图函数中主要参数的含义:x控制的是每个条在x轴方向上的位置;height控制的是每个条的长度;width控制的是每个条的宽度;bottom控制的是每个条在y轴方向的起始位置orientation控制的是条形的方向,是纵向还是横向,默认是纵向的。小例子辅助理解:x = [0.7, 1.5, 2, 3]height = [3, 10, 12, 7]plt.bar(x, hei

2020-05-21 11:52:44 450

原创 python numpy库中矩阵用法指南

矩阵是一个由m*n个数排成的m行n列的表称为m行n列的矩阵,简称为m*n矩阵。下面的矩阵是一个3*2(3乘2)矩阵,因为它有三行四列。在数学的概念中,矩阵(Matrix)是一个按照长方阵列排列的复数或实数集合,最早来自于方程组的系数及常数所构成的方阵。这一概念由19世纪英国数学家凯利首先提出。矩阵是高等代数学中的常见工具,也常见于统计分析等应用数学学科中。 矩阵的运算是数值分析领域的重要问题。将矩阵分解为简单矩阵的组合可以在理论和实际应用上简化矩阵的运算。对一些应用广泛而形式特殊的矩阵,例如稀疏矩阵和

2020-05-21 11:45:42 800

原创 kmeans优化算法:二分Kmeans聚类算法

算法的理解​ Bi这里是的意思就是Binary,二进制的意思,所以有时候叫这个算法为二进Kmeans算法。为什么我们需要用BiKmeans呢,就是为了解决初始化k个随机的质心点时其中一个或者多个点由于位置太极端而导致迭代的过程中消失的问题。BiKmeans只是Kmeans其中一个优化方案,其实还是有很多优化的方案,这里BiKmeans容易讲解和理解,并且容易用numpy, pandas实现。​ 那为什么二进Kmeans算法可以有效的解决这个问题呢。我们需要从二进Kmeans的基础看是讲起。其实BiKme

2020-05-21 11:14:08 940

转载 我们如何提升自己的数据洞察力?

很多同学抱怨:每天对着大堆数字,却看不出个名堂。反而有些做业务的人,看几个数字就能马上做出准确判断。咋回事!看着数据没有感觉,是缺少数据洞察力的表现。数据洞察力和操作工具没有关系,完全是一种思维习惯。建立起来以后,不单单对工作有帮助,在生活中用处也很大,今天我们系统讲解下。1直观感受下啥叫洞察数字本身没有啥含义,数字+业务场景,才有了具体业务含义(如下图):注意,上图的小帅哥会暴走,并不是因为姑娘180身高,而是因为姑娘180把他比得太矮了(且因此受过嘲讽)。“比”才是问题的关键。所以数

2020-05-21 10:45:29 867 1

转载 你的城市撒币了吗?Python分析各城市消费券发放数据

作者:刘早起来源:早起Python前言近期,全国多地以各种形式投放消费券、消费补贴来鼓励消费,部分城市在首期消费券的基础上,连续追加发放多期消费券。于是,不少网友相互比较起来:你在的城市“撒币”了吗?哪个城市发的券最多?跟随本文一起来看看。数据说明如果想从支付宝或者微信等官方网站爬取相关数据会非常困难,因此本文将从专门收集发布此类数据的本地宝网站获取公开数据,首先打开任意一个城市的消费券信息:然后熟练的F12 — 查找数据包发现不同城市的消费券信息对应的URL仅仅变...

2020-05-21 10:11:32 700

原创 使用非参数统计检验进行分析的指南

1980年代末,汉斯拉伊大学(Hansraj College)经济学荣誉毕业生的平均薪酬约为每年100万印度卢比。这一数字大大高于80年代初或90年代初毕业的人们。他们平均水平如此之高的原因是什么呢?沙鲁克·汗是印度收入最高的名人之一,1988年毕业于汉萨拉吉学院,当时他在那里攻读经济学荣誉学位。这一点,以及还有很多的例子都会告诉我们,平均值并不是很好的可以指示出数据的中心在哪里。它可能会受到异常值的影响。在这种情况下,查看中位数是更好的选择。 它是一个很好的数据中心的指示器,因为一半数据位于中间值以下

2020-05-20 11:51:07 3006

CDA数据科学家LEVEL3考试大纲

「CDA 数据分析师人才行业标准」是面向全行业数据分析及大数据相关岗位的一套科 学化、专业化、正规化、系统化的人才技能准则。经管之家 CDA 数据分析师认证考试是评 判「标准化人才」的唯一考核路径。CDA 考试大纲规定并明确了数据分析师认证考试的具 体范围、内容和知识点,考生可按照大纲要求进行相关知识的学习,获取技能,成为专业人才。

2018-08-17

CDA数据分析师LEVEL2建模分析师考试大纲

「CDA 数据分析师人才行业标准」是面向全行业数据分析及大数据相关岗位的一套科 学化、专业化、正规化、系统化的人才技能准则。经管之家 CDA 数据分析师认证考试是评 判「标准化人才」的唯一考核路径。CDA 考试大纲规定并明确了数据分析师认证考试的具 体范围、内容和知识点,考生可按照大纲要求进行相关知识的学习,获取技能,成为专业人才。

2018-08-17

CDA大数据分析师LEVEL2考试大纲

「CDA 数据分析师人才行业标准」是面向全行业数据分析及大数据相关岗位的一套科 学化、专业化、正规化、系统化的人才技能准则。经管之家 CDA 数据分析师认证考试是评 判「标准化人才」的唯一考核路径。CDA 考试大纲规定并明确了数据分析师认证考试的具 体范围、内容和知识点,考生可按照大纲要求进行相关知识的学习,获取技能,成为专业人 才。

2018-08-17

CDA数据分析师LEVEL1考试大纲

「CDA 数据分析师人才行业标准」是面向全行业数据分析及大数据相关岗位的一套科 学化、专业化、正规化、系统化的人才技能准则。经管之家 CDA 数据分析师认证考试是评 判「标准化人才」的唯一考核路径。CDA 考试大纲规定并明确了数据分析师认证考试的具 体范围、内容和知识点,考生可按照大纲要求进行相关知识的学习,获取技能,成为专业人 才。

2018-08-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除