自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 数据分析之帕累托(贡献度)分析

帕累托分析又叫贡献度分析,原理是20/80定律,即80%的利润常常来自于20%的产品。以某餐饮菜品的盈利数据为例:R语言实现:1、导入数据dishdata <- read.csv(file="catering_dish_profit.csv",header = T) #源数据是从大到小排序好的导入后的数据如下图2、绘制柱形图barplot(dishdata...

2018-07-31 23:29:19 14181

原创 数据分析之定量数据的描述统计

从集中趋势和离中趋势两个方面进行分析:1、集中趋势度量(1)均值主要问题时对极端值比较敏感,因此可以使用截断均值来度量。算术平均数:=mean()几何平均数:=exp(mean(log()))计算数据样本的指定阶中心距(R语言):moment(X,order),计算样本X的order阶的中心距。(2)中位数(3)众数众数更适用于定性变量。众数不具有唯一性。2...

2018-07-31 22:10:49 6790

原创 数据处理之异常值分析、处理

异常值的分析方法1、简单统计量分析做一个描述性统计,进而查看哪些数据不合理。最常用的是最大值和最小值,如年龄的最大值199,则存在异常。2、3σ原则针对服从正态分布的数据,3、箱形图分析(R语言)首先,读取数据集,用sum(),mean()函数来分别获取缺失样本数、缺失比例。saledata <- read.csv(file="catering_sale.c...

2018-07-30 21:52:41 11413

原创 R连接ODBC数据库详细步骤

R连接ODBC数据库,涉及“ODBC”包,包括五个主要函数:odbcConnect 建立一个到ODBC数据库的连接 sqlSave 保存数据集到ODBC数据库中 sqlFetch 读取ODBC数据库中的某个表到R的一个数据框中 sqlQuery 向ODBC数据库提交一个查询并返回结果 sqlDrop 删除数据库中的表  在连...

2018-07-29 17:19:58 6699

原创 常见的数据抽样方法

1、随机抽样采用随机抽样方式时,数据集中的每一组观测值都有相同的被抽样的概率。比如按10%的比例随机抽样,则每一个观测值都有10%的机会被取到。2、等距抽样比如按5%的比例对一个有100个观测值的数据集进行等距抽样,则有:100/5=20,等距抽样方式是取第20、40、60、80和100个观测值。3、分层抽样首先将样本总体分成若干层次(或者说分成若干个子集)。在每个层次中的观测...

2018-07-29 15:29:04 15336

原创 正则表达式汇总

1、基本的元字符元字符 说明 . 匹配任意单个字符 | 逻辑或操作符 [ ] 匹配字符集合中的一个字符,里面的元字符当做普通字符 [^] 对字符集合求非 - 定义一个区间(例如[A-Z]) \ 对下一个字符转义 2、数量元字符元字符 说明 * 匹配前一个字符(子表达式)的零次或多次重复,等价于{0,} ...

2018-07-18 14:11:23 226

原创 Tableau如何隐藏工作表

    Tableau是一款容易上手的数据可视化软件工具,诸多公司都有应用。初学Tableau时,难免会遇到一些坑,比如右击工作表时,隐藏工作表的选项为灰色,不可用,如下图:原来是Tableau要求只有添加到仪表板中的工作表才可以隐藏,解决方案如下:1、新建仪表板,将需要隐藏的工作表(工作表2)添加到仪表板中;2、右击“工作表2”,点击“隐藏”即可,如下图。 ...

2018-07-16 11:53:40 4494

Apriori算法代码-Python

Aprior算法的Python代码实现,其中定义了python实现关联规则算法的函数。

2018-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除