自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 数据分析之特征分析(二)

对比分析对比分析是指把两个相互联系的指标精选比较,从数量上展示和说明研究对象规模的大小,水平高低,速度快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较绝对数比较绝对数比较是利用绝对数进行对比,从而寻找差异的一种方法绝对数比较实例分析import numpy as np import pandas as pd import matplotlib.pyplot...

2020-03-10 14:45:20 296

原创 数据分析之特征分析(一)

1 数据质量分析数据质量分析的主要任务是检查原始数据中是否存在脏数据。脏数据包括如下内容:缺失值缺失值的处理分为删除存在缺失值的记录、对可能值进行插值处理和不处理异常值简单统计分析:描述性统计,获取最大最小值等3σ\sigmaσ原则:如果数据服从正态分布,在3σ\sigmaσ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,出现概率为P(| x - μ\mu...

2020-03-10 14:43:54 1118

原创 开启数据挖掘及数据分析学习之旅

数据挖掘简介及其应用场景 搭建Python数据挖掘环境 亲和性分析示例:根据购买习惯推荐商品 经典分类问题示例:根据测量结果推测植物种类数据挖掘简介数据挖掘旨在让计算机根据已有数据做出决策。决策可以是预测明天的天气、拦截垃圾邮件、检测网站的语言或者约会网站上发现新的恋爱对象等。数据挖掘设计算法、统计学、工程学、最优化理论和计算机科学相关领域的知识。亲和性分析 向网站用户...

2020-03-10 14:42:38 197

原创 泰坦尼克号生还者预测

1912年4月15日,在首次航行期间,泰坦尼克号撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难。这场悲剧轰动了国际社会。沉船导致遇难的原因之一是没有足够的救生艇给乘客和船员。虽然在这场灾难中幸存下来有一些运气在里面,但一些人比其他人更有可能幸存,比如妇女,儿童和上层阶级。1.数据描述survival - 是否幸存(0=幸存,1=遇难)pclass - 船票类型(1=一等票,2...

2020-03-10 10:15:04 2018

原创 DC离职率预测案例分析

1.需求描述本文分析利用DC员工数据进行分析。在对离职率的影响因素进行观察的基础至上,建立模型并预测哪些员工更易离职。2.数据集描述DC员工数据集共有31个变量,1100个观测量。部分重点关注变量描述如下:员工特征可以分为以下几类基本的身份信息变量: 性别、年龄、学历、婚姻状况、教育程度、就读专业;员工公司身份变量: 工龄、司龄(在公司工作的时间)、职位、职级、任职过的企业数量、所...

2020-03-10 10:10:38 853

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除