数据分析 概述

一.数据
1.概念:

"数据"(Data)就是可以被记录的,用于描述对象属性的数值或符号.描述对象就是将对象抽象成若干个可以度量的属性("变量"),再用数据描述.
不过在数据分析中,数据通常指的是"结构化的数据"(Structured Data)

2.分类:

参见:https://blog.csdn.net/tomcmd/article/details/41311575

数据类型表述允许的变换例子操作
标称(Nominal;分类,定性)与其他对象相区别的名称(=,≠)双射邮编,ID,姓名,性别众数,熵,列联相关 χ 2 \chi^2 χ2检验
序数(Ordinal;分类,定性)确定对象信息的序(>,<)保序变换矿石硬度,成绩,街道号码中值,百分位,秩相关
区间(Interval;数值,定量)区间属性,差有意义(-),即存在计量单位线性变换(加法)日期,摄氏/华氏温度均值,标准差,Pearson相关系数
比例(Ratio;数值,定量)比率变量,比率也有意义(/)线性变换开氏温度,货币量,计数,年龄几何平均,调和平均,百分比变差

3.用途:

记录,解释,预测,控制

二.模型

"原型"(Prototype)是指人们在现实世界中关心的实际对象."模型"(Model)则是指为了某个特定目的而将原型的某部分信息压缩提炼而构造出的
原型的替代物,分为"定量模型""定性模型"

三数据分析与数据挖掘
1.数据分析:

"数据分析"(Data Analysis)是指根据变量类型和一定的假设,来确定变量与变量之间的关系.例如当随机变量x,y之间没有关系时:
                                             y=x+ε
其中ε也是1个随机变量

2.数据挖掘:

"数据挖掘"(Data Mining)是指从大量的数据中提取潜在有用的信息,或者说,发现新模型的过程

在这里插入图片描述
3.数据分析与数据挖掘的关系:

数据分析是在已知模式下确定参数,主要方法为统计/相关/回归
数据挖掘则是发现新的模型,主要方法为分类/关联/聚类/回归

4.实现
(1)离线分析和挖掘:

静态数据,R,Python

(2)在线分析和挖掘:

OLAP,OLTP,大数据平台

(3)注意事项:

①尽可能地链接各种数据源(使用统一身份认证取得关联依据)
②保证数据质量
③进行冗余采集和存储

5.步骤:

①获取数据
②数据预处理
  Ⅰ载入数据
  Ⅱ清洗数据(异常/维度/粒度)
  Ⅲ处理缺失值/无效值
  Ⅳ格式转换,命名变换,类型转换
③数据分析
④数据挖掘

四.其他概念
3.交叉验证:

"交叉验证"(Cross Validatoion)是指将原始数据(Dataset)分组,一部分作为训练集(Train Set),另一部分作为验证集(Validation Set).先
用训练集对分类器进行训练,再利用验证集来测试

4.聚类问题
(1)概念:

"聚类"(Clustering)是指将所有样本按某个特定标准分到不同的子集(这些子集称为"Cluster"),使同1个子集中的样本在某种意义上是相同或
相似的.和分类不同的地方在于,聚类不会预先确定样本类,只是根据"物以类聚"的原则将数据分组

在这里插入图片描述
(2)相关方法

#距离度量:
Euclidean Distance
Manhattan Distance
Mahalanobis Distance

#相关算法:
K均值(K-Means)
Sequential Leader
Affinity Propagation

(3)应用:

Market Research
Image Segmentation
Social Network Analysis

5.关联规则:

"关联规则"(Association Rule)是指不同事物间的依存性和关联性,1个事物的存在如何影响另1个事物的存在

6.回归问题:

"回归"(Regression)是指找到不同变量间的统计关系
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值