一.数据
1.概念:
"数据"(Data)就是可以被记录的,用于描述对象属性的数值或符号.描述对象就是将对象抽象成若干个可以度量的属性(即"变量"),再用数据描述.
不过在数据分析中,数据通常指的是"结构化的数据"(Structured Data)
2.分类:
参见:https://blog.csdn.net/tomcmd/article/details/41311575
数据类型 | 表述 | 允许的变换 | 例子 | 操作 |
---|---|---|---|---|
标称(Nominal;分类,定性) | 与其他对象相区别的名称(=,≠) | 双射 | 邮编,ID,姓名,性别 | 众数,熵,列联相关 χ 2 \chi^2 χ2检验 |
序数(Ordinal;分类,定性) | 确定对象信息的序(>,<) | 保序变换 | 矿石硬度,成绩,街道号码 | 中值,百分位,秩相关 |
区间(Interval;数值,定量) | 区间属性,差有意义(-),即存在计量单位 | 线性变换(加法) | 日期,摄氏/华氏温度 | 均值,标准差,Pearson相关系数 |
比例(Ratio;数值,定量) | 比率变量,比率也有意义(/) | 线性变换 | 开氏温度,货币量,计数,年龄 | 几何平均,调和平均,百分比变差 |
3.用途:
记录,解释,预测,控制
二.模型
"原型"(Prototype)是指人们在现实世界中关心的实际对象.而"模型"(Model)则是指为了某个特定目的而将原型的某部分信息压缩提炼而构造出的
原型的替代物,分为"定量模型"和"定性模型"
三数据分析与数据挖掘
1.数据分析:
"数据分析"(Data Analysis)是指根据变量类型和一定的假设,来确定变量与变量之间的关系.例如当随机变量x,y之间没有关系时:
y=x+ε
其中ε也是1个随机变量
2.数据挖掘:
"数据挖掘"(Data Mining)是指从大量的数据中提取潜在有用的信息,或者说,发现新模型的过程
3.数据分析与数据挖掘的关系:
数据分析是在已知模式下确定参数,主要方法为统计/相关/回归
数据挖掘则是发现新的模型,主要方法为分类/关联/聚类/回归
4.实现
(1)离线分析和挖掘:
静态数据,R,Python
(2)在线分析和挖掘:
OLAP,OLTP,大数据平台
(3)注意事项:
①尽可能地链接各种数据源(使用统一身份认证取得关联依据)
②保证数据质量
③进行冗余采集和存储
5.步骤:
①获取数据
②数据预处理
Ⅰ载入数据
Ⅱ清洗数据(异常/维度/粒度)
Ⅲ处理缺失值/无效值
Ⅳ格式转换,命名变换,类型转换
③数据分析
④数据挖掘
四.其他概念
3.交叉验证:
"交叉验证"(Cross Validatoion)是指将原始数据(Dataset)分组,一部分作为训练集(Train Set),另一部分作为验证集(Validation Set).先
用训练集对分类器进行训练,再利用验证集来测试
4.聚类问题
(1)概念:
"聚类"(Clustering)是指将所有样本按某个特定标准分到不同的子集(这些子集称为"Cluster")中,使同1个子集中的样本在某种意义上是相同或
相似的.和分类不同的地方在于,聚类不会预先确定样本类,只是根据"物以类聚"的原则将数据分组
(2)相关方法
#距离度量:
Euclidean Distance
Manhattan Distance
Mahalanobis Distance
#相关算法:
K均值(K-Means)
Sequential Leader
Affinity Propagation
(3)应用:
Market Research
Image Segmentation
Social Network Analysis
5.关联规则:
"关联规则"(Association Rule)是指不同事物间的依存性和关联性,即1个事物的存在如何影响另1个事物的存在
6.回归问题:
"回归"(Regression)是指找到不同变量间的统计关系