建模课的笔记

最新推荐文章于 2024-06-04 23:18:18 发布

weixin_48744808

最新推荐文章于 2024-06-04 23:18:18 发布

阅读量82

点赞数

本文链接：https://blog.csdn.net/weixin_48744808/article/details/114867020

版权

建模课的笔记

第一次课

传统的统计学数据已经给出，或者说已经清洗好了，用来做回归做分析。
数据挖掘就是要挖掘出数据背后的信息

数据集的类型：

记录数据集：每个记录包含固定的属性，列成为属性
数据矩阵：每一个属性都是数值型的，每行一个数据对象每列一个属性
文本数据：文档转换成一个“单词项”向量，分类型向量使用频数进行分析，包括频率分布，卡方分布
，事务数据：每一个数据包含一个项的集，例如顾客购买商品的集合
与记录数据集的区别，每个项的属性不一定相同
图：图形和HTML连接
不通过属性的类型：
1分类型
（1）名词性：邮编、性别、颜色（可用柱状图饼状图表示）
（2）序数：等级、矿石的硬度、街道号码
2、数值型
（1）区间：定距数据例如：日历日期温度，数据可以做减法
（2）比率：定比数据，例如：绝对温度、年龄、货币量、质量、长度、收入，数据之间的乘法和除法得到的数据有意义。
总结：确定数据的属性，分析数据之间进行加减乘除是否有意义。
离散属性和连续属性

数据挖掘中的特别的列：

1、只有一个数值：忽略
2、每一个值都不一样：身份证。Id、，这些数据都不一样，可以忽略，但是在这些信息里面可以提取出有信息的数据，如身份证的前四位，这个可以作为派生变量
3忽略与目标列同义的列
4维度
5、稀疏性：是否包含大量的0
6、分辨率的粒度：细节的程度，粒度越小，细节程度越高，综合的程度越低数据量越大，模式依赖于分辨率
数据的质量分析
目的：删选数据
类型

缺失：

1、缺失数据的机制：完全随机缺失：随机缺失非随机缺失
2、缺失数据的模式：缺失矩阵
缺失数据机制对书分析的影响
简单的情形
单变量缺失
一般缺失
异常
不一致的值：
缺失值可分为两类
1实际存在没有被记录：如收入。预测或插补法未观测的值是有意义的
2.本来就不存在：如顾客本来就没有购买洗发水品牌，如果用均值和众数去填补就反而会产生偏差

第二次课

weixin_48744808

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
建模课的笔记

建模课的笔记第一次课传统的统计学数据已经给出，或者说已经清洗好了，用来做回归做分析。数据挖掘就是要挖掘出数据背后的信息数据集的类型：记录数据集：每个记录包含固定的属性，列成为属性数据矩阵：每一个属性都是数值型的，每行一个数据对象每列一个属性文本数据：文档转换成一个“单词项”向量，分类型向量使用频数进行分析，包括频率分布，卡方分布，事务数据：每一个数据包含一个项的集，例如顾客购买商品的集合与记录数据集的区别，每个项的属性不一定相同图：图形和HTML连接不通过属性的类型：1分类型（1）
复制链接

扫一扫