什么是离散化(数据分组)
把无限空间有限个体映射到有限空间里有限
白话:在不改变数据相对大小的条件下,对数据进行相对的缩小
例如:
原数据:7 1 4 3 处理后: 4 1 3 2
原数据:{100,250}{200,400} 处理后{1,3}{2,4}
步骤(SPSS):
(1)点击转换:
(2)点击可视分箱:
(3)将要离散化的变量转入“要分箱的变量”框中:点击继续:
(4)在“分箱化变量”中输入分箱后变量的名称(随便取):
(5)在“值”中输入想取的几个分割点数值:
(6)点击“生成标签”:
(7)点击确定:
(8)出现了新生成的字段列变量:
(9)排序
(10)在变量视图中查看具体分组
补充(使用C语言做数据离散化):
unique函数
头文件:#include<stdio.h>
格式: iterator unique(iteration it_1 , iterator it_2);
函数特性:
1.对容器中(it_1,it_2)范围的元素去重【把重复的元素添加到容器末尾,不改变数组大小】
2.返回值是一个迭代器
3.它指向的是去重后容器中不重复序列的最后一个元素的下一个元素