背景需求:
- 简单使用kmeans算法对样本容量为700左右的数据集进行分类,同事想抛弃java和python,试试用matlab来实现,看看效果怎么样,故有此尝试。
- 公司没有买matlab的license,就使用免费octave-5.1.0-w64-64版本使用,听同事说这个就是阉割版的matlab,没有matlab十几个G的大小,所以有些package会缺少
数据集简略:
按照城市名-纬度-东经进行数据清洗后生成Excel文件,再保留成纬度-经度的txt文档,最终结果如下表所示:
纬度 | 东经 |
---|---|
31.14 | 121.29 |
39.55 | 116.2 |
22.33 | 114.07 |
29.52 | 121.33 |
41.48 | 123.25 |
数据量在700不到一点,不一一列举,关于数据清洗的过程,写了个简单的小工具,会另写一篇文章来记录。
matlab实现过程
data=importdata('out2.txt')
读取txt文件到data变量
[Idx,C]=kmeans(data,