一.基本概念
- 欧式距离—
- 曼哈顿距离
- 数据规范化的两种方法
3.1 最小-最大规范化
最小-最大规范化也称为离散标准化,是对原始数据的线性变换,将数据值映射到[0, 1]之间。
转换公式如右:
此种标准化保留了原来数据中存在的关系,是消除量纲和数据取值范围影响的最简单方法。这种处理方法的缺点是若数值集中且某个数值很大,则规范化后各值接近于0,并且将会相差不大。
3.2 零-均值规范化(z-score标准化)
- 聚类算法相关概念,见博客:层次聚类
二. matlab函数用法
- zscore函数—0,1数据标准化方法
默认按列进行求均值与方差并且标准化 - 聚类相关函数详见:博客
- axis on ;axis off;axis tight;axis([xmin xmax ymin ymax])----与subplot连用时有问题
三,聚类模型
- 分析食品价格特点总体思路:因为食品过多,所以先分类,考虑聚类模型,然后再分别对各类食品进行价格特点分析
- 聚类必然要有分类标准,那么以什么为分类标准呢?初步考虑如下:
以价格波动程度为分类标准(价格波动程度虚线越近,越属于同一类),进行聚类分析-------
按各食物价格为行向量,归一化后的行向量间欧式距离越近,则两物品价格越相近,以图像来看,则代表两物品价格变动曲线越相近,即这两种物品价格波动程度大致相同。 - 分析以此为标准分类后的各类食品图像曲线,评判发现,分类质量堪忧,无法用经验语言进行合理解释,更无法归纳出各类食品价格特点,所以不能如此分类。进一步考虑,食品是由国家宏观调控的,不是笼统的按价格波动程度分类的,因此查阅相关资料,《中国国家统计年鉴数据》等等,依据食品属性,将食品分为食用油类,肉类,鱼类,蔬菜类等等共六类;然后再依据图像曲线等等分析各类食品价格的特点。
四,markov模型—食品价格趋势预测
先以一种食物来理解,这种食物有39期的价格,则有38个价格增长率,现将价格增长率划分为5段,则每两个价格增长率之间就有5*5=25种可能状态,且有37个相连价格增长率特征,这37个特征分布于25种可能状态中…未完待续