数据挖掘技术
文章平均质量分 54
yunfeizhong
这个作者很懒,什么都没留下…
展开
-
二分变量
二分变量作为离散变量的一种类型,在数据挖掘中发挥着重要的作用。我试着从多个方面来说说二分变量的好处。 1、简单。嗯……这个就不用说了吧,二分变量就两个取值,1和0,或者T和F,够简单吧,计算机技术的基础也是二进制,可谓异曲同工,简单就是美,一直我信奉的信条; 2、其它类型的变量可以通过某种变换转化为二分变量的形式。我们简单的变量划分为两种,连续变量和离散变量(事实上二分变量可以理解原创 2008-08-27 18:05:00 · 8830 阅读 · 0 评论 -
二分变量之二——二分变量预测结果的三种表达
对于二分变量,假设其取值为T和F。对之建立预测模型,那么预测结果可以有以下三种表达方式:(1)预测结果为T(或预测结果为F);(2)预测结果为T,把握程度为p(或预测结果为F,把握程度为1-p);其中p为0到1之间的实数。(3)预测结果为取T的可能性为p。 注意(2)和(3)上表述的差异,(1)和(2)是离散结果,而(3)是一个连续的结果,预测结果在0到1之间。并且(1)显然包原创 2008-09-01 21:33:00 · 1623 阅读 · 0 评论 -
时间序列形态相似性分析(一)——时间序列形态相似性的度量
序 时间序列是一类最常见的数据,目前时间序列分析重点研究的多是时间序列的预测。但针对有些问题,时间序列的形态比较也是一类重要的问题。例如:各种商品每日均价(或者股票的每日收盘价格)构成了时间序列,如何评价商品价格走势的一致性,就可以归结为时间序列形态相似性问题。本系列短文将就这一问题逐步展开探讨。(一) 两个时间序列形态相似性的描述为了描述形态相似性,我们可以通过以下步原创 2008-09-09 21:07:00 · 8068 阅读 · 6 评论 -
时间序列形态相似性分析(二)——相似性度量的一个应用实例
(二)时间序列相似性度量的一个实例我们取2008年8月25日——2008年9月5日共10个交易日的所有中小板块股票的收盘价格构成数据集如下图。 在这10个交易日中,每天都有交易的中小板股票共有229支,再加上中小板指数(sz399005),共有230个时间序列数据,如果我们考察每两个时间序列的相似性,将有Combine(230,2)=26335个时间序列对。我们使用如下SAS程序可原创 2008-09-17 22:52:00 · 8043 阅读 · 2 评论