自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 时间序列形态相似性分析(二)——相似性度量的一个应用实例

(二)时间序列相似性度量的一个实例我们取2008年8月25日——2008年9月5日共10个交易日的所有中小板块股票的收盘价格构成数据集如下图。 在这10个交易日中,每天都有交易的中小板股票共有229支,再加上中小板指数(sz399005),共有230个时间序列数据,如果我们考察每两个时间序列的相似性,将有Combine(230,2)=26335个时间序列对。我们使用如下SAS程序可

2008-09-17 22:52:00 8068 2

原创 时间序列形态相似性分析(一)——时间序列形态相似性的度量

序 时间序列是一类最常见的数据,目前时间序列分析重点研究的多是时间序列的预测。但针对有些问题,时间序列的形态比较也是一类重要的问题。例如:各种商品每日均价(或者股票的每日收盘价格)构成了时间序列,如何评价商品价格走势的一致性,就可以归结为时间序列形态相似性问题。本系列短文将就这一问题逐步展开探讨。(一)   两个时间序列形态相似性的描述为了描述形态相似性,我们可以通过以下步

2008-09-09 21:07:00 8098 6

原创 模型调整若干手段的框架性思路

辛辛苦苦建立起来的数据挖掘模型,往往有效性不能令我们满意,这时就涉及到模型调整的问题。那么调整模型有哪些思路呢?这些思路对模型结果又有多大影响呢?以下是我的一些经验,仅供参考。影响程度数值只是为了大家理解方便和比较,给出了数量级,不具有任何精确性的含义。 1、对商业问题的重新考察与界定,需要我们重新考虑我们定义的商业问题是否合理,目标变量定义是否科学,模型运用思路和模型的选择是否还有调整的

2008-09-04 22:36:00 792 1

原创 论数据挖掘模型的有用性

“没有哪个模型是对的,但是有些模型是可用的”。 这句话可以说是对数据挖掘模型最精辟的概括。 任何模型都是对现实世界的理论抽象,这种抽样会忽略很多影响因素,正如牛顿发现亚里士多德的理论错误,爱因斯坦发现牛顿理论体系的缺陷,而霍金又发现爱因斯坦理论的局限性一样,看似每个模型都是不对的。但是这些模型都帮助我们有效的理解了这个世界。 所以在建立和使用数据挖掘模型时,一定注意:1

2008-09-04 22:03:00 699 1

原创 二分变量之二——二分变量预测结果的三种表达

对于二分变量,假设其取值为T和F。对之建立预测模型,那么预测结果可以有以下三种表达方式:(1)预测结果为T(或预测结果为F);(2)预测结果为T,把握程度为p(或预测结果为F,把握程度为1-p);其中p为0到1之间的实数。(3)预测结果为取T的可能性为p。 注意(2)和(3)上表述的差异,(1)和(2)是离散结果,而(3)是一个连续的结果,预测结果在0到1之间。并且(1)显然包

2008-09-01 21:33:00 1640

原创 一本C语言的好书——《C语言的科学与艺术》

我经常会强调我的一个观点:思想(或思考的方法)高于具体的方法,具体的方法又高于特定的软件使用。 我总是认为在学习知识时,尤其是针对已经不在学校里,不再有大把的时间可以让你字典式、无具体目标的学习知识的工作人士,注重以上的优先顺序无疑能达到事半功倍的作用。 就编程来说,思想(思考的方法)是指解决问题的思路,在这个层面,甚至往往与具体的语言是无关的;具体的方法是指具体的编程语言,比

2008-08-30 18:54:00 1814

原创 数据挖掘案例——药物选择决策支持

  【案例名称】药物选择决策支持【案例类型】数据挖掘【所属行业】医药卫生【案例版本】1.0【完成日期】2003年7月2日【应用软件】Clementine 7.2英文版【遵循标准】CRISP-DM【案例数据来源】Clementine 7.2 Demo自带数据【案例应用模型】神经网络、C5.0、Logistic回归【案例制作】钟云飞【案例用途】通过案例实

2008-08-27 20:57:00 7512 1

原创 二分变量

二分变量作为离散变量的一种类型,在数据挖掘中发挥着重要的作用。我试着从多个方面来说说二分变量的好处。 1、简单。嗯……这个就不用说了吧,二分变量就两个取值,1和0,或者T和F,够简单吧,计算机技术的基础也是二进制,可谓异曲同工,简单就是美,一直我信奉的信条; 2、其它类型的变量可以通过某种变换转化为二分变量的形式。我们简单的变量划分为两种,连续变量和离散变量(事实上二分变量可以理解

2008-08-27 18:05:00 9034

原创 数据挖掘软件的两点感悟

1、对于好的剑客,一支普通的树枝也可制敌制胜,对于好的分析师,即使是普通的EXCEL、SQL语句也可最大程度的发现数据中有用的信息;2、主流的几种数据挖掘软件无所谓绝对的好坏,只有适用不适用和使用习惯不习惯的不同。

2008-08-25 23:32:00 814 1

原创 商用数据挖掘的两个关键环节

我一直认为数据挖掘是分为两类的,一类是学术用的数据挖掘,一类是商用的数据挖掘。 学术的数据挖掘注重算法,往往是对算法效率或者效果的不断改进,然后从理论上证明算法有多优秀,如果理论证明很难,则退而求其次,使用一些经典的数据集去验证算法确实有效。 商用的数据挖掘注重结果和业务解释,他不会管你使用的是神经网络还是决策树,不管黑猫白猫,能搞准确并帮助业务提升的就是好猫。在商用数据挖掘中,有

2008-08-25 22:27:00 841

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除