第五章:量化研究专题(第六篇:数据挖掘专题:分类与预测 )

导语:数据挖掘,又译为数据采矿,是指从大量的数据中通过算法搜索隐藏于其中信息的过 


程。本篇内容主要向大家讲述如何使用 KNN 算法进行数据分类和数据预测。 






基础概念   






    数据分类就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相 


异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分 


类系统。 






    举个最简单的例子:我们定义K 线为三类:“上涨”:涨幅超过 1%,“下跌”:跌幅 


超过 1%,“震荡”涨跌幅不超过 1%,获取沪深300 指数过去 250 个交易 日的K 线,将数据 


进行分类: 






p=get_price('000300.SH', None, '20180125', '1d', ['quote_rate'], True, None, 250, is_panel=1) 


n1=len(p[p['quote_rate']>1]) 


n2=len(p[p['quote_rate']<-1]) 


n3=len(p)-n1-n2 


print('上涨K 线:{},下跌K 线:{},震荡K 线:{}'.format(n1,n2,n3)) 






上涨K 线:18,下跌K 线:12,震荡K 线:220 






    数据预测即用数据分类得出的模型对未知变量的预言。预言其目的是对未来未知变量的 


预测。 






    假设我们用历史数据发现上涨股票平均比例,所有个股平均量比,这二个指标可以用来 


定义当天市场是上涨、下跌还是震荡。其特征如下: 






市场                          上涨股票平均比例均值          所有个股平均量化均 


                                                值 






上涨(沪深300 涨幅超过 1%)           60%                 1.2 






 下跌(沪深300 跌幅超过 1%)          40%                 0.8 






震荡 (沪深300 涨跌幅不超过 1%)  50%                       1 




--------
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值