第五章：量化研究专题（第六篇：数据挖掘专题：分类与预测）

最新推荐文章于 2021-11-19 16:27:12 发布

无语僧314

最新推荐文章于 2021-11-19 16:27:12 发布

阅读量1.2k

点赞数

分类专栏： Python量化投资文章标签：第五章：量化研究专题数据挖掘专题：分类与预测量化投资 python

本文链接：https://blog.csdn.net/wuyusheng314/article/details/80366200

版权

导语：数据挖掘，又译为数据采矿，是指从大量的数据中通过算法搜索隐藏于其中信息的过

程。本篇内容主要向大家讲述如何使用 KNN 算法进行数据分类和数据预测。

基础概念

数据分类就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起，而把相

异的和需要分别管理的信息区分开来，然后确定各个集合之间的关系，形成一个有条理的分

类系统。

举个最简单的例子：我们定义K 线为三类：“上涨”：涨幅超过 1%，“下跌”：跌幅

超过 1%，“震荡”涨跌幅不超过 1%，获取沪深300 指数过去 250 个交易日的K 线，将数据

进行分类：

p=get_price('000300.SH', None, '20180125', '1d', ['quote_rate'], True, None, 250, is_panel=1)

n1=len(p[p['quote_rate']>1])

n2=len(p[p['quote_rate']<-1])

n3=len(p)-n1-n2

print('上涨K 线：{}，下跌K 线：{}，震荡K 线：{}'.format(n1,n2,n3))

上涨K 线：18，下跌K 线：12，震荡K 线：220

数据预测即用数据分类得出的模型对未知变量的预言。预言其目的是对未来未知变量的

预测。

假设我们用历史数据发现上涨股票平均比例，所有个股平均量比，这二个指标可以用来

定义当天市场是上涨、下跌还是震荡。其特征如下：

市场上涨股票平均比例均值所有个股平均量化均

值

上涨（沪深300 涨幅超过 1%） 60% 1.2

下跌（沪深300 跌幅超过 1%） 40% 0.8

震荡（沪深300 涨跌幅不超过 1%） 50% 1

--------

最低0.47元/天解锁文章

无语僧314

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
第五章：量化研究专题（第六篇：数据挖掘专题：分类与预测）

导语：数据挖掘，又译为数据采矿，是指从大量的数据中通过算法搜索隐藏于其中信息的过程。本篇内容主要向大家讲述如何使用 KNN 算法进行数据分类和数据预测。基础概念数据分类就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起，而把相异的和需要分别管理的信息区分开来，然后确定各个集合之间的关系，形成一个有条理的分类系统。举个最简单的例子：我们定义K 线为三类：“上...
复制链接

扫一扫