导语:数据挖掘,又译为数据采矿,是指从大量的数据中通过算法搜索隐藏于其中信息的过
程。本篇内容主要向大家讲述如何使用 KNN 算法进行数据分类和数据预测。
基础概念
数据分类就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相
异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分
类系统。
举个最简单的例子:我们定义K 线为三类:“上涨”:涨幅超过 1%,“下跌”:跌幅
超过 1%,“震荡”涨跌幅不超过 1%,获取沪深300 指数过去 250 个交易 日的K 线,将数据
进行分类:
p=get_price('000300.SH', None, '20180125', '1d', ['quote_rate'], True, None, 250, is_panel=1)
n1=len(p[p['quote_rate']>1])
n2=len(p[p['quote_rate']<-1])
n3=len(p)-n1-n2
print('上涨K 线:{},下跌K 线:{},震荡K 线:{}'.format(n1,n2,n3))
上涨K 线:18,下跌K 线:12,震荡K 线:220
数据预测即用数据分类得出的模型对未知变量的预言。预言其目的是对未来未知变量的
预测。
假设我们用历史数据发现上涨股票平均比例,所有个股平均量比,这二个指标可以用来
定义当天市场是上涨、下跌还是震荡。其特征如下:
市场 上涨股票平均比例均值 所有个股平均量化均
值
上涨(沪深300 涨幅超过 1%) 60% 1.2
下跌(沪深300 跌幅超过 1%) 40% 0.8
震荡 (沪深300 涨跌幅不超过 1%) 50% 1
--------
程。本篇内容主要向大家讲述如何使用 KNN 算法进行数据分类和数据预测。
基础概念
数据分类就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相
异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分
类系统。
举个最简单的例子:我们定义K 线为三类:“上涨”:涨幅超过 1%,“下跌”:跌幅
超过 1%,“震荡”涨跌幅不超过 1%,获取沪深300 指数过去 250 个交易 日的K 线,将数据
进行分类:
p=get_price('000300.SH', None, '20180125', '1d', ['quote_rate'], True, None, 250, is_panel=1)
n1=len(p[p['quote_rate']>1])
n2=len(p[p['quote_rate']<-1])
n3=len(p)-n1-n2
print('上涨K 线:{},下跌K 线:{},震荡K 线:{}'.format(n1,n2,n3))
上涨K 线:18,下跌K 线:12,震荡K 线:220
数据预测即用数据分类得出的模型对未知变量的预言。预言其目的是对未来未知变量的
预测。
假设我们用历史数据发现上涨股票平均比例,所有个股平均量比,这二个指标可以用来
定义当天市场是上涨、下跌还是震荡。其特征如下:
市场 上涨股票平均比例均值 所有个股平均量化均
值
上涨(沪深300 涨幅超过 1%) 60% 1.2
下跌(沪深300 跌幅超过 1%) 40% 0.8
震荡 (沪深300 涨跌幅不超过 1%) 50% 1
--------