我们通过沙狐数据分析平台拉取近一年的中芯国际股票走势数据进行建模分析,拉取方法如下:
一、数据提取
(1)拉取日线行情数据,该数据包含开盘、最高、最低、收盘、成交量、成交额、涨跌幅等维度
(2)拉取近一年的每日指标数据,该数据包含换手率、量比、市盈率、市销率、股息率、流通股本、流通市值等数据。
(3)第三步,将新建好的两个数据引擎进行配置上线,获取相关数据表
(4)我们通过自定义SQL功能将两个数据集进行关联,其中CS00001、CS00002是数据集的默认名
最终我们生成了三个数据集,更新频率都是按照日的频率进行更新的
二、数据加工衍生,这个步骤主要是把生成的宽表(CS00003)进行数据分析、特征衍生操作
(1)数据探索,根据宽表数据我们进行一些简单的探索
trade_date日期是交易日期,共计243条,另外我们发现dv_ratio、dv_ttm是缺失的
(2)变量衍生,我们可以通过变量衍生生成一些我们想要的变量,例如目标变量target
同样的道理我们衍生出open_1\close_3字段,最终我们利用衍生的open_1\close_3字段计算股票未来三天的累计涨幅情况:
双击数据框,分析新衍生的target变量的分布情况
三、模型跑批
我们可以通过有监督模型中的回归模型进行数据的跑批,调节max_depth参数获得最优的模型如下图