因子数据处理 – 市值中性化
1. 中性化意义
防止选到的股票集中在固定的某些股票当中
-
市值影响,默认大部分因子都包含了市值的影响,去除其它因子存在的市值影响。
-
去除市值影响 市值 <==> 某因子 去除相关性
-
回归法去除
建立回归方程: x(特征:市值) * w + b = y(某因子)
回归方程预测: 市值(X) * 系数(w) + 偏置(b) = 预测值( y_predict)
计算偏差: 某因子(y) - 预测值(y_predict) = 偏差
偏差:不受影响的部分
2. 回归法API
from sklearn.linear_model import LinearRegression
- 把市值设置成特征,市值不进行任何处理
- 将其它因子设置成目标值
3. 案例:去除市净率与市值之间的联系部分
3.1 分析
- 获取两个因子数据
- 对目标值因子-市净率进