量化交易学习2（因子研究）

最新推荐文章于 2025-03-23 11:01:04 发布

Double Shan

最新推荐文章于 2025-03-23 11:01:04 发布

阅读量1.7k

点赞数 10

分类专栏：量化文章标签：学习人工智能机器学习

本文链接：https://blog.csdn.net/weixin_44195690/article/details/135831141

版权

量化专栏收录该内容

7 篇文章

订阅专栏

因子有效性检验

参考1 参考2
在多因子研究框架中，因子的有效性检验是不可避免的工作，其本质是衡量一个因子的选股能力。
目前学术界和业界普遍使用的两种方法：

相关性检验
因子的相关性检验即检验单因子和收益率之间是否存在相关性

IC值
计算同一时刻的个股的指标值和未来一段时间（通常为一个月）收益的相关性，也就是IC值（信息系数）。

IC∈[−1,1]

绝对值越大，预测能力越好。IC 值介于 -1 和 1 之间，反映出因子对下期收益率的预测能力，IC 值越高，该因子在该期对股票收益的预测能力越强。当 IC 为 1 时，表示该因子选出来的股票，分数最高的股票在下个调仓周期中涨幅最大。若一个因子的 IC 值 >0.05，则可以视为有效因子，IC 值 >0.1 时，就可以认为因子是特别好的阿尔法因子；当 IC 均值接近 0，可视为无效因子
Normal IC：又称为皮尔逊相关系数，给定股票池，t-1 期的因子暴露和 t 期的因子收益之间的截面相关系数。
在这里插入图片描述

Rank IC：又称为斯皮尔曼相关系数，给定股票池，t-1 期的因子暴露的排序值和 t 期的因子收益的排序值之间的截面相关系数。
在这里插入图片描述
追踪有效因子，规避非有效因子
一个 beta 因子被评估为有效后，将被越来越多人熟知并应用，这将让它在市场中越来越有效，意在获取 alpha 收益的投资者也在此基础上去挖掘更多 alpha 因子，进一步评估因子在实践中获取的风险溢价能力。如今，学术界已经挖出了超过 400 个因子，这背后不免部分存在错误定价（股价偏离内在价值）和数据窥探（样本内过拟合，因子在样本外明显失效）等的嫌疑，可能会混淆因子风险溢价的范围。学术界发表的因子并非完全可用于投资，正如上篇文章讲到，因子暴露和可投资性不可兼得，实际投资时需要更多地考虑做空限制等。目前投资领域中常见的有价值因子、质量因子、低波动因子等。
在这里插入图片描述
一个因子被验证为有效，是某历史时间段内的数据所呈现出来的规律，并无法代表它在未来的市场中也一定会按照该规律发展。以上只是众多检验方式中较常来评估选股效果的方法，其他的方法还有 t 值评估、换手率分析等。这些评估方法也应当避免因子在样本内过拟合，否则将导致样本外失效的风险。

有效因子可以让收益变得明朗，而正确识别非有效因子也是一项重要工作。在检验错误定价因子时，可以观察到在投资组合构建后的一段时间内，其累计收益会持续上升，说明这是一个价格发现的过程，睿智的投资者在其中的某些时点可以通过套利操作获得短期收益，但随着因子逐渐被曝光，错误定价效应也逐渐减弱甚至消失。对于通过数据窥探获得的“虚假”因子，考虑用样本外的新数据去对因子进行再次检验，有效识别“样本外失效”的因子，躲开过拟合，有利于在样本外摒弃它们，防止在实际投资中遭受损失。对于无效因子，则考虑做好规避工作。

在实盘中，通过因子应该选多少股票、仓位是多少、调仓频率如何、适应怎样的市场条件等问题是因子投资能否成功的关键。此外，投资者情绪也会影响到市场表现，短期内的“因子有效”背后可能是投资者情绪的干扰。投资策略没有标准答案，对于难以捉摸的市场，我们应该时刻跟踪因子在实际投资中的表现，重视因子的作用范围和时效，注意因子失效。

多个单因子之间存在相关性
一个 alpha 因子被市场熟知、变得有效之后，就会变成 beta 因子被用于资产定价，解释投资组合收益。但解释投资组合收益只有一个因子是不充分的，因为其收益受到多个因素影响，是多个因子作用的结果，这就需要多个因子作为选股标准。多个因子之间会产生复杂的互动效应，称为“相关性”，单纯地用多个因子叠加所进行的测试结果可能会有误差。单因子的表现与多因子模型之间并非机械的 “1+1=2” 关系，一个单因子单独测试表现不好，但放在多因子模型中可能也会发挥出它的作用，一个检验效果好的因子放在多因子模型中却也可能表现差强人意。因此，构建一个多因子模型时需要考虑因子之间的联动，多做测试，这样才能更好地选因子和选资产，进而提高整个多因子模型的收益。
注：Alpha和Beta是认识市场的起点。Alpha:投资组合的超额收益，表现管理者的能力；Beta:市场风险，最初主要指股票市场的系统性风险或收益。换句话说，跑赢大盘的就叫Alpha，跟着大盘起伏就叫Beta。

Python多因子选股策略实践

多因子选股模型是一个用来选择股票投资组合的策略，它考虑了多个与预期收益相关的因子。这种模型的理念基于这样的理论：单一因子可能无法全面捕捉到市场的所有变化，而多个因子的组合可以提供更全面、更稳定的预测。

多因子选股模型的核心思想是通过多个因子的组合来选择股票，因子可以通过历史数据来计算，然后用来预测未来的股票表现，以期获取更全面、更稳定的预测。这些因子可以包括基本面因子、技术分析因子、宏观经济因子等。例如：

基本面因子：包括市盈率（PE）、市净率（PB）、营业收入增长率等
技术分析因子：包括动量（Momentum）、波动率（Volatility）等
宏观经济因子：包括利率、通货膨胀率等
在实现多因子选股模型时，需要进行以下步骤：

确定目标和约束条件

明确多因子模型要达到的投资目标收益率、风险水平等要求。同时考虑实际的投资约束,例如组合数目限制、行业比例限制等。

选择因子并计算

根据目标和约束条件,选择合适的股票因子,如PE, PB等。收集数据计算得到每只股票的各因子值。

异常值处理

检查数据中的异常值和错报数据,进行处理和滤除,保证因子值的质量。

因子标准化

因为不同因子的取值范围差异很大,需要进行标准化处理,例如去均值和缩放等。

确定因子权重

根据因子的重要性给予不同权重,通常通过统计方法比如主成分分析来确定。

构建多因子模型

结合因子值和权重,建立多因子评分模型,得到各股票的综合评分。

股票筛选和组合优化

根据评分进行股票筛选,并进行组合优化,获得符合目标和约束条件的优化组合。

回测和调整模型

使用历史数据回测多因子模型的效果,根据结果进行调整和改进。

以下是一个使用Python实现一个简单的多因子选股模型的基本示例：

mport pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

# 读取和准备数据
df = pd.read_csv('stock_data.csv')
X = df[['PE', 'PB', 'ROE']] # 特征因子
y = df['Returns'] # 目标变量

# 拆分训练数据和测试数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 标准化处理
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 构建线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 查看模型系数,确定因子权重
print('Factor weights:', model.coef_)

# 使用模型预测测试数据的收益
y_pred = model.predict(X_test)

# 创建一个DataFrame来存储股票的预测收益
predicted_returns = pd.DataFrame({
    'Stock': X_test.index,
    'Predicted return': y_pred
})

# 根据预测的收益选择股票
selected_stocks = predicted_returns[predicted_returns['Predicted return'] > 0.1]

print('Selected stocks:', selected_stocks)