金融量化之华泰多因子估值类显著性和IC值计算

https://blog.csdn.net/m0_37777649/article/details/74937242

比较全面的讲解了T检验,包含单边和双边的t分位数表

 

https://blog.csdn.net/xuxiatian/article/details/55002412

题目是:使用python统计建模和计量经济学工具包Statsmodels进行线性回归,整体上讲述了Statsmodels输出参数的意义

 

https://blog.csdn.net/Haidebian0514/article/details/69945116

题目是:基于Python的线性回归实战,链接最后一段讲了下图这个表中右上方和右下方参数的意义,讲解的还算比较详细,具有参考价值

 

这是今天看一些网页摘录的有用的内容:

 

模型估计出来后,我们要回答的问题是:

我们的模型拟合程度如何?或者说,这个模型对因变量的解释力如何?(R2)

整个模型是否能显著预测因变量的变化?(F检验)

每个自变量是否能显著预测因变量的变化?(t检验)

 

R-squared:拟合度检验,是对已制作好的预测模型进行检验,比较它们的预测结果与实际发生情况的吻合程度,越大越好,最大值1

Adj. R-squared:调整的R^2和R^2的值的评价,要根据你研究的目的确定。如果你做出来的模型主要是用于预测,调整的R^2和R^2的值为0.1就太低了,国际上一般标准在0.4左右;如果你做的模型主要是用于评价某一个因素或几个因素对某特定因素的影响,且回归系数的t检验也是显著的,那还勉强可以,但建议调整一下模型,尽量提高R^2和R^2的值,调整的R^2和R^2的值太低说明模型解释能力不好,有违建模的初衷。调整的R^2和R^2的值过低,有以下三种可能:模型中的解释变量或控制变量没有选择好,没有抓住主变量;模型中可能存在异方差、多重共线和自相关等情况;模型的样本量不够。

 

F-statistic:t检验可以检验各个回归系数显著性,f检验用来检验总体回归关系的显著性。对模型整体的显著性可以通过F统计量来看,结果显示的F统计量对应的P值(Prob (F-statistic):)显著小于0.05(0.05是显著性水平,也可以选取0.01),说明模型整体是显著的,它的显著性说明被解释变量能不能由这些解释变量进行解释,F检验是对整体的检验,F检验的通过不代表每一个解释变量是显著的。各解释变量联合起来对被解释变量有显著的线性关系,并不意味着每一个解释变量分别对被解释变量有显著的线性关系。

 

利用t检验做出的结论并不是百分之百正确的,仍有很小的几率会犯错误。对于上面的例子,有些人会认为1%的概率已经很小了,可以拒绝原假设,还有些人会认为1%的概率虽然很小,但不足以拒绝原假设。为了解决这个问题,统计学家们提出了一个阈值,如果犯第一类错误的概率小于这个阈值,就认为可以拒绝原假设,否则认为不足以拒绝原假设。这个阈值就叫α。P>|t|应该是拒绝原假设错误的概率,小于0.05,说明错误的概率小于0.05,原假设可以拒绝;

t值等于系数除以标准误,t值和p>|t|是一个意思,都是看回归结果是否显著,p>|t|越小越显著,对应的是10%、5%、1%水平显著.若是零,说明,在1%水平上都显著.

 

研报中,t=2原因(当样本量大于30后,p=0.05,t绝对值大于2,就认为回归系数显著异于0),以下是一个其他方面的例子:

现在,让我们尝试引入α,用另一种流程解决例1:

建立原假设和备择假设

H0:μ⩾20  

H1:μ<20  

确定α

令α=0.05(α的值通常为0.01,0.05,0.1,视具体问题而定)

确定用于决策的拒绝域

在确定了α和t统计量自由度(根据样本容量可以求出,在这个例子中,自由度为[样本容量-1])的前提下,我们可以通过查询t分位数表,找出“拒绝域”,如果t统计量落入拒绝域内,就拒绝原假设,否则接收原假设。

根据t双边分位数表,我们查出当自由度为30时,|t|>2.042的概率为0.05,因此,拒绝域为{ t| ,|t|>2.042}

 

查看样本结果是否位于拒绝域内

将样本均值和样本标准差带入t统计量计算公式,得出t=6.573,落入拒绝域内

 

做出决策

拒绝原假设H0,接受备择假设H1,认为样本均值与总体均值差异显著

 

 

每个变量的意思:

上边的:

R-squared:拟合度检验,直线与原数据的拟合程度,回答 我们模型拟合程度如何或者说,这个模型对因变量的解释力如何越大越好,最大值1

Adj. R-squared:调整的R^2和R^2的值的评价

F-statistic:t检验可以检验各个回归系数显著性,f检验用来检验总体回归关系的显著性,回答 整个模型是否能显著预测因变量的变化?(F检验)对模型整体的显著性可以通过F统计量来看,结果显示的F统计量对应的P值(Prob (F-statistic):)显著小于0.05(0.05是显著性水平,也可以选取0.01),说明模型整体是显著的,它的显著性说明被解释变量能不能由这些解释变量进行解释,F检验是对整体的检验,F检验的通过不代表每一个解释变量是显著的。各解释变量联合起来对被解释变量有显著的线性关系,并不意味着每一个解释变量分别对被解释变量有显著的线性关系。

 

P>|t|应该是拒绝原假设错误的概率,小于0.05,说明错误的概率小于0.05,原假设可以拒绝;t值等于系数均值除以标准,t值和p>|t|是一个意思,都是看回归结果是否显著,p>|t|越小越显著,对应的是10%、5%、1%水平显著.若是零,说明,在1%水平上都显著.

下边的:

1.DW检验用来检验残差的自相关,这里可以认为残差相互独立。检验统计量为:

DW=2,表示无自相关

DW=4,表示完全负自相关

DW=0,表示完全正自相关

DW在0-2之间说明存在正自相关

DW在2-4之间说明存在负的自相关

一般认为,DW值在1.5-2.5之间即可说明无自相关现象

 

计算IC值时:输入为行业和因子权重,输出为因子值,将输入和输出进行OLS线性回归;

计算结果中有DW检验的结果,这个结果可以判断残差是否具有相关性;

取残差计算IC值的原因以及要检验残差相关性的原因

因子载荷包含市值和行业因素,不同行业不同市值直接比较不具有可比性,所以选择数据拟合后的残差,消除市值和行业因素的影响,还要测试残差的相关性,有相关性说明主要因素没有完全提取出来,需要进一步提出主要影响因素。

 

2.arque-Bera检验基于数据样本的偏度和峰度,评价给定数据服从未知均值和方差正态分布的假设是否成立,这里拒绝原假设,也就是残差不服从CLM经典线性模型中MLR.6正态分布假设。

 

 

2018-7-12

https://xueqiu.com/3488649239/62074848

题目是:“怎么计算历史某段区间的收益率,用前复权还是后复权还是都不对?讲述前复权和后复权的原理。”

https://blog.csdn.net/dingming001/article/details/73823376

题目是:“残差自回归模型”,解释了计算IC值的时候为什么用残差和收益率的协方差算而不用因子的载荷和收益率算。

  • 4
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值