泰迪杯挑战赛优秀论文-A题-基于数据挖掘的上市公司高送转预测

最新推荐文章于 2025-04-14 06:51:36 发布

爱学习的数据喵

最新推荐文章于 2025-04-14 06:51:36 发布

阅读量1.8w

点赞数 24

分类专栏：泰迪杯论文文章标签：数据挖掘大数据算法

本文链接：https://blog.csdn.net/weixin_47922824/article/details/110120569

版权

第 1 章绪论

1.1问题背景
1.2问题重述
1.3本文主要工作与创新点
1.4模型假设
1.5本文研究意义

第 2 章相关理论

2.1高送转相关知识介绍
2.1.1高送转的实质
2.1.2预测下一年上市公司高送转的一些其他条件
2.2机器学习算法介绍
2.2.1LogisticRegressor
2.2.2RandomForestClassifier
2.2.3 SVM
2.2.4XGBoost
2.2.5LightGBM
2.2.6CATBoost

第 3 章数据预处理及因子筛选

3.1数据的选取
3.2特征创造及转换
3.3特殊数据的处理
3.3.1异常值的处理
3.3.2缺失值的处理
3.3.2 分类型特征的处理

3.4 数据合并
3.5 特征选择
3.5.1Filter 过滤法
3.5.2基于 LinearSVC 算法的嵌入法

第 4 章基于机器学习模型的问题一研究

4.1模型的构建
4.1.1测试集、训练集的划分
4.1.2数据标准化
4.1.3模型评价指标
4.2模型参数调优与模型重要特征
4.2.1参数调优概念及方法
4.2.2各个模型参数调优
4.3确定对决策影响较大的因子

第 5 章基于多种算法问题二的研究

5.1基于模型融合的预测模型构造
5.1.1 模型选择
5.1.2模型融合的介绍
5.1.3模型融合过程
5.2基于融合模型的预测第八年的决策结果

第 6 章总结

参考文献
附录

第1章绪论

1.1问题背景

近年来，我国上市公司频繁实施“高送转”股利分配政策，市场反应强烈，虽然＂高送转＂概念往往与市场炒作联系，但机构、投资者以及广大散户对此趋之若鹜并且逐渐成为我国股市市场在股利分配政策方面的一种特色。

因为实施高送转后股价将做除权处理，投资者可以通过填权行情从二级市场的股票增值中获利。很多股票在公布派送预案的第二天直接涨停，而等除权后再买入可能会面临很大的回撤风险。如果我们能准确用某一年的股票相关数据预测下一年可能实施高送转的上市公司并提前买入，这对我们投资的安全性具有很大的现实意义。

经过研究，影响上市公司实施高送转的因子主要有两类：一是基本因子，包括股价、总股本、上市年限等；二是成长因子，包括每股未分配利润、每股资本公积、每股现金流、每股收益等。除此之外，还有其他因子需要研究者去挖掘。

1.2问题重述

（1）针对 3466 支股票年数据、日数据和基础数据中给出的因子数据，根据因子自身经济学意义以及数理统计方法，筛选出对上市公司实施高送转方案有较大影响的因子。

（2）利用问题 1 中确定的因子建立模型来预测哪些上市公司可能会实施高送转，并对提供的数据，用所建立模型来预测第 8 年上市公司实施年高送转的情况。

1.3本文主要工作与创新点

（1）对数据的预处理

对年数据而言，添加了重要特征因子：本年是否进行高送转；设定因变量为：下一年是否高送转。
对日数据而言，日数据中某些因子的变化趋势会对上市公司是否会实施高送转有影响。因此先对日数据按股票编号和年份分组求因子数据的年平均值，并计算数据中“开盘价”，“最高价”，“最低价”，“收盘价”，“成交价”，“成交量”这 6 个特征因子的上下半年分别的变异系数，表示其变化趋势。
对基础数据而言，大量资料表现股票是否是小盘、是否为次新股、是否为国

企等特征对上市公司是否会实施高送转有重要影响，在已给特征的基础上将特征因子“所属概念板块”转换为“所属概念板块个数”、“是否为次新股”、“是否为国企”、“是否为小盘”。

（2）通过数据分析筛选对上市公司实施高送转方案有较大影响的因子

本文将特征工程筛选后的因子数据，根据机器学习算法 XGBoost、CATBoost和 lightGBM 算法中特征重要性的数值得出特征因子的重要性为前 20 的因子。

（3）机器学习算法分类预测下一年是否高送转

本文对问题一中特征工程后确定的因子，使用六种不同类型的机器学习算法去预测下一年哪些上市公司可能会实施高送转，基于AUC指标与 𝑘 折交叉验证或网格搜索给机器学习算法参数调优，再用模型融合提高。

1.4模型假设

（1）假设所获得的数据是真实可靠的。

（2）假设第 8 年未发生重大事件和灾难或国家未推行重要政策影响证券市场。

1.5本文研究意义

从量化投资的角度来看，我国资本市场目前发展已经步入稳定，这就使得量化投资成为了资本投资的主要方向，不过由于经济体制以及市场化程度的发展深度，我国资本市场量化投资仍旧存在许多风险要素，必须要通过一些切实的模型预测对有可能出现的风险进行防控。

从投资风险的角度来看，高送转预测可以有效规避风险。如果我们能在上市公司正式公告“高送转”预案前, 重点关注好“高送转”的真实目的，警惕上市公司出于配合二级市场炒作，或者配合大股东和高管出售股票等情况，就能获得一定的超额收益。因此，研究上市公司“高送转”行情，尤其是准确预测下一年将要实施相关方案的上市公司，对保护中小投资者的利益以及维护资本市场的稳定，具有一定的现实意义。

第2章相关理论

2.1高送转相关知识介绍

2.1.1高送转的实质

“高送转”顾名思义是指高比例送股或高比例转股，例如每 10 股送股 5 股，每 10 股转增 10 股等。送股和转股比例达到多少才能称之为“高送转”，目前专家学者还未达成统一意见。本文将以每 10 股送转 5 股及以上作为界定“高送转”的选择标准。

“高送转”是通过降低每股价格从而扩大股票发行的一种行为，也相当于是一种送股行为。是通过送股并没有任何意义，其目的仅仅是来稀释股本降低股价的，也就是降低股价方便购买。将一个公司的现在股本总额和将来会收得的盈利相结合起来，来告知股东公司相关信息，同时可以让股份交易活跃起来。这个方式实质上就是企业所有者权益内部的调整，将资本从留存收益转入了其他股东权益。

2.1.2预测下一年上市公司高送转的一些其他条件

(1)是否真正具备“高送转”能力：本文使用送股能力公式进行运算：负债合计/资产总计。

(2)总股本的结构在 1.5 亿以下，使用公式：未分配利润/每股未分配利润。

(3)本年年中报表或者三季度报表披露业绩持续增长

(4)股票是否是小盘、是否为次新股、是否为国企

(5)上市公司本年度有没有已经高送转

2.2机器学习算法介绍

2.2.1LogisticRegressor

逻辑回归是机器学习中一个应用非常广泛的分类模型，它是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别）。

它将数据拟合到 sigmiod 函数，其函数形式为： $g(z)=\frac{1}{1+e^z}$ ，寻找预测函数： $h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{\theta^Tx}}$ ，函数的 $h_{\theta}(x)$ 值有特殊的含义，它表示结果取1的概率，因此对于输入 x 分类结果为类别 1 和类别 0 的概率分别为：
$P(y=1|x;\theta)=h_{\theta}(x),P(y=0|x;\theta)=1-h_{\theta}(x)$
构造损失函数：
$J(\theta)=\frac{1}{m}\sum_{i=1}^{n}Cost(h_{\theta}(x^{(i)}),y^{(i)})$
其中 $Cost(h_{\theta}(x),y)=\begin{cases}-log(h_{\theta}(x))&if&y=1\\-log(1-h_{\theta}(x))&if&y=0\end{cases}$

求解使得 $J(\theta)$ 函数最小并求得回归参数。

对于逻辑回归的损失函数构成的模型，可能会有些权重很大，有些权重很小，导致过拟合（就是过分拟合了训练数据），使得模型的复杂度提高，泛化能力较差（对未知数据的预测能力），正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项，正则项可以取不同的形式，在回归问题中取平方损失，就是参数的 L2 范数，也可以取 L1 范数。取平方损失时，模型的损失函数变为：
$J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2-\lambda\sum_{i=1}^{m}\theta_j^2$