前言:本专栏是【人工智能与财务】课程作业,笔者将学习ML4T一书,并在中国市场中应用机器学习算法进行分析。
其中,笔者在这里主要选择的是第13章无监督学习的内容。在本书的源代码中,本章内容共为4个部分,共17篇代码,将努力复现这些代码。本文,先大致讲述一下本章的思路。
当数据集仅包含特征却没有结果时,或者说我们想要为数据划分新的标签时,无监督学习就派上大用场了。
首先在无监督学习中,降维和聚类是无监督学习的主要任务:
- 降维将现有特征转换为一个新的、更小的集合,同时最大限度地减少信息丢失。
- 聚类算法识别和分组相似的观察或特征,而不是识别新特征。算法的不同之处在于它们如何定义观察的相似性以及它们对结果组的假设。
本章的内容大致包括:
- 主成分和独立成分分析(PCA 和 ICA)
- 如何执行线性降维
- 使用 PCA 从资产回报中识别数据驱动的风险因素和特征组合
- 使用流形学习有效地可视化非线性、高维数据
- 使用 T-SNE 和 UMAP 探索高维图像数据 k 均值、分层
- 基于密度的聚类算法如何工作
- 使用凝聚聚类构建具有分层风险平价的稳健投资组合
本章所有的代码如下所示:
接下来就开始进行代码的实现。