在第2章中,我们和小瓦一起用简单的回测来对交易策略进行了 评估,并且学习了两种基于市场动量的经典交易策略。现在小瓦提出 一个新的问题:如果我们掌握了足够多的数据,不就可以用机器学习 技术来预测股价的涨跌和涨幅了吗?事实上,这是一个非常好的主 意。机器学习技术就是使用样本数据训练模型,并且让模型对新样本 做出预测的技术。本章我们就和小瓦一起来探索一下机器学习在交易 中的基本应用。本章的主要内容如下。
- 机器学习的基本概念。
- 机器学习工具的基本使用方法。
- 基于机器学习的简单交易策略。
3.1 机器学习的基本概念
近年来,随着人工智能(Artificial Intelligence,AI)的蓬勃发展, 机器学习在各行各业都有着非常广泛的应用。不过,作为一个非计算机 专业出身的学生,机器学习对于小瓦来说是一个完全陌生的领域。然 而,小瓦坚信世上无难事,只怕有心人。更何况要理解机器学习的基本 概念,其实并不困难。当然,对机器学习的基本概念已经有一定了解的 读者,可以跳过这一部分,直接阅读后面的内容
3.1.1 有监督学习和无监督学习
在机器学习领域,有监督学习(supervised learning)和无监督学习 (unsupervised learning)是常见的两种方法。为了帮助小瓦理解这两种 方法的不同,我们可以用一个小例子来阐述。
例如,我们给小瓦一堆化妆品,相信小瓦与其他女生一样,可以很轻松地叫出每样化妆品 的名字。这是因为在小瓦的认知当中,每种物品已经有了一个标签 (label),如口红、眉笔、粉扑。这些标签对应着不同的特征 (feature),例如,“红色”“用来涂在嘴唇上”的,对应的就是“口红”这 个标签。符合这个特征的化妆品,就会被小瓦归入“口红”这个类 别。对于模型来说,这种有已知标签的任务就是有监督学习的一种。
我们再给小瓦一些不同的物品:计算机主板。
这时我们再来要求小瓦说出计算机主板上零件的名 字,就有些难为她了。毕竟小瓦没有接触过这个领域的知识,也就是 说,在小瓦的脑子里,没有这些零件所对应的标签。即便如此,小瓦还 是可以通过观察这些东西的特征,将它们归到不同的类别中,例如,有 些是“黑色凹槽”,有些是“白色凹槽”,有些是“黑色圆柱”——虽然不知 道它们具体是什么东西,但还是能够看出它们的作用肯定是不同的。这 种没有已知标签,但是让模型通过观察特征将它们放入不同类别的过 程,就是无监督学习的一种。
3.1.2 分类和回归
在有监督学习当中,常见的两种任务就是分类(classification)和 回归(regression)。其中,分类任务指的是,给定样本的分类标签,训 练模型使其可以将新的样本归入正确的分类中——这时模型的目标是离 散的;而回归任务指给定样本的目标值,训练模型使其可以预测出新样 本对应的数值——这时模型的目标是连续的。
用小瓦可以更容易理解的语言来说,假如要预测某只股票在未来 会“涨”还是会“跌”,这时模型所做的就是分类的工作,但如果要预测某 只股票未来会涨1元,还是8角8分,还是–5角,这时模型所做的就是回 归的工作。
3.1.3 模型性能的评估
如果使用算法来进行交易的话,小瓦最关心的就是模型是否可以准 确地预测出股票的涨跌或者涨幅。实际上,模型是不可能做到百分之百 准确的,这就需要我们对模型的性能进行评估,以便找到最可用的模 型。要达到这个目的,我们就需要将掌握的数据集(dataset)拆分为训 练集(trainset)和验证集(testset),使用训练集训练模型,并使用验 证集来评估模型是否可用。
举一个例子,假如小瓦有某只股票100天的价格数据,就可以将前 80天的数据作为训练集,将后20天的数据作为验证集,同时评估模型分 别在训练集与验证集中的准确率。如果模型在训练集中的得分很高,而 在验证集中的得分很低,就说明模型出现了过拟合(over-fitting)的问 题;而如果模型在训练集和验证集中的得分都很低,就说明模型出现了 欠拟合(under-fitting)的问题。
要解决这些问题,小瓦就需要调整模型的参数、补充数据,或者进 行更细致的特征工程。随着小瓦工作的继续深入,我们会一起来探索详 细的解决方案。