大数据、机器学习与量化投资(一)

原文:Big Data, Machine Learning and Quatative Investment

译者:飞龙

协议:CC BY-NC-SA 4.0

第一章:算法是否会梦见人工 Alpha?

迈克尔·科洛

1.1 介绍

大多数金融实践的核心,无论是来自均衡经济学、行为心理学还是代理模型,传统上都是通过优雅理论和一种“脏”经验证明的婚姻形成的。正如我在伦敦政治经济学院的博士课程中所学到的,优雅的理论是美丽智慧的标志,可以分辨出基于代理人的模型中微妙的权衡,形成复杂的均衡结构,并指出常规真理核心存在的有时冲突的悖论。然而,“脏”经验工作经常被怀疑地嘲笑,但不情愿地被承认为必要的,以赋予实质和真实世界的应用。我记得在风起的庭院和狭窄的通道里进行的许多对话,杰出的博士生们争论着“但我如何为我的假设找到一个测试?”。

在量化金融领域,许多伪数学框架已经出现并消失,通常是从附近的科学借用的:从物理学的热力学,Eto’s Lemma,信息论,网络理论,各种来自数论的部分,偶尔还有从不太高科技但不情愿承认的社会科学,比如心理学。它们来了,又走了,被市场吸收(而不是被击败)。

机器学习和极端模式识别专注于大规模经验数据,以前所未见的规模转化和分析数据,揭示以前无法检测到的细节模式。有趣的是,机器学习在概念框架方面几乎没有提供任何东西。在某些圈子里,它以缺乏概念框架为傲,认为这是其优势,并且消除了否则会限制模型的人类偏见。无论你是否认为它是一个好工具,你都必须尊重这样一个观念,即过程速度只会变得更快更强大。

明天我们可以称之为神经网络或其他名称,最终我们将达到一个几乎可以在接近实时的情况下发现和检查大多数甚至所有模式排列组合的地步,此时焦点几乎完全集中在定义客观函数而不是框架结构上。

本章的其余部分是关于机器学习如何帮助我们更多地了解金融市场的一组观察和例子,以及正在这样做。它不仅来自我的经验,还来自与学者、从业者、计算机科学家的许多交流,以及大量关于这些主题的书籍、文章、播客和如今参与其中的广阔智慧海洋。

现在是一个让人着迷并且具有量化思维的不可思议的时代,我们至少可以成为未来几代人思考这些问题的有效媒介,以一种审慎和科学的方式思考,即使他们使用这些庞大的技术工具。

1.2 复制还是重塑

世界的量化再次成为人类的迷恋。这里的量化是指我们可以将我们作为人类观察到的模式分解为组成部分,并在更大的观察范围内以更快的方式复制它们的想法。量化金融的基础可以追溯到投资原则,或者说是几代敏锐的投资者所做的观察,他们识别出了这些想法,而无需大规模数据的帮助。

早期的因子投资和量化金融的想法是对这些见解的复制;它们并没有发明投资原则。价值投资的概念(对资产和公司进行组件估值)是许多代人研究和理解的概念。量化金融将这些想法拆解,取得可观察和可扩展的元素,并将它们扩展到大量(可比较的)公司之间。

实现规模的成本仍然是如何将特定的投资见解应用于特定公司的复杂性和细微差别,但是假定这些细微差别在较大规模的投资组合中被分散,而且仍然被大部分忽视。投资见解与未来回报之间的关系被复制为曝光和回报之间的线性关系,很少关注非线性动态或复杂性,而是专注于多样化和大规模应用,这被认为是现代投资组合的更好结果。

然而,从早期因子研究中出现了一种微妙的共同运动和相关性的认识,它现在是现代风险管理技术的核心。这个想法是具有共同特征(让我们称之为量化投资见解)的股票也可能在宏观风格因素上具有相关性和相互依赖。

在我看来,这个小小的观察实际上是对到那个时候,以及在许多圈子里仍然如此,孤立地思考股票的投资世界的一种重新发明,将焦点从单个股票移动到连接许多个别没有直接业务关系但仍具有相似特征的股票的常见“线索”或因子,这可能意味着它们会一起买卖。这种“因子”链接成为投资过程的目标,并且其识别和改进成为许多投资过程的目标——现在(在 2010 年代后期)它正在再次引起兴趣。重要的是,我们开始将世界看作一系列因素,有些是暂时的,有些是长期存在的,有些是短期和长期的预测,有些提供风险并且需要消除,有些提供高风险回报。

因子代表了编织全球金融市场图景的看不见(但可检测到的)线索。当我们(量化研究者)努力发现和理解这些线索时,世界上很多人都专注于公司、产品和周期性收益的可见世界。我们将世界描绘成一个网络,其中连接和节点是最重要的,而其他人则将其描述为一系列投资理念和事件。

重塑发生在兴趣对象的转变上,从个别股票到一系列网络关系,以及它们随时间的起伏。这种转变既微妙又严重,可能仍然没有完全被理解。良好的因子时间模型很少见,关于如何思考时间的活跃辩论仍在进行中。情境因子模型更加罕见,对实证和理论工作提出了特别有趣的领域。

1.3 机器学习的重塑

使用机器学习进行重塑为我们提供了类似的机会,让我们重新思考金融市场的方式,我认为这种方式包括对投资对象的识别以及我们对金融网络的看法。

请允许我用一个简单的类比来进行思维练习。在手写或面部识别中,我们作为人类寻找某些模式来帮助我们理解世界。在意识、感知的层面上,我们寻找人的脸上的模式,鼻子、眼睛和嘴巴。在这个例子中,感知的对象是那些单元,我们评估它们与我们所知的其他对象的相似性。然后,我们的模式识别在组件方面的维度相当低。我们已经将问题分解为一组有限的分组信息(在这种情况下,是面部的特征)。

在现代机器学习技术中,人脸或手写数字被分解成更小、因此更多的组件,然后我们对这些类别进行评估。以手写数字为例,图片的像素被转换为数值表示,然后使用深度学习算法寻找像素中的模式。

我们拥有不可思议的工具来处理大规模数据,并在样本的亚原子水平上寻找模式。在人脸、数字和许多其他事物的情况下,我们可以通过复杂的模式找到这些模式,这些模式已经不再直观或可以被我们(有意识地)理解;它们不是识别鼻子或眼睛,而是在信息的深层折叠中寻找模式。有时,这些工具可以更加高效地找到模式,比我们更快,而我们的直觉无法跟上。

将这个类比运用到金融领域,大部分资产管理都涉及到财务(基本)数据,如收入表、资产负债表和收益。这些项目有效地表征了一家公司,就像一个人的主要特征可以表征一个人一样。如果我们拿这些项目来用,可能有几百个,并将它们用于像机器学习这样的大规模算法中,我们可能会发现我们在开始之前已经给自己造成了严重限制。

神经网络的“魔力”在于它们能够识别原子级别(例如,像素级)信息,并通过向它们提供更高级的结构,我们可能已经在限制它们发现新模式的能力,即超出我们在线性框架中已经识别的模式。再创新在于我们找到新的构造和更“原子”的投资表示形式的能力,以使这些算法更好地发现模式。这可能意味着远离报告的季度或年度财务报表,也许使用销售和收入的更高频率指标(依赖于替代数据源),作为发现更高频率、潜在更连贯的模式的一种方式,以便预测价格波动。

通过机器学习进行再创新也可能意味着将我们的注意力转向将金融市场建模为一个复杂(或者只是庞大)的网络,其中问题的维度可能会爆炸性地高,难以让我们的思维来处理。要估算一个网络的单个维度,实际上就是要估算一个 n × n 的协方差矩阵。一旦我们将这个系统内生化,许多 2D 矩阵内的链接就会成为其他链接的函数,在这种情况下,模型是递归的,并且是迭代的。而且这只是在二维空间。将金融市场建模为神经网络已经尝试过,但应用有限,而最近更多的是供应链的想法正在流行,作为发现公司之间微妙联系的一种方式。替代数据可能会揭示公司之间的新的明显可观察的联系,就他们的商业往来而言,这些联系可以构成一个网络的基础,但更可能的是,价格会波动得太快、太多,以至于不能简单地由平均供应合同确定。

1.4 信任问题

现实情况是,逃脱我们注意力的模式要么太微妙,要么太多,要么在数据中太快了。我们无法直观地识别它们,或者围绕它们构建故事,这自然会使我们不信任它们。数据中的一些模式对于投资来说将是无用的(例如噪音、非流动性和/或不可投资),因此这些模式很快就会被剔除。但许多其他模式将是强大而有用的,但完全不直观,也许对我们来说是模糊的。我们的自然反应将是质疑自己,并确保它们是非常庞大的信号群体的一部分,以便在孤立地多样化问题特定信号。

只要我们的客户也是人类,我们就会面临沟通挑战,尤其是在表现较差时。当表现强劲时,不透明的投资流程很少受到质疑,复杂性甚至可能被视为积极的、有差异性的特征。然而,在大多数情况下,表现不佳的不透明投资流程很快就会受到怀疑。在许多现代投资历史的例子中,“量化分析师”们在表现不佳的时期往往难以解释他们的模型,并很快被投资者抛弃。赋予他们的智力优越性的同样优点很快就变成了弱点和被嘲笑的点。

叙事,即用舒适熟悉的轶事和类比包裹复杂性的艺术,感觉上就像是使用技术模型的一项必要成本。然而,在金融创新中,这可能是创新的一大障碍。投资信念以及我们产生舒适轶事的能力,通常是为了重新确认普遍存在的直觉投资真理,而这些真理又得到了数据中“合理”的模式的支持。

如果创新意味着转向金融中的“机器模式”,具有更高复杂性和动态特征,那么这将是一种信仰的飞跃,我们放弃了对投资洞察力的作者身份,和/或从某种混淆开始,例如捆绑,使得无法对单个信号进行审查。无论哪种方式,即使投资信号本身增加了价值,超出故事被接受的范围之外的移动也会存在一定的额外业务风险。

如果我们要创新信号,我们很可能也需要创新叙事。数据可视化是这个领域一个很有前景的领域,但如果我们要展示市场网络或完整因子结构的视觉亮点,我们可能会发现自己比金融界其他部分更快地接受虚拟和增强现实设备。

1.5 经济存在主义:伟大设计还是意外?

如果我告诉你,我建立了一个预测经济部门回报的模型,但是这个模型本身在很大程度上是不直观的,并且高度情境化的,这会让你感到担忧吗? 如果我告诉你,一个核心组成部分是最近报纸上报道该行业产品的文章数量,但是这个组成部分不能保证在我下一次估计中 ‘构建’ 模型。 我遇到的大多数研究人员都有一个选择潜在模型的概念框架。 通常,涉及一个思维练习,将给定的发现与宏观图片联系起来,并问: ‘这真的是世界运行的方式吗? 这有意义吗?’ 没有这一点,结果很容易因其经验上的脆弱性和样本内偏见而被挑剔。 我们在那里进行了微妙的飞跃,那就是假设经济体系有一个中央的 ‘秩序’ 或设计。 经济力量通常是从一群得到信息和理性的人的集体行动中高效定价和交易风险和回报的。

(如果不是伪理性)代理。 即使我们认为代理人没有得到信息,或者不是完全理性的,他们的集体行动也可以带来有序的系统。

我们在经济学中的思考在很大程度上基于这样一个观念:有一个正在发挥作用的 ‘宏伟设计’,一个宏伟的系统,我们正在检测和估计,并偶尔利用。 我不是指的是有临时变化或进化的临时 ‘小均衡’ 的想法,而是指的是根本没有任何均衡的观念。

达尔文的随机突变、进化和学习的概念挑战了这种世界观的核心。 Dennett5 巧妙地将这种世界观表达为一系列偶然事件,很少提及宏观层面的秩序或更大的目的。 “能力而无理解” 的概念被发展为一个框架,用来描述智能系统如何在一系列适应性反应中产生,而没有背后的更大秩序或 “设计”。 在他的书中,哈拉瑞 6 描述了人类从觅食转向有组织的农场的进化。 这样做,他们的数量增加了,他们现在无法再回到觅食。 路径依赖性是进化的重要部分,并限制了进化在未来方向上的发展。 例如,它无法 “进化” 觅食实践,因为它不再这样做,现在它正在进化农业。

机器学习,以及像随机森林这样的模型,很少表明有更大的图片或概念框架,但最容易解释为一系列(随机)数据进化,导致我们观察到的当前 ‘真相’。

一组经济力量共同作用以产生经济状态的想法,被一系列随机突变和进化路径所取代。 对于金融量化模型,这意味着有很强的路径依赖性。

这对于一个接受过经济训练的思考者来说是具有挑战性的,有时甚至是直接令人不安的。一个模型能够仅仅因为“就是这样”而产生一系列的相关性的想法令人担忧,特别是如果路径方向(突变)是随机的(对研究者而言)- 我们似乎已经勾勒出了水滴沿着玻璃滚动的路径,但几乎不知道是什么引导了这条路径本身。正如著名的投资者乔治·索罗斯 7 描述他的投资哲学和市场:一系列的输入和输出,就像一个“炼金术”实验,一系列的试验和失败。

1.6 这个系统究竟是什么?

重新发明需要重新审视回报的根本原因,可能还包括异常回报。在自然界、游戏中以及特征识别中,我们通常知道参与的规则(如果有的话),我们知道游戏,我们知道特征识别的挑战。金融市场中的一个中心要素,尚未得到解决的是它们的动态性质。随着元素的识别、相关性的估计、回报的计算,系统可能会非常迅速地移动和变化。

大多数(常见的)量化金融模型更注重横截面识别,而不太关注时间序列预测。在时间序列模型中,它们往往是连续的,或者具有状态依赖性,通常嵌入了一种切换模型。无论哪种方法,都没有对市场动态可能发生变化的原因有更深入的理解,事前的预测(根据我的经验)往往依赖于状态的串行相关性和偶尔的市场极端环境来“震荡”系统。8 在这个意义上,金融市场的真正复杂性可能被严重低估了。我们可以期待机器学习算法从细微的复杂性和市场关系中挖掘出更多吗?可能是的。然而,干净数据的缺乏,以及横截面信息分割的可能性,暗示着某种监督学习模型,其中研究者设定的事前结构与模型本身估计的参数一样可能成为成功或失败的根源。

一个希望是机器学习模型所暗示的关系结构可以启发并指导新一代理论家和基于代理的仿真模型,这些模型反过来可能产生更精细的事前结构,以理解市场的动态复杂性。我们可能无法学习到市场的潜在动态属性,而不使用某种事前模型,其潜在特性我们可能永远无法观察到,但可能可以推断。

一个用来演示这个想法的思维实验是一个简单的 2D 矩阵,有 5 × 5 个元素(或者足够多以阐明这一点)。每秒钟,有一粒沙子从上方落到一个单独的方块上。随着时间的推移,每个方块中沙子的数量增加。有一个规则,如果一个方块上的沙子塔比另一个方块上的沙子塔高得多,它就会倒塌到相邻的方块上,将沙子传递过去。最终,一些沙子会倒在平面的四条边之一上。系统本身是复杂的,它在各个区域积聚了“压力”,并偶尔释放出压力,当一个方块上的沙子从一个方块掉落到另一个方块,最终掉到边缘时。现在想象一个单独的研究者,站在方块平面的下方,对平面上发生的事情一无所知。他们只能观察到落到边缘的沙子粒子的数量,以及是哪个边缘。从他们的角度来看,他们只知道如果有一段时间没有沙子落下,他们应该更担心,但是他们对导致偶发雪崩的系统没有任何概念。基于价格的机器学习模型遭受类似的限制。它们只能推断出这么多,而且有一系列复杂系统可能导致给定市场特征的配置。在面对复杂性自然的遮蔽时,选择一个独特或“真实”的模型,特别是对于研究人员来说,是一项几乎不可能的任务。

1.7 动态预测与新方法论

现在我们回到更直接的问题:量化资产管理。资产定价(股票)广泛地始于通常依赖于你选择的视角的两种前提之一:

  1. 市场由金融资产组成,价格是对拥有这些资产未来利益(通常是现金流)的公平估值。预测是对未来现金流/基本面/收益的预测。数据领域由公司组成,它们是未来现金流的捆绑包,其价格反映了相对(或绝对)对这些现金流的估值。

  2. 市场由由带有不完美信息的代理人交易的金融资产组成,根据一系列考虑因素。因此,回报简单地是一场“交易游戏”;预测价格就是预测其他代理人未来的需求和供给。这可能需要或可能不需要(通常不需要)理解基本信息。实际上,对于高频策略,几乎不需要了解基础资产,只需要了解其在将来某个日期的预期价格。

典型地使用高频微结构,如成交量、买卖价差和日历(时间)效应,这些模型旨在预测未来需求/供给不平衡,并在从纳秒到通常的几天的时间段内获益。

没有太多的先前建模,因为权衡几乎是由设计,始终对经济信息做出反应的频率太高,这意味着它可能受到交易模式的驱动,并且重新平衡频率与正常经济信息并行运行。

1.8 基本因素、预测和机器学习

在基本投资过程的情况下,资产定价的‘语言’充满了对公司业务状况、财务报表、盈利能力、资产和一般业务前景的参考。绝大多数共同基金行业都是以这种观点运作的,分析公司与行业同行、全球同行以及整个市场相对于其未来业务成功的情况。试图定价超越 CAPM 的系统性风险的绝大多数金融文献,如多因子风险溢价和新的因子研究,通常将一些不可分散的业务风险作为潜在回报的情况。这些模型的过程相当简单:基于财务报表、分析和建模的组合提取基本特征,并应用于相对定价(横截面)或总(时间序列)收益。

对于横截面收益分析,特征(以非常常见的指标如盈利/价格为例)在广泛的横截面中被定义,并被转换为 z 分数,Z ∼ N(0,1),或百分位等级(1–100),然后通过函数 f与一些未来收益 rt+n 相关联,其中’n’通常为 1–12 个月的前瞻性收益。函数 f在套利定价理论(APT)文献中找到其归属,并通过排序或线性回归导出,但也可以是与未来收益的简单线性相关(也称为信息系数,IC),一个简单的启发式桶排序练习,一个线性回归,一个逐步线性回归(用于多个 Z 特征,以及边际使用是否感兴趣),或它可以相当复杂,并且由于’Z’信号被植入到具有多种特征的现有均值方差优化投资组合中。

重要的是,“Z”的预测通常被定义为具有广泛横截面吸引力的(例如,所有股票应该在横截面中可测量)。一旦交给一个良好分散的应用程序(例如,有很多股票),任何围绕线性拟合的错误(希望)将被分散化。然而,通常不会花费太多时间定义不同的 f功能形式。除了通常用于处理“大小”的二次形式(通常用于处理“大小”)或偶尔的交互(例如,质量大小)之外,没有真正好的方法来考虑如何使用“Z”中的信息。这个领域在更好的股票特定测量的支持下很大程度上被忽视,但仍然是同样的标准化,同样的 f*。

因此,我们的目标是改善 f*。通常情况下,我们有几百个基本“Z”可以选择,每个都是横截面上的连续变量,横截面上最多大约有 3000 只股票。我们可以将 Z 转换为十分位成员资格的指示变量,但通常,我们想要使用极端十分位作为指示,而不是分布的中间部分。拥有基本变量“Z”和基于“Z”的一些指示 ZI 后,我们开始探索不同的非线性方法。我们开始感到兴奋,因为潜在的新的超级解决模型就在我们面前。

我们遇到的第一个问题是:“我想要预测什么?”随机森林、神经网络通常寻找二元结果作为预测变量。回报是连续的,大多数基本结果也是如此。在我们选择对象之前,我们应该考虑我们正在寻找什么样的系统。

我想要预测公司的某项选择,例如选择更换首席执行官的公司,购买或出售资产的公司,收购竞争对手的公司。然后,我希望从这些行动中获益。但是公司是如何做出这些选择的呢?

他们是否与经济因素隔离开来制定决策,是否真的存在无条件的选择,还是这些公司已经受到某种潜在经济事件的影响?例如,公司很少会孤立地取消股利。通常情况下,取消的选择已经受到非常糟糕的市场条件的严重影响。因此,我们的模型很可能识别处于财务困境中的公司,而不是那些真正“选择”取消股利的公司。要深思熟虑什么是“选择”,什么是“状态”,在某些选择被认为是不可避免的情况下。

我想要预测公司的不当行为,然后通过做空/避开那些公司。无论是有意还是无意,那些误报财务状况的公司,但最终被发现的(我们希望如此!),因此我们有了一个样本集。这对新兴经济体尤其有趣,因为这里的财务控制,例如国有企业,可能与简单的公开披露存在冲突的利益。这感觉像是法庭会计的一个激动人心的领域,其中“线索”被捡起并由算法匹配在不可能通过人类直觉单独跟踪的模式中。我认为我们必须重新审视这里的最初假设:这是无意的吗?因此我们正在建模组织内在的不确定性/复杂性,还是这是有意的,这在某种程度上是一种“选择”。

独立变量的选择应该理想地同时影响两者,但“选择”想法需要更多关于别有用心动机的信息。

我只想要预测回报。直截了当地,我们可以说:我们能否利用基本特征来预测股票回报?我们可以定义相对回报(前十分位数、前五分位数?)在一定未来期间内超过一些同行群体,并将其标记为“1”,其他一切标记为“0”。如果我们可以整理好我们(少量的)基本数据,重新估计我们的模型(神经网络或其他什么)并设置一些回溯窗口,我们应该能够以蛮力解决这个问题。然而,这可能会导致一个极端动态的模型,因素之间的重要性极端变化,并且可能不清楚哪个模型是最佳的“局部极值”。或者,我们可以基于总回报目标定义我们的因变量,例如在未来一段时间内的任何 +20%,我们将专注于确定一个“极端波动者”模型。但是为什么公司会经历异常大的价格跳跃呢?上述任何一个模型(收购、超越预期、大幅惊喜等),可能是候选者,或者如果不是,我们实际上正在预测横截面波动率。例如,在 2008 年,实现正回报 +20% 可能几乎是不可能的,而在 2009 年后期,如果您是一家银行,则被期望是这样的。横截面波动率和市场方向必然是“状态”,以启用(或取消资格)股价出现 +x% 的概率。因此,总回报目标模型不太可能在不同的市场周期中表现良好(横截面波动率 regime),在此期间达到 +20% 的无条件概率明显不同。将这些嵌入其中有效地转换了 +20% 相对于横截面的标准偏差移动时,您现在又回到了相对回报的游戏中。

  1. 如果您特别希望让方法论驱动您的模型决策,那么您必须接受价格是连续的这个观念,并且基本会计数据(至少报告的)是离散的并且通常是高度管理的。如果您的预测期间低于会计信息的报告频率,例如月度,那么您基本上是依赖于历史上声明的财务账目与今天的价格之间的分歧来驱动信息的变化,因此,在很大程度上是依赖于周转率。当您处理大型的“分组”分析时,例如分桶或回归分析时,这不太令人担忧。如果您使用非常细致的工具,如神经网络,它们将捕捉到微小的偏差并赋予其有意义的关系,这可能会成为一个更大的问题。

  2. 使用条件模型,如动态嵌套逻辑(例如随机森林),可能会突出显示那些平均组别,它们比其他一些组别更有可能跑赢市场,但是它们的特征(在确定节点的方面)将是极其动态的。条件因子模型(情境模型)今天已经存在;事实上,大多数因子模型是在地理背景(例如任何商业可用的风险模型)和在某些情况下是在规模内确定的。这实际上意味着回报预测是基于你所处市场的哪个部分。从经济原理的角度来看,这很难合理化,因为这将需要在信息生成或强烈客户效应中进行某种程度的分割。例如,一组客户(针对美国小型市值)认为,增长率是推动回报,而另一组客户(日本大型市值)则寻求完全不同的东西。如果世界被划分得那么细,为资产定价辩护将是困难的(但不是不可能的),作为某种全球(不可分散)风险的补偿。无论采用何种经验方法,条件资产定价模型都应该努力说明为什么他们认为价格在财务报表之间的相对短时间内如此动态地受到如此不同的基本面驱动。

总之,像机器学习方法这样的大规模但敏感的工具与使用基本信息进行横截面回报预测的结合必须非常谨慎和专注。这一领域的许多定量工作都依赖于蛮力(近似)对像贝塔这样的敏感度的计算。研究人员会发现在 APT 回归或 IC 的主流计算中,很少强调错误修正方法,这些方法依赖于捕捉信号(Z)与未来回报之间的广泛、平均关系。偶尔(通常是在横截面波动较大的时期),会在会议上展示非线性因子回报的内容,听众会心领神会地点头,但实质上却无法进行调整。线性函数 f*的诱惑太大,太根深蒂固,不容易克服。

过去,我们进行了实验,以确定非线性估计器能为模拟回测增加多少额外价值。对于运动缓慢的信号而言(每月重新平衡,6-12 个月的时间跨度),很难最终击败一个没有过度拟合的线性模型(或者至少可以轻松辩护的模型)。同样,因子定时是一个吸引人的非线性建模领域。然而,因子回报本身是通过大量的噪声和围绕计算的固有假设计算的。这些假设使得定时本身非常主观。一个构建良好的(通常意味着经过良好回测的)因子将具有平稳的回报系列,除了历史上可能有一些潜在的灾难性的颠簸。使用时间序列神经网络尝试预测这些事件何时发生,将比线性框架更加强大地利用一些通常是不可重复的显著迹象。

具有讽刺意味的是,因子被构建为作为投资组合的长期持有补充因子。这意味着通过使用连续的定时机制,甚至是经过拟合的机制,很难改进长期持有收益。通过历史上错过一两个极端的收益事件,然后考虑交易成本,通常会看到稳健的线性因子胜出,这会令方法论上热切的研究人员感到沮丧。

最终,我们最好是生成一个构建不太完善但具有一些时间序列特征的因子,并尝试对其进行定时。

在这一点上,感觉我们已经来到了一个艰难的段落。对于基础研究人员来说,感兴趣的单位通常是某种基于会计的度量标准(收入,收入等),所以在这个世界上使用机器学习似乎类似于让一辆法拉利在伦敦的高峰交通时间行驶。换句话说:这看起来很吸引人,但可能感觉像痛苦。我们还能做什么呢?

1.9 结论:寻找钉子

这是科学研究者们爱上一种新方法并花时间寻找要应用该方法的问题。就像挥舞你最喜欢的锤子,四处走动寻找钉子一样,机器学习看起来像是一种没有明显独特应用的激动人心的方法分支。我们越来越多地看到传统模型使用机器学习技术进行重新估计,而在某些情况下,这些模型可能会带来新的见解。往往情况是,如果模型受到限制,因为它们是为线性估计而构建和设计的,我们将需要重新发明原始问题,并重新设计实验,以期从数据中窥视出全新的东西。

在评估模型、设计新模型或在白板前探讨想法时,一个有用的指导原则是问问自己或同事:“我们在这里了解了什么?”最终,经验或轶事调查的目的是更多地了解我们周围这个复杂、神奇和鼓舞人心的世界的运作方式,从优雅的数学到混乱的复杂系统,以及最混乱的:数据。一个研究人员如果确信自己通过模型代表了对世界的某种‘真理’,无论采用什么样的方法和复杂度,都更有可能被人信任、记住,最终得到回报。我们不应该夸大或迷恋个别模型,而应该始终努力改善对世界的理解,以及我们客户的理解。

强大的模式识别方法,如机器学习,有能力为人类对复杂系统的理解增添力量,包括金融市场,也包括许多社会系统。我经常提醒那些使用和运用这些模型的人应该注意推理、谦卑和信任。世界会因量化而热恋,并因被承诺过多而冷淡。机器学习和人工智能(AI)几乎肯定会在某个时刻让我们失望,但这不应该阻止我们;相反,它应该鼓励我们寻求更好、更有趣的模型,以更多地了解这个世界。

第二章:驯服大数据

Rado Lipuš 和 Daryl Smith

2.1 引言:替代数据 - 概述

大约 20 年前,一小部分富有创新精神的对冲基金和资产管理者开始使用替代数据和机器学习技术。然而,近年来,使用替代数据的基金经理数量和新的商业可用数据源的供应量都大幅增加。

我们已经发现了 600 多种商业可用的替代数据集,这些数据集在过去几年内已经上市。目前,每月约有 40 种新的经过彻底审查的替代数据集被添加到 Neudata 平台上的替代数据总数中。我们预计在未来几年内,数据集的总数将稳步增加,原因如下:(i)更多的数据枯竭公司正在将其现有数据变现,(ii)新的和现有的初创公司加入这一领域,提供新鲜和额外的替代数据产品。

2.1.1 定义:为什么‘替代’?与传统的对立

对于初学者来说,“替代数据”一词指的是可用于量化和自主投资策略中的投资管理分析和决策目的的新颖数据源。基本上,替代数据指的是过去七年中主要创建的数据,直到最近才对投资界可用。在某些情况下,创建替代数据的最初目的是为了提供分析工具,供各行各业的非投资公司使用。在许多其他情况下,替代数据是经济活动的副产品,通常被称为“排放数据”。替代数据主要由买方和卖方以及在一定程度上由私募股权、风险投资和公司非投资客户使用。

2.1.2 替代并非总是大数据,大数据也不总是替代

“大数据”和“替代数据”这两个术语经常被互换使用,并且许多人将两者都用于非结构化数据的情境,并且在某些情况下用于指代大量数据。

“替代数据”一词最初是由美国的数据经纪人和顾问使用的,大约五年前开始广泛被接受。与其他地区相比,美国资产管理行业更广泛理解替代数据的含义:例如,在欧洲,这一术语直到 2017 年才开始得到更广泛的认可。

在 2016 年和 2017 年,卖方、传统数据供应商和其他类型的会议组织者举办的大量会议和活动无疑有助于推广替代数据的认知度。此外,在过去一年里,许多关于替代数据和人工智能的调查和报告,由卖方银行、数据供应商和顾问撰写,也有助于教育买方和更广泛的行业。

替代数据源究竟指的是什么,有多少来源可用,哪些来源最适用?

2.2 采用的驱动因素

2.2.1 创新扩散:我们现在处于何种状态?

金融行业在替代数据方面仍处于早期采用阶段(图 2.1)。这一点可以从积极寻找和研究替代数据来源的买方公司数量来证明。然而,替代数据的采用正处于向早期多数阶段过渡的关键时刻,因为我们观察到越来越多的资产管理公司、对冲基金、养老基金和主权财富基金正在建立替代数据研究能力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

大多数创新者和早期采用者位于美国,而欧洲和亚洲基金的比例很小。大多数创新者和早期采用者具有系统化和量化的投资策略,并且在相当大程度上是以消费者为重点的自主基金。

2017 年,我们看到基于基本策略的基金兴起。

然而,尽管传统管理者对使用替代数据的兴趣增加,但量化策略的采用速度明显更快。

我们怀疑其中一个主要原因是运营知识。简而言之,对于以基本策略为驱动力的公司来说,整合和研究替代数据更具挑战性,因为通常所需的技术和数据基础设施不足,研究团队经常存在显著的技能缺口。

因此,评估、处理、确保合规性和获取大量数据集的任务需要对现有流程进行彻底改革,并可能代表一个重大的组织挑战。

对于大型、成熟的传统资产管理公司,一个重要的障碍是向研究团队提供测试数据的内部流程缓慢。这个过程通常需要对新数据提供商进行尽职调查,为测试数据签署法律协议(在大多数情况下是免费的),以及(iii)合规团队的批准。资产管理公司内部这些流程的框架,以及因此需要为研究团队组织大量新数据集所需的时间,差异很大。在创新的对冲基金,这可能只需要几天/几周,而在不太注重数据和组织效率较低的资产管理公司,则可能需要数月时间。

投资界对替代数据的采用受到了金融科技的进步推动,并提高了分析不同数据集的技术能力。许多投资者、对冲基金和资产管理者都将这些发展视为传统投资方法的补充工具,可在未部署此类能力的投资经理身上获得优势。

今天,尽管许多投资专业人士声称替代数据是一种新的投资前沿,但可以说,这个前沿已经相当成熟,因为行业从业者现在已经相当普遍。正如 EY 2017 年全球对冲基金和投资者调查所指出的,当参与者被问及“您投资的对冲基金中有多少使用非传统或下一代数据和‘大数据’分析/人工智能来支持其投资流程?”时,平均答案为 24%。也许最有趣的是,当同一参与者被问及他们预计三年后这一比例将是多少时,答案增加到了 38%。

根据 Opimas Analysis 的数据,投资管理者在替代数据上的全球支出预计将以 21%的复合年增长率增长,预计到 2020 年将超过 70 亿美元(图 2.2)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 2.2 替代数据支出。

来源:Opimas 分析。来源:https://www.ft.com/content/0e29ec10-f925-11e79b32-d7d59aace167

2.3 另类数据类型、格式和范围

另类数据源的分类有几个挑战。首先,数据提供商提供的信息描述其产品的方式往往不一致且不完整,不足以满足投资管理目的。其次,另类数据的性质可能复杂且多方面,以及源数据通常无法轻松分类或描述为单一类型。传统来源,如 Tick 或价格数据、基本数据或参考数据,较不复杂,更容易定义。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们将每个数据源归类为 20 种不同类型,对于大多数另类数据示例,多个类别都适用。例如,一个环境、社会和治理(ESG)数据集可能包含“众包”、“网络爬取”、“新闻”和“社交媒体”的组成部分(见图 2.3)。更进一步,数据集还可以是派生产品,并以不同格式提供:

  1. 原始数据,占我们数据源的 28%。

  2. 结构化或聚合,35%。

  3. 信号(派生指标),22%。

  4. 报告,15%。

2.3.1 另类数据分类和定义

表 2.1 数据分类类型

数据集类别定义
众包数据是从大量的贡献者那里收集的,通常使用社交媒体或智能手机应用程序
经济收集的数据与特定地区的经济相关。例如,贸易流量、通货膨胀、就业或消费者支出数据
环境、社会和治理(ESG)数据被收集以帮助投资者识别不同公司的环境、社会和治理风险
事件任何能够告知用户股票价格敏感事件的数据集。例如,收购通知、催化剂日历或交易警报提供的例子
金融产品与金融产品相关的任何数据集。例子包括期权定价、隐含波动率、ETF 或结构化产品数据
基金流向与机构或零售投资活动相关的任何数据集
基本面数据来源于专有的分析技术,与公司基本面相关
物联网数据来自于相互连接的物理设备,例如 Wi-Fi 基础设施和带有嵌入式互联网连接的设备
位置数据集通常来自于手机定位数据
新闻数据来自于新闻来源,包括公开可用的新闻网站、新闻视频频道或特定公司的公告供应商
价格定价数据来源于交易所内外
调查和投票底层数据是通过调查、问卷或焦点小组收集的
卫星和航拍底层数据是通过卫星、无人机或其他航拍设备收集的
搜索数据集包含或来源于互联网搜索数据
情感分析输出数据来源于自然语言处理(NLP)、文本分析、音频分析或视频分析等方法
社交媒体底层数据是通过社交媒体来源收集的
交易型数据集来源于收据、银行对账单、信用卡或其他数据交易等来源
天气数据来源于收集天气相关数据的来源,如地面站和卫星
网络抓取数据来源于定期从网站收集特定数据的自动化过程
网络和应用跟踪数据来源于(i)从现有网站和应用程序中归档并跟踪每个网站的特定变化的自动化过程,或者(ii)监视网站访客行为
出处:Neudata。

2.3.2 有多少替代数据集?

我们估计今天买方使用的替代数据源超过 1000 个。其中大多数 - 21%(图 2.4) - 属于网络和应用相关数据类别,8%是宏观经济数据,包括就业、国内生产总值(GDP)、通货膨胀、生产、经济指标等多个子类别(图 2.4)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

前六个数据类别占所有数据源的 50%。需要注意的是,一个数据集可以被归类到多个类别中。一个数据集可能包含多个来源,并且适用于不同的用例。

然而,投资管理中使用这些数据源的方式并不统一,并不反映数据源的供给方的情况。

2.4 如何知道哪些替代数据有用(哪些没有)

对许多基金经理来说,最终的问题是选择哪个数据源进行研究或回测。其中一个关键问题是,哪个数据集易于操作?

需要进行多少数据清理、映射和准备工作,才能准备好并集成一个研究数据库中的数据集?

我们试图回答这些问题的一种方式是根据表 2.2 中的八个因素为每个数据集评分。可以理解的是,每个基金经理对表 2.2 中哪些因素最重要会有不同的看法。许多人会有特定的“硬性停止”。例如,一个人可能只想回测一个具有至少五年历史、每年成本低于 50000 美元、至少每日更新一次,并且与至少 1000 个公开上市的股票相关的数据集。

当然,上述因素只是一个初步概述,以便机构投资者准确了解一个数据集与另一个数据集的差异。除此之外,还有许多定性因素需要考虑,以便评估一个数据集是否值得进一步调查。这通过一个彻底的调查过程来实现,该过程试图回答 80 到 100 个问题,这些问题反映了我们经常从投资界收到的查询。例如:

  1. 数据的基本来源是什么?

  2. 数据是如何收集和随后交付的?

  3. 三年前的数据是否像今天一样完整?

  4. 面板规模随时间的变化如何,存在哪些偏差?

  5. 数据交付是否及时?

  6. 数据是否是“点对点”的?

  7. 数据是否映射到标识符或代码,如果是,是如何映射的?

  8. 这个数据集与类似产品有何区别?

  9. 到目前为止,哪些机构投资者对此提供感兴趣(如果有的话)?

  10. 地理覆盖范围是什么,这可能会如何扩展?

  11. 与该数据集相关的可投资公司具体清单是什么?

因素描述
数据历史长度可用历史数据的最早时间点
数据频率数据可以交付的频率
宇宙覆盖数据集涉及的可投资公司数量
市场的隐蔽性Neudata 对于机构投资者对该数据集的熟悉程度的评估
拥挤因素Neudata 对于使用此数据集的多少对冲基金和资产管理客户的估计
独特性Neudata 对于此特定数据集的独特性的评估
数据质量Neudata 对数据的完整性、结构、准确性和及时性的评估的一个函数
年度价格数据提供商收取的年度订阅价格
来源:Neudata。

TABLE 2.2 评估替代数据有用性的关键标准

我们通过与数据提供商举行多次会议、审查样本数据(通常与感兴趣的客户共享)以及审查独立的相关来源(例如学术论文)来找到这些问题的答案。通过执行这些步骤,不仅创建了一个全面而独特的数据集概要,还可以提供建议的用例,这些用例可应用于回测过程。

2.5 替代数据的成本是多少?

对于数据提供商和替代数据的购买者来说,最具挑战性的问题之一是如何确定数据集的价格。

对于许多新进入金融服务行业的数据提供商来说,确定价格可能非常困难,原因有两个。首先,在许多情况下,新提供商对同行或可比数据订阅定价的理解和知识是不存在的或非常有限的。其次,数据提供商不知道买方将如何使用其数据,以及数据集对资产管理者提供的价值或 alpha 有多大。对于资产管理者来说,数据集的增值将取决于许多因素,例如投资策略、时间跨度、宇宙规模以及许多其他对基金经理策略独特的因素。如果新的替代数据源与资产管理者已经使用的数据集高度相关,那么新的替代数据源的边际 alpha 可能会太小。

对于开始研究替代数据的资产管理者来说,挑战在于为数据订阅制定预算。年度数据订阅价格将根据数据格式(如第 2.3 节所述)、数据质量和其他数据提供商特定因素而大幅变化。替代数据集的价格范围从免费到 250 万美元年度订阅费用。大约 70% 的数据集定价在每年 1 至 15 万美元的范围内。还有几个免费的替代数据集。然而,对于一些免费数据源,可能存在数据检索、清理、规范化、映射到标识符等间接成本,以使这些数据源对基金经理的研究和生产有用(图 2.5)。

2.6 案例研究

下面显示了过去一年由 Neudata 的数据搜索团队收集的五个例子。仅提供了全面报告的摘录,并且提供者名称已被混淆。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.6.1 美国医疗记录

提供商:一家早期数据提供商,能够在处方后的三天内提供医疗保健品牌销售数据。

2.6.1.1 总结

该组提供了从医疗记录中得出的对医疗保健行业的见解。在过去的七年里,该公司与美国各地的医疗转录公司合作,并使用自然语言处理(NLP)技术来处理数据。

该数据集提供约 2000 万份医学转录记录,涵盖了所有 50 个州,每月新增 125 万条记录(2016 年每月新增 25 万条记录),7000 名涵盖所有专业领域的医生,和 700 万名患者。数据在患者离开医生办公室后的 72 小时内就可以获得,并且可以以结构化或非结构化格式(CSV 文件)访问。

2.6.1.2 关键收获

该团队声称是唯一商业化这些数据的公司。迄今为止,该产品已被用于(i)追踪药物上市后的情况,(ii)调查特定品牌被低估的原因,以及(iii)在 FDA 批准前发现涉及公司产品和标签扩展的不良事件。

2.6.1.3 状态

公司在过去的六个月里曾与两家自营对冲基金合作,并现在正在寻求达成独家交易(图 2.6)。

2.6.2 印度发电数据

提供者:一家已经建立的数据提供商,但尚未推出涉及印度电力行业的每日数据交付。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.6.2.1 摘要

这家数据提供商的核心业务包括向对冲基金、经纪商和商业银行的客户提供数据分析和研究服务。

其中一个尚未推出的产品将提供印度电力行业的每日更新。具体来说,这包括电力供应的数量(以百万单位计的能量)和质量(以兆瓦计的峰值短缺),按地区和州划分。数据集还将包括电力发电在州和来源(即煤炭、太阳能、风能和水电能源)之间的分配。总共,每天将更新约 10000 个数据点。

2.6.2.2 关键收获

我们相信这是一个独特的产品,因为数据的细粒度和交付频率。全面的细节,比如发电厂的发电量,可以从 2014 年开始提供。较少详细的数据集可以从 2012 年开始提供。一旦推出,数据集可以通过 API 提供。

2.6.2.3 状态

到目前为止,尚无客户使用这个数据集,该团队正在积极寻找对这样一个数据集感兴趣的机构。一旦找到感兴趣的方,我们了解到设置 API 数据源需要大约四周的时间(图 2.7)。

2.6.3 美国收益表现预测

提供者:一家投资银行的数据服务部门,为 360 家美国公司提供收益表现预测,主要集中在零售部门。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.6.3.1 摘要

这项产品于 2016 年 9 月推出,结合了(i)在线用户搜索数据,(ii)来自 6500 万设备组成的地理位置数据,以及(iii)销售点交易数据。输出是一个季度信号,旨在向客户提供有关给定公司相对于以前季度表现如何的想法。收益信号在给定公司财务季度结束后的 3 到 10 天通过 FTP 或该团队的网站交付。整个宇宙的历史数据从 2012 年末开始可用。

2.6.3.2 要点

潜在用户应注意(i)提供的不是绝对收益数字,而是相对于以前期间的任意比例为每家公司提供的相对收益措施,(ii)最近扩展的宇宙的外样本数据仅有四个月历史,(iii)直到最近,该产品仅涵盖大约 60 家美国股票; 2017 年 8 月,该宇宙扩大到 360 只股票,并超出零售领域,包括电影院、餐厅和酒店连锁店。

自那时起,该团队告诉我们,客户的兴趣显著增加了。

2.6.3.3 状态

大约有八个客户正在使用此数据集,其中一半是量化基金。尽管最近几个月来的兴趣增加了,但我们了解到该团队渴望限制访问(图 2.8)。

2.6.4 中国制造业数据

提供者:一家利用先进的卫星图像分析来协助用户跟踪中国经济活动的数据提供商。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.6.4.1 摘要

这项产品是一个制造指数,其计算基于中国大陆约 6000 个工业区的图像,覆盖面积为 50 万平方公里。

用于构建指数的数据点每周以 CSV 文件的形式向客户交付,延迟两周。历史数据可追溯至 2004 年。

2.6.4.2 要点

该团队声称该产品是中国工业活动的最快和最可靠的指标。具体而言,该团队声称该指数比中国采购经理人指数(PMI)更准确,后者经常因缺乏准确性和可靠性而受到观察者的质疑。

2.6.4.3 状态

该团队于 2017 年初开始向一家大型跨国银行的定量部门出售基础数据。最近,其他定量分析师也对此表现出了兴趣,到目前为止,该团队有四个客户接收相同的基础数据。

由于客户需求,该团队正在使用 CUSIP 对特定工业区进行映射过程,预计将于 2018 年初完成(图 2.9)。

2.6.5 空头数据

提供者:这家公司收集、 consolida 和分析全球超过 600 家投资经理持有的上市证券的所有权数据。

2.6.5.1 概要

该团队从 30 多个国家的监管机构收集披露,详细说明了大约 3200 家股票的多空头寸。 这些披露是

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

由投资经理整合并允许客户对聚合输出执行自己的分析。 例如,客户可以发现在特定时间段内有多少其他经理对给定股票进行了相同的空头持仓,以及他们的头寸有多大。 每天提供更新,并且可以从 2012 年起获得历史数据。

2.6.5.2 主要收获

所有权数据以简单,标准化的格式呈现,易于分析。 相反,监管机构提出的数据通常没有标准化,并且有时可能会误导。 例如,许多资产管理人以不同的名称披露空头寸,这可能是试图低估其头寸。

然而,该提供的数据收集方法能够识别此活动,并相应地汇总披露,为给定证券提供全球,准确的经理级持有。

2.6.5.3 状态

该团队在 2017 年扩张,无论是在覆盖范围上(在 2H17 添加了北欧和额外的亚洲国家,包括台湾,新加坡和韩国)还是在资产管理客户上(从 1H17 的零增加到 2H17 的 12)(图 2.10)。

2.6.6 Carillion 的倒闭 - 一种用例示例用于 Alt Data

哪些替代数据提供商可以识别 2018 年 1 月进入清算程序的英国建筑服务公司 Carillion 的倒闭?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

以下我们描述了五种非常不同的替代性数据产品以及其数据与 Carillion 输出之间的关联。

2.6.6.1 一个采购数据提供商确定了 Carillion 日益增长的债务负担

如此广为人知的是,2017 年 Carillion 的最大问题之一是债务增加。

截至年底,平均净债务达到 9.25 亿英镑,同比增长 58%,如图 2.11 所示。

然而,我们发现最有趣的是,从 2017 年 7 月 Carillion 首次盈利警告到 2018 年 1 月清算之间,该集团(及其子公司)赢得了价值 13 亿英镑的 10 项公共部门奖项 - 进一步增加了集团的债务负担,并且可能揭示了政府没有意识到 Carillion 处于多么严重的财务困境中。

一个数据提供商不仅会发现这些合同奖项(因此,不断增长的债务负担),还会提供额外的分析。 该提供商的数据库涵盖了过去五年的公共采购通知,并提供了超过 62,000 个供应商的详细信息。 每日更新,其中包含价值超过 2 万亿英镑的招标通知和价值 7990 亿英镑的合同奖项。 通过搜索诸如 Carillion 之类的特定名称,用户可以获得指标,例如:

  1. 未来到期合同的数量和价值。

  2. 已赢得合同与任何时期到期合同的比率。

  3. 市场份额趋势,平均合同规模,收入集中度和客户流失率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.6.6.2 这个贸易聚合器提供了详细的空头头寸分析

卡里利安的失败也受到了对冲基金的关注,这些基金做出了空头交易(例如 Marshall Wace 和 CapeView Capital),并且早在 2013 年就开始对该集团采取了空头头寸。在 2017 年 7 月 10 日该集团股价下跌了 39% 之前,卡里利安是富时 250 指数中空头头寸最多的股票之一。尽管这种显著的空头利益相对为人所知,但要从公开披露中准确确定(i)谁持有什么股份,(ii)持有时间多长,(iii)每个空头持有者在任何时候的盈亏仍然很困难和耗时。

在我们看来,一个特定的数据供应商将非常有用。该集团收集、整合并分析全球 600 多家投资经理持有的上市证券的所有权数据。此外,该公司通过投资经理整合这些披露,并允许客户对汇总输出进行自己的分析。就卡里利安而言,用户将会知道,例如,Marshall Wace 持有他们的仓位多长时间,这在时间上是如何变化的,以及所有未平仓交易的当前盈亏情况。数据每天更新,历史数据从 2012 年提供(图 2.12)。

2.6.6.3 另一家提供商可以帮助识别晚发票付款的历史。

卡里利安案例还凸显了延迟支付的问题,之后透露该集团向分包商支付了 120 天的延迟。正如富时文章《卡里利安倒闭加剧了分包商反对延迟付款的案例》所强调的那样,英国政府在 2017 年通过了法规,意味着大公司需要每年报告两次他们的支付条件(其中大多数公司将在 2018 年 4 月首次这样做)。然而,通过观察公司发票数据,比如另一家提供商提供的数据,可以找到更详细的分析和更新更频繁的数据。

尽管该集团无法向我们确认它是否具有与卡里利安特定的发票数据,但我们认为该集团,以及其他折价票据提供商,值得一提,因为它们是帮助识别处于财务困境初期的公司以及哪些公司正在经历的有用来源(图 2.13)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.6.6.4 这家薪酬基准数据提供商指出,在崩溃后,高管薪酬与同行相比较高的比率,

董事会学会代表英国老板的主要游说团体称颂 Carillion 的董事们获得的薪酬“极不合适”,指出“Carillion 缺乏有效的治理”,并补充说现在必须“考虑董事会和股东在崩溃前是否行使了适当的监督责任”。

实际上,回顾起来,2016 年 Carillion 对高管奖金的追索条件的放松似乎是相当不合适的。

我们询问了一家特定薪酬基准数据提供商的首席执行官,是否可以通过简单研究 Carillion 的薪酬数据找到任何警示信号。

根据该提供商的记录,尽管 Carillion 的平均员工工资大致符合其竞争对手的水平,但与同一行业高管薪酬相比,高管薪酬比例高于平均水平(图 2.14 和 2.15)。

与这家数据提供商进一步讨论后,明确了其基金经理客户可以得知从 2015 年开始,高管与平均薪酬比的比率呈上升趋势。此外,提到 2014 年首席执行官的加薪,几年前似乎就已经注意到了可疑的高管薪酬迹象:

看到过安然,凡萊特和其他管理灾难,当公司需要两页来披露首席执行官的加薪时,情况就不对了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2.6.6.5 这家企业治理数据提供商指出了未解释的高管离职

在询问其对 Carillion 的看法时,一家企业治理数据提供商指出,对他们来说最大的红旗之一是几名高管无任何解释地离开了公司。

例如,2017 年 9 月,Carillion 财务总监扎法尔·汗在担任不到一年后突然辞职,没有对他突然离职的解释。Carillion 还进行了一系列管理重组,导致战略总监肖恩·卡特从他的职位上离职 - 同样在宣布中没有解释。

该数据提供商的首席执行官表示:“这些未解释的离职在我们看来引起了潜在的治理问题。”

以及董事会成员构成的不够多样化。

此外,同一提供商指出,人们可以质疑董事会成员的构成混合,以及是否有董事具备适当的技能/专业知识来管理公司,或者是否有健全的风险管理和公司治理实践(图 2.16)。

2.7 最大的替代数据趋势

在这一部分中,我们简要介绍了替代数据领域中我们正在看到的一些最大趋势。

2.7.1 替代数据仅适用于股票吗?

在分析替代数据时发现的一个令人惊讶的发现是,它适用于所有资产类别,而不仅仅是上市股票,这是最常见的假设。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所有替代数据集的百分比适用于非上市股票或私营企业。

关于私营企业及其品牌和产品的数据正在被自由裁量管理人员和私募股权公司用于比较分析(图 2.4)。

2.7.2 供应端:数据集发布

2017 年,我们看到了位置、网络和应用跟踪来源大幅增加。2017 年所有新发布的商业可用数据来源中,有四成来自这三类数据。

值得一提的另一组数据是交易数据集,特别是涵盖非美国地区的(图 2.5)。

2.7.3 最常见的查询

关于需求,2017 年大多数月份所询问的热门类别包括 ESG、交易、情绪和经济数据。

2.8 总结

替代数据领域非常分散,新的数据提供者和现有提供者正在加速推出新数据集。最大比例的数据集适用于美国市场。然而,非美国数据提供者正在追赶替代数据的供应。我们认为,适用于公开股票的替代数据约占所有数据的近 50%,而对于非上市股票、固定收益、外汇和商品的数据可用性,远比买方社区意识到的要广泛。

替代数据的应用案例备受保护,而且很难找到 alpha 和数据集实用性的证据。

替代数据的采用仍处于早期阶段。然而,系统性和量化策略已经最积极地探索替代数据来源,并拥有显著的数据预算和研究团队。2017 年,我们观察到基本或自由裁量策略在替代数据研究项目和工作方面显著增加。总的来说,与买方使用传统数据源相比,替代源的使用仍然微不足道。除了买方对替代数据的有限使用外,还要指出,替代数据在大多数情况下被用作多因素方法的一部分。同一数据集可以用于不同的时间范围,此外,用例和方法也各不相同。

早期采用者有明显的优势和机会。此外,有强有力的证据表明,某些数据集将取代或替代现有广泛使用的来源,并成为未来的主流数据来源。

第三章:投资管理中机器学习应用的现状

叶卡捷琳娜·西洛特尤克

3.1 引言

通过每天通过智能手机应用程序,家用产品如 Alexa 和 Google Home 以及 Uber 和 Facebook 服务中使用的匹配算法等应用人工智能(AI)的应用,金融服务业以外的行业专业人士和学术界纷纷猜想为什么投资管理行业的大部分,如果不是绝大部分,不是由上述科技公司使用的算法原则管理的。我经常与专业人士和客户进行谈话,他们猜测如果 AlphaGo 能够如此快速地学会击败人类,那么在几年内,主导机构和零售投资者资金的很大程度上将是世界上的 AlphaGo。然而,除了交易成本、数据收集和处理以及执行基础设施等问题外,金融市场代表着一个更加复杂的生态系统,其中不断反馈的参与者不断地重写规则。

3.2 数据,无处不在的数据

在这种情况下,一个普遍的假设是,对专有数据或大数据的访问将先验地为投资策略创造长期的竞争优势。例如,在会议演示中,人们已经讨论过,具有客户数据访问权限的全球企业的企业财务和财务部门(如宜家)雇用量化分析师来理解公司的全球信息流并创建专有的交易信号。仅凭客户购买行为和电子商务/网站分析/社交媒体的“签到状态”信息就已经证明无法生成优秀的信号。为了获得更好的交易结果,需要具有宏观信息(利率、货币)、技术数据(交易模式)和基本来源(公司收益信息)必须被纳入考虑。全球企业养老金计划和苹果公司等公司金融部门对外部资产管理人的传统和替代指令搜索数量几乎证实了这一观点,即数据访问并不是投资策略成功的充分条件。

这些结果并不令人惊讶。金融数据与 99.9%的人工智能所使用的数据不同。此外,金融专业人士更广泛地获得大数据的机会是最近才开始的。越来越多的数据科学家一直在将新兴数据集转化为金融交易目的。大数据的处理和利用与金融数据有何不同?首先,让我们比较图像背后的数据(可以从 CIFAR(n.d.)的公共可用库中挑选一张图片,或者拍一张照片)和自成立以来的苹果股票每日股价数据(TechEmergence 2018)。

很明显的是,(CIFAR)图像数据集是静态和完整的 - 其元素之间的关系在所有时间内是固定的(或任何照片都是如此)。在 CIFAR 案例中,图像具有 100%的标记。相比之下,根据计算(TechEmergence 2018),苹果的每日股价有 >∼10k 个数据点 - 自 1980 年 12 月 12 日上市以来的每个交易日都有一个。即使以分钟为单位的分辨率(TechEmergence 2018),数据点的数量也会与单个低分辨率照片相似,并且与普通照片中的像素之间的关系基本不同。股票的金融数据系列并不是一个大数据。数据科学家可以通过从各种数据源(如电子原材料价格、汇率或者对苹果的 Twitter 情感)进行投影,从而创造出一个苹果的大数据分析问题。然而,人们必须意识到,在大数据中,会有许多变量的组合可能与苹果的价格巧合。因此,在金融领域成功应用人工智能方法将取决于数据科学家将有关苹果的数据转换为特征的工作。

特征工程是价值链的一个组成部分,其过程是将原始数据转换为更好地代表预测模型中潜在问题的特征,从而提高模型对未见数据的准确性。在人工智能领域取得成功归根结底归结为表征问题,科学家必须将输入转换为算法可以理解的东西。这需要大量的工作来定义数据集、清理数据集以及进行训练以及经济直觉。

尽管较少提到,人工智能一般多年来一直被一些资产管理公司使用(最初是高频交易公司)(Kearns 和 Nevmyvaka 2013),大多数情况下是在执行方面(以降低总体交易成本),而不是在投资信号生成和投资组合管理方面。处理能力速度的增加以及数据处理和存储成本的降低改变了金融公司应用人工智能技术于投资管理过程更广泛部分的经济学。然而,仍然存在差异,这些差异涉及对金融市场状态进行建模,这促使人们对将人工智能引入金融领域与其他行业采取谨慎态度(NVIDIA 深度学习博客无日期):

(a) 不同于一些其他具有静态关系的环境(如照片的情况),游戏规则随时间而改变,因此问题是如何忘记过去有效但现在可能不再适用的策略。

(b) 市场状况只能部分可观察 - 因此,即使市场配置相当相似,也可能导致相反的发展趋势。

© 信号目标并不像猫狗分类问题那么简单,人们不能立即验证信号的有效性。

本章的后续部分将指导读者了解金融领域人工智能应用的光谱,阐述行业与 AI 促进因素的相互关系,并就未来行业发展的情景展开讨论。我们将为从业者、学生和年轻专业人士提出建议作出结论。

3.3 人工智能应用的光谱

3.3.1 Ai 应用分类

为了更好地了解通过 AI 进行投资和利用大数据的潜在发展(Sirotyuk 和 Bennett 2017),瑞士信贷的 AI 专家将该行业分类如图 3.1 所示。当读者沿着 y 轴向上移动时,数据复杂度与大数据的四个 V(速度、多样性、容量、真实性)相一致增加。较低的列意味着利用标准价格数据(合同价格数据源),基本指标(P/E,P/B,**Div Yield(股息率)**和情绪数据。较高的列使用更复杂的数据(包括文本和语音等非结构化数据),并包括以专有方式收集或处理的数据(例如,市场影响,对手在短时间内的报价-询价)。y 轴上的顶级代表大数据,如通过卫星图像跟踪海洋流动和停车场占用情况。

在 x 轴上,作者逐渐引入更先进的数据处理技术,这些技术更适合解释和对这些复杂数据集做出反应 - 从传统工具(如分析统计学)到基于 AI 的研究系统(例如自然语言处理,NLP)到完全自主的 AI 交易系统。

引入了一个共同点 - 麦当劳股票交易 - 作为一个例子,说明了在每个框中算法设计和交易如何发展。

麦当劳案例之后是投资管理行业应用的一个例子。

在短期至中期内,通过 AI 应用提高 alpha 的预期发生在表格的中等列中,由“高级交易”表示,‘竞争数据科学家’和’主数据科学家’。

3.3.1.1 高级交易

被归类为’高级交易’的内容倾向于使用复杂的分析技术处理现有数据,并实现更快的反应时间。

那些交易员能够处理大量数据集或文本,并提取有价值的信息。一个很好的例子是你在公司报表中有不同的脚注时(资产负债表或利润表),AI 系统能够系统地进行捕捉(Allison 2017)。

3.3.1.2 竞争数据科学家

竞争数据科学家代表利用公共和专有、结构化和非结构化数据集的投资组合 - 例如,一个投资组合经理会尝试使用 NLP 技术分析媒体对某个地区或国家的一组股票的态度是否积极或消极(Allison 2017)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3.3.1.3 主数据科学家

主数据科学家可能已经使用非常先进的卫星图像来了解海上或港口船只的位置,以了解市场中的流动情况。

随着系统获取更多数据,经过训练和测试,演变向右移动(Allison 2017)。展望未来,我们应该期待看到投资行业从结构化数据和有限的人工智能转向融合一些非结构化数据和更先进的数据处理技术。参与者的方式显然取决于他们的技能组合,以及某些数据的可用性或开发自己的专有数据集和/或大数据融合的经济学。

3.3.2 金融分析师还是竞争性数据科学家?

为了演示 AI 系统如何扮演金融分析师的角色(又称’竞争性数据科学家’,如图 3.1 所示),可以看到图形处理单元(GPUs)和翻译器促进了深度学习(一类基于学习数据表示的机器学习方法)的实施(NVIDIA 深度学习博客 n.d.)。多年来,金融分析师的工作是定期筛选新闻文章,听取公司电话会议,与投资者关系部门联系,从定性讨论中得出结论并向交易员提出建议。这个过程耗时且相当手动。它还需要专业化,因为分析师按部门和/或地理位置划分,并且需要具备本地语言知识或通过先前的工作凭证具有对‘家庭’行业的理解。现在想象一下,使用 GPU 和深度神经网络库,这个‘虚拟分析师’ - 机器 - 可以将来自公共和专有数据库的新闻输入到深度学习系统中(NVIDIA 深度学习博客 n.d.)。训练后,机器可以在每三毫秒解剖一篇文章(相比之下,金融分析师在 2-3 分钟内浏览一篇文章);这样,机器每天处理数十万篇文章。该过程的工作方式如下。AI 系统在文章中识别数百个关键词。然后,‘一个无监督学习算法为每个关键词赋予一个数字值,然后系统的其他模型可以解释和处理。深度学习系统的结果包括:

(a)将文章链接到适当的股票和公司;

(b)为每篇文章辨别情绪得分,范围从积极到中性到消极;和:

(c)访问新闻对市场影响的可能性。该系统还意识到‘假新闻’,因为有信誉的来源被赋予更高的权重以提高结果的可靠性(NVIDIA 深度学习博客 n.d.)。

3.3.3 投资流程变化:‘自主交易’案例

AI 处理的引入影响了投资团队的组织结构,随后影响了投资流程。以股票投资组合经理为例(基础股票选择者),负责投资组合中的股票的最终决定权。他过去依赖于研究团队、执行交易员以及他自己对他所交易市场的理解的输入。分析师往往在利基行业拥有多年的经验,在行业联系人中拥有广泛的网络,并多次与关键的 C 级高管交谈过。分析师的任务已逐渐转向建立和维护复杂模型、与高管交谈、记录、设置关键日期和通知警报等。基本上,已经建立了一个迭代的决策过程,例如:

  • 第 1 步:分析师研究,然后

  • 第 2 步:向投资组合经理提供输入,然后

  • 第 3 步:投资组合经理构建投资组合,例如股票包含的权重/排除,然后

  • 第 4 步:投资组合经理执行投资组合,重点是交易规模和交易结构,然后

  • 第 5 步:返回第 1 步。

现在想象一下,我们可以将股票选择和投资组合构建过程交给一台机器,并要求机器就研究和投资组合构建做出联合决策。联合决策为我们提供了更多的数据,并进入了大数据/AI 问题领域。如果机器还开始交易证券来实施投资组合,我们就会按照图 3.1 移动到“自主交易”。这个问题设计结果就是一个深度学习框架的例子,如图 3.2 所示。

3.3.4 人工智能和策略开发

拥有大量模型库和交易历史记录的资产管理者处于利用自动化资本配置策略的有利位置。在投资者谈话中经常发生这种情况,当分配者与系统公司讨论多策略提供时,他们听到的销售宣传是,风格或模型簇之间的分配是 1/3、1/3、1/3,或者在投资组合背景下相关的任何 N。通常,对于天真的风格或模型簇分配策略,解释了分散化效益和进行模型定时的能力有限。公司正在日益在模型库上测试神经网络的部署,看看是否实际上可能有一些时机。因此,拥有更强大的基础设施和模型注册表的资产管理公司可能会提出自动化的资本配置策略。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

更快的信息收集将进一步支持投资管理行业在人工智能-大数据轨道上的发展。观察一些著名的领先指标,投资经理在历史上已经考虑了采购经理指数(PMIs)、就业、干散货指数等因素进行决策。所谓的现在预测技术的到来有望使人们能够在(发布之前)更早地了解国内生产总值(GDP)和其他基准(Björnfot 2017)。现在预测背后的基本原则是,关于 GDP 变化方向的信号可以从大量和异构的信息来源(例如,工业订单和能源消耗)中提取出来,而 GDP 本身尚未发布。不仅 GDP,而且制造活动也可以以不同的方式进行衡量。

因此,美国公司 SpaceKnow 推出了一个专门的中国卫星制造指数,该指数利用了中国境内超过 500 000 平方公里的 2.2 十亿卫星观测数据和 6000 多个工业设施(Kensho Indices n.d.)。

3.4 行业的相互联系和人工智能的推动者

3.4.1 人工智能开发的投资

金融市场中人工智能的使用的进步是由人工智能在服务行业更广泛的渗透以及行业发展的相互联系所推动的。

人工智能的概念,尤其是神经网络,并不新鲜;然而,巨大的计算能力最终使得对巨大数据库(图像、视频、音频和文本文件)进行复杂处理成为可能,这些数据库产生了足够的数据供人工智能操作(Parloff 2016)。对人工智能初创企业的风险投资也有所增加。据 CB Insights(CB Insights n.d.)称,2017 年,排名前 100 的人工智能初创企业筹集了 117 亿美元,共进行了 367 笔交易。相比之下,五年前,以人工智能作为其产品核心部分的初创企业的总融资额为 50 亿美元。自 2012 年以来,该行业的交易和资金投入一直在上升。

上述数字不包括科技巨头在其自身 AI 能力上的内部投资。在公司级别上,Google 在 2012 年进行了两个深度学习项目(Parloff 2016),而目前该公司正在所有主要产品领域开展 1000 多个项目,包括搜索、Android、Gmail、翻译、地图、YouTube 和自动驾驶汽车。对于一位自由主题投资者来说,寻找对外国市场的本地洞察力的明显途径是阅读外语的在线新闻或论坛(在当地分析师的帮助下),或者听取 C 级高管对投资的不同看法,正如我们之前讨论的那样。天真地说,一个人可以使用谷歌翻译进行翻译服务,再加上 1-2 位关键分析师,而不是当地的分析师。如今,谷歌翻译(Parloff 2016)能够将一种语言的口语句子转换为另一种语言的口语句子,同时为 103 种语言提供文本翻译。目前,这种语言转换的质量可能会受到质疑,但方向已经确定。

3.4.2 硬件和软件开发

NVIDIA 在 2000 年代推出了 GPU,并进行了硬件革命,这些芯片最初是为了给玩家提供丰富的视觉 3D 体验而设计的,这些芯片足够灵活,可以用于其他工作负载。对于它们适用的任务,GPU 比以前使用的传统中央处理单元(CPU)效率高出许多倍。

竞争对手也在追赶。例如,英特尔在 2016 年 8 月收购了一家深度学习初创公司 Nervana Systems,以及 2017 年 3 月收购了芯片制造商 Movidius 和视觉专家 Mobileye。这些收购使该公司能够创建一系列专门用于人工智能的芯片。这一发展肯定会支持大数据提供者行业。此外,2016 年,谷歌宣布在其数据中心内使用张量处理单元(TPU)(Google Cloud 2017)(该单元设计用于大量低精度计算,并且特别与谷歌的开源库 TensorFlow 一起使用)。基本上,这意味着谷歌服务,如 Google 搜索、街景、Google 照片、谷歌翻译都在幕后使用 TPU 加速其神经网络计算。谷歌现在正在推出第二代这些芯片,以提供更广泛的能力。

除了硬件开发外,软件开发,尤其是开源框架,已经帮助了大数据提供商(Financial Stability Board 2017)。在软件行业,开源的概念已经存在多年。基本上,这意味着特定技术或解决方案的源代码是开放的,任何人都可以添加和改进(Shujath 2017)。已经证明,这种方法通过一个开发者社区共同解决 bug,加速了产品创新并提高了产品质量。它使原始产品能够开发新功能。包括微软、谷歌和亚马逊在内的厂商已经将他们的人工智能解决方案开源(Shujath 2017)。

3.4.3 规章制度

尽管不常被强调,但美国和其他一些国家的市场监管机构允许公开交易的公司使用社交媒体发布公告,这促成了事件数据集的创建(Financial Stability Board 2017)。到目前为止,地理空间数据聚合商已经能够聚合并转售他们聚合的分析数据。随着计算能力和成本的降低,精度和及时性也随之而来——直到最近,卫星图像的挑战在于数据根本不够频繁,无法及时应对作物压力。每日图像正在成为一个改变者(Anon n.d.-a)。在过去几年中,大数据提供商已经蓬勃发展;但是,人们必须注意这些公司的年轻本质——它们只存在了几年。这方面的例子是 Terra Bella(以前是 Skybox),它提供了对零售商停车场内汽车数量或港口自然资源储量的分析,以及另一个卫星图像提供商 Orbital Insights(Anon n.d.-b)。

3.4.4 物联网

当涉及到特定行业,例如农业或能源时,大数据收集是通过无线传感器和其他监测设备的部署实现的(Financial Stability Board 2017; Anon n.d.-b)。作为物联网(IoT)的常见技术,被深入应用于许多行业,因为这些技术使我们能够(i)准确实时地了解现场出现的问题,(ii)快速有效地干预,从而及时解决问题。

物联网解决方案再次由微软和亚马逊等技术公司以及价格更便宜的芯片所推动。物联网在农业中的兴趣和适用性的增加可以通过在该领域运营的初创公司数量来证明(例如 Farmobile Device、OnFarm、CropX、FarmX、Farmlogs;机器人/物料处理 - Harvest AI),DroneSeed;乳制品 - Farmeron,Anemon,eCow;制图 - HoneyComb,AgDrone;端到端 - The Yield)。随着数字化的推进,以及更多的商品市场接近超级流动性,例如,了解作物状态的竞争优势来源正在发生变化。信息的规模和范围越来越广泛,并且同时更加普遍。如果人们看一下某些农业市场的历史图表,可以看到在过去的几年里,价格范围特别紧张。尽管有许多因素在起作用,但顺畅的数据收集使大公司能够更好地规划,从而平滑了曲线,最终表明未来,Alpha 投资可能总体上更多地受到短期限制。

3.4.5 无人机

谈到商品市场,人们不能忽视无人机行业的影响,因为它有助于在大距离上进行移动,比如观测和量化的领域(Goldman Sachs Equity Research 2016)。正如高盛在其《无人机行业报告》中所示,该行业近年来已经从军事用途跃升至消费者用途,并且预计无人车辆将从商业用途跃升至民用和政府应用的下一个增长阶段。在政府方面,NASA 宣布了未来五年内建立无人空域管理系统的计划(UAS),试飞已经开始。这构成了无人机更广泛的商业和消费用途的重要要求。 NASA 估计,美国的商用无人机机队将在 2016 年至 2021 年之间从 42,000 架增加到 420,000 架(适用于美国)。在公司方面,诸如诺斯罗普格鲁曼之类的公司正在开发一系列价格实惠的无人车辆;然而,功耗/高度/飞行成本存在约束。在这一领域,独立研究正在积极进行,科学家们正试图解决自主飞行器的成本和寿命问题。最近,麻省理工学院(MIT)的研究人员提出了一种成本大大降低的 UAS 设计,可以悬停更长时间 - 研究人员设计、制造和测试了一种类似于 24 英尺翼展的薄型滑翔机的 UAS。据报道,该车辆可携带 10-20 磅的通信设备,在 15,000 英尺的高度飞行,重量不到 150 磅,在这种情况下,车辆由一台 5 马力汽油发动机提供动力,并且可以自持飞行超过五天。这种车辆不仅可以用于灾难救援,还可以用于其他用途,例如环境监测(例如监测野火、河流流出等)。

无人机的重要性在于效率、成本降低和安全性。例如,在清洁能源行业,无人机可以减少风力涡轮机检查所需的时间、风险和劳动力,目前这需要工人被吊升到高空然后绕着风力涡轮机滑降并检查其叶片(高盛证券股票研究,2016 年)。

此外,最初作为消费者无人机(在某些情况下,甚至是玩具)正在变得越来越强大 - 参考像大疆(DJI)这样的制造商。

3.4.6 分步数字化转型 - 案例研究

为了展示商品数字化过程以及已建立公司和初创公司之间的迭代以及它们对市场结构的影响,我们可以从市场的“宏观”视角转向“微观”视角。让我们以玉米市场作为这个说明性研究的例子 - 这是一个有个别农民、已建立的本地公司和国际参与者的市场。大公司很可能已经安装了分析能力。因此,问题就变成了,全球小农民获取实时数据管理权限对其集体影响可能会是什么?对于价值链过程,我们还应考虑储存地点和电梯提供商以及与物流合作的加速器。

在播种/收获周期中,季节开始时,所有参与者都会查看土壤、天气条件以及前一年的库存(盈余或赤字)并开始预测播种和收获目标。在季节期间,所有参与者再次检查天气、疾病、干旱/降水和其他指标,并调整预测。收获开始往往是最繁忙的时期,因为这时所有市场参与者都在关注进展情况、收获周围的条件、天气、作物质量和产量。收获数据最终在一个月后出现,即收获结束后。之后,焦点转向消费方面 - 微观和宏观因素、消费者变化和模式。重新评估库存开始以及下个季节的规划。

政府机构和贸易协会收集商品市场信息并与农民分享。由于土地在全球范围内受到监管,以及食品安全问题,政府报告仍然是重要的一部分。历史上,小农民手工收集有关其业务的信息,并将这些信息传递给政府机构。卫星和无人机改进了企业监控和信息传输的过程(因此,使流程更快,可能导致更快的价格发现)。气象学的改进(参考 IBM Watson)为改进农场管理创造了条件。目前,进入田野的拖拉机是由人驾驶的。将来,随着拖拉机变得更加自动化,智能代理(无需人类指导),机器将自行监控土地。与拖拉机连接的无人机可以设置参数,并在田地不平整或作物受损时发出警报——就像谷歌汽车在商品上的运作方式。迄今为止,这类综合技术的价格一直是个障碍;然而,随着价格的下降,采用率可能会上升。在季节期间,农学家研究田地,取代表性样本,并决定土地需要哪些额外措施。如果代表性取样变得更便宜,那可能会导致更丰收,因为农民可以根据田地情况做出反应。对于远在东欧和中国等地的农业仍然沿用老方法的地区,人们对新技术的效果和给小农场企业带来的规模效应以及对市场的影响往往低估。我们可以进一步推测,随着数据收集实时化和商品价格更透明,波动性甚至会进一步降低,但短期波动性也可能增加。对投资组合管理的影响很多——从需要在分析中捕捉非常短期的时间框架到进行更短期交易。

3.5 行业发展的场景

3.5.1 自动驾驶技术的启示

在概述了人工智能在金融市场中的应用可能情形后,让我们来看看一些投资行业发展的场景以及人工智能应用进展较为先进的行业案例。首先,自动驾驶技术提供了一个很好的比较基础,因为其研发已经持续了几十年——卡内基梅隆大学最近庆祝了其与自动驾驶技术教职员工合作的 30 周年纪念(卡内基梅隆大学 n.d.)。

将自动驾驶汽车技术过程应用于金融市场,可以看到严格的领域规则如何限制机会而不是扩大机会。 Artemis Capital Management 的专家引入了机器学习中的“影子风险”概念(Cole 2017)。他们描述了程序员使用人工智能开发自动驾驶汽车的过程。可以通过在沙漠中驾驶汽车数千英里来“训练”AI 算法。AI 快速学习路线,并能以高达每小时 120 英里的速度精确、安全地行驶。现在想象一下,你带着汽车在美国进行一次横跨全国的旅行,经过高速公路、森林曲线、山路、山丘、拥挤的小镇。结果显示,当汽车行驶到多山而弯曲的道路时,汽车无法再安全地处理路线——它会冲下悬崖或进行意想不到的机动。这个思想实验背后的关键假设是,驾驶算法从未见过多山的道路或山路。在这种情况下,基于 AI 的学习的局限性变得显而易见。当然,进一步的一步,算法将在其他环境中接受训练,最终将学会山路、山路或严重交通堵塞是什么样子(Soper 2017; Isidore 2015)。自动驾驶汽车技术的爱好者可能会指出,最近在美国完成了许多横跨全国的测试驾驶,但他们往往忽视了骑行 99%是自动驾驶的事实,这留下了 1%的自由裁量权。对于 2000-4000 英里的旅行来说,1%的自由裁量权是一个很大的数字,用于决策:对于你的 20-40 英里路程的自由裁量权,可能是关键的决定。

让我们来看一下 Google 自动驾驶汽车的经历。确切地说,早在 2009 年,Google 汽车无法通过四路停车,因为其传感器一直在等待其他(人类)驾驶员完全停下来,让它通过(Richtell 和 Dougherty 2015)。人类驾驶员一直在英寸英寸地向前移动,寻找优势,使得 Google 的算法陷入瘫痪。自动驾驶汽车领域的研究人员表示,自动驾驶汽车面临的最大挑战之一是将它们融入到人类不按照规则行事的世界中。为自动驾驶汽车制定规则手册也表明,通常情况下这会导致汽车行为更加谨慎(至少根据 Google 的例子来看)。研究人员指出,在自动驾驶汽车与前方车辆保持安全距离时,驾驶过程中的一个关键部分。

在相邻车道中通常有足够的空间供汽车挤进去。在谷歌的另一个测试中(Richtell and Dougherty 2015),无人驾驶汽车进行了一些回避动作,同时显示了汽车保持谨慎的一面。在一次动作中,汽车在住宅区急转弯以避开停放不当的汽车。在另一次动作中,谷歌汽车接近交通繁忙的红灯。安装在无人驾驶汽车顶部的激光系统感知到另一辆车正在以高于安全速度接近红灯。在这种情况下,谷歌汽车向右侧移动,以防必须避免碰撞。然而,有车辆以这种方式接近红灯并不罕见 - 其他车辆的驾驶员没有足够谨慎地接近红灯,但驾驶员及时停车了。

将金融市场与沙漠环境进行对比,显然市场要复杂得多,而且规则也在变化。到目前为止,自由裁量交易者与量化投资方法并存。然而,让我们假设越来越多的机器将会与机器进行交易,而不是与人类交易者进行交易。然后,正如阿尔忒弥斯专家所建议的,自我反思风险将会加剧(Cole 2017)。在经济学中,反思性指的是市场情绪的自我强化效应。例如,价格上涨吸引了买家,他们的行动推动价格上涨,直到这一过程变得不可持续并且泡沫破裂。这是正反馈循环的情况。然而,也存在负反馈循环的情景,当过程可能导致价格的灾难性下跌时。

有一句常说的话是,全球 90%的数据是在过去两年内产生的,这引发了关于生成数据的问题以及它可以被采取的行动的疑问。

如果一个 AI 交易系统的训练数据集仅追溯到 10 年,甚至更少,会怎么样呢?

在 2008 年金融危机后,作为投资专业人士知道的,从长期来看投资股票市场一直是最好的交易之一。很可能 AI 系统交易美国股票一直保持多头,并且在波动率制度转变方面没有太多经验。在这种情况下,这个隐含着做空波动率并且在股票上有显著多头暴露的 AI 交易系统最终会遇到开始卖出的信号,从而对价格施加下行压力。如果一些 AI 交易系统有类似的短期训练设置会怎样?一些怀疑论者会指出“闪崩”的先例,它们对市场的潜在链式效应以及系统性投资者加剧动态的可能性(BIS Markets Committee Working Group 2017;Condliffe 2016;Bullock 2017)。以一个更近期的例子为例,这个例子在新闻中被广泛报道,在 2016 年 10 月 7 日,英镑下跌了 6%。

在几分钟内,触及$1.18 的水平,这是 31 年来的最低点,然后恢复到 $1.24. 一些专家将这样突然的抛售归因于算法捕捉到弗朗索瓦·奥朗德对特蕾莎·梅的评论:‘如果特蕾莎·梅想要硬脱欧,他们将得到硬脱欧。’ 随着越来越多的算法根据新闻来源进行交易,甚至根据社交媒体的热点进行交易,一则负面的脱欧头条可能会导致算法的显著卖出信号(Bullock 2017)。然而,国际清算银行的官方报告(Condliffe 2016)得出的结论是,这次抛售不能单纯归因于算法交易,而是由一系列因素共同作用而导致的,包括一天中的时间以及像期权这样的机械放大器,作为促成因素之一的对冲流动性相关的时间。

3.5.2 新技术 - 新威胁

许多自动驾驶车辆技术的测试仍在解决假设风险,比如黑客/网络安全犯罪和现实世界的挑战(例如自动驾驶汽车在高速公路上发生故障时会发生什么)。这些操作性问题对于金融市场参与者来说非常重要。事实上,在与 ICE、Eurex NYSE 负责人进行的大量采访中,网络安全被提及为金融稳定的关键风险之一(Accenture on Cybersecurity 2017)。网络安全专家证实,他们已经看到了一些旨在获取对自动交易模型的访问权限的案例。

从小数据到大数据的转变也带来了各种关于隐私、数据所有权和使用的担忧(Sykuta 2016),不仅从金融参与者和交易角度来看购买数据,还从基础市场组织的角度来看。如果基础市场组织有利于一些提供者拥有极为优越的信息,这将对价格动态产生影响。再次以农业为例,精准农业实践已经存在一段时间,并利用了诸如 GPS 导航设备、可变速种植和喷洒设备、车载场地监视器和网格油样采集等技术。尽管多年来数据的数量、速度和种类都是可用的,但是聚合、分析和辨别重要信息工具的能力仍处于早期发展阶段。随着孟山都和农业技术提供商等现有公司进入市场,更多关注点放在了聚合个体农民数据上,并且对数据所有权的担忧变得更加明显。谁拥有数据?谁有权利获得数据的价值?数据将如何共享?我认为在某个时候,我们将会看到政府机构更加深入地审视这些实践。在商品市场的情况下,我们可以更加密切地关注杜邦和孟山都等公司,它们有兴趣销售自己的农艺产品,还提供数据服务。基于对当地农场操作知识的产品推荐会如何演变?由大数据分析驱动的自动农业设备的持续发展是否会从根本上改变生产农业的组织和管理?这是否意味着更加量身定制的生产?这是否意味着商品波动性将进一步减少?这些都是具有巨大影响的开放性问题,对金融市场和整个社会都有重大影响。

3.5.3 自主管理的位置

即使有越来越多的自动化流程,越来越多的机器将更多地与机器交易,也有一种倾向于保持合理的自主高信心投资的情况(Lazard Asset Management 2015)。按设计,集中策略有助于投资于最有信心的想法,因此限制了与指数的重叠 - 导致高主动份额,从而与潜在的超额表现联系在一起。理论和经验证据都支持这样一个观点,即集中投资组合有望产生α收益。在其论文中,Lazard Asset Management 总结了分散的股票投资组合(共同基金)与集中投资组合的经验结果。作者进行了这项研究,他们通过检查在 e-vestment 中的分离账户数据来确认了更集中的机构投资组合的超额表现。他们将在美国大型股票宇宙中进行的积极管理策略分为集中策略(他们定义为持有 30 个或更少持有的策略)和分散策略(他们定义为持有超过 30 个持有的策略)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后,他们测量了过去 15 年集中和分散管理者群体以及标准普尔 500 指数的平均三年和五年滚动回报率。他们发现,经过成本考虑后,集中管理者的表现优于分散管理者和相应的指数。最后,将专有数据源与人类直觉结合起来表明具有实质性的竞争优势(图 3.3)。

3.6 未来展望

3.6.1 经济关系的变化

在大学里学习金融课程往往意味着学习著名的一套公式和论文(布莱克-舒尔斯期权定价,法马-法国因子,公司金融信号理论等)。虽然一些概念在构建金融产品方面仍然具有相关性,例如风险溢价,但一些其他概念已经发生了重大变化。因此,通货膨胀与失业之间的关系似乎部分因技术而部分因非正统经济政策而发生了变化。多年来,金融危机后的中央银行和经济学家们专注于增长及其与通货膨胀的联系,然而,在大规模量化宽松之后,美国、欧洲和日本的核心通货膨胀率都低于 2%。这一经验观察表明,中央银行不能再依赖传统模型来管理通货膨胀率,比如菲利普斯曲线(1958 年开发的一种衡量失业和通货膨胀之间反向关系的方法)。

金融公司的技术基础设施实现了更快的处理速度,使得旧的投资模型更快地衰败,并转变为不再适用的交易关系(即通货膨胀/失业)。在赞赏金融历史的同时,有必要对新的范式保持警惕。大多数普通大学课程可能仍然落后于金融行业的发展;然而,该行业需要具有对业务问题有新鲜眼光的人才。诸如谷歌、英伟达、微软和亚马逊等技术巨头的人工智能库为理解关键概念提供了良好的教育基础。

3.6.2 未来的教育重点

很明显,如图 3.1 所述,大数据和人工智能的使用将极大地增强自主投资组合管理。量化投资将经历类似的转变(图 3.4)。观察量化投资的演变,在 20 世纪 80 年代末期 CTA 开始受到重视,背后的模型生成了买入和卖出信号,这些信号通常不会比价格穿越移动平均线或退出通道复杂。然而,这些模型有时涵盖了 100 多个不同时间框架的市场,这表明了执行实践和合同分配策略的巨大差异。

早期的 CTA 倾向于只考虑价格数据。经典的中期 CTA 持有期为 80–120 天,因此可以归类为长期投资者。随着计算机速度的进步,出现了短期 CTA。随着统计套利策略的出现,该行业看到了统计套利策略的出现,该策略使用复杂的数学模型来识别存在的价格效率不足可能产生的潜在利润机会。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在两种或更多证券之间交叉。技术的进一步发展导致了高频交易的出现——一种以高速度和高周转率为特征的算法交易类型。高频交易商以高速度和高交易量进出短期头寸,旨在每笔交易中获利一分钱的零头。范式彼此影响,并随着技术的进一步发展,一种新的范式变得适用——人工智能。

当一个人看历史趋势跟踪程序的表现时,交易的早期阶段的特点是基础工具的显着波动。随着越来越多的行业专业人士继续交易,这些市场的波动性减少。此外,金融危机后中央银行的量化宽松实际上“杀死了”关键的外汇远期和利率期货市场以及股票指数期货市场的波动性,导致趋势跟踪程序的表现不佳。它是其他市场,如场外衍生品市场,继续在量化宽松时代提供回报。整体波动性水平的降低还减少了统计套利和高频交易公司的机会集。交易总量下降,促使一些参与者选择合并(高频交易商 Virtu Financial–KCG Holdings),完全关闭(Teza Technologies)或者联合资源池(例如 Go West 项目,其中包括 DRW、IMC、Jump Trading 和 XR Trading 等顶级交易者选择合作,共同建立芝加哥和东京金融中心之间的超快无线和电缆路由,而不是各自支付网络费用)。

3.7 结论

每一种新的范式都有一个 alpha 期,首创者优势占据主导地位。随着时间的推移,这种 alpha 可预见地会减弱。导致参与者增多并导致所有参与者的饼图减少不仅是参与者数量增加的问题,还有更广泛的货币和财政发展对金融市场的影响。上述观点和数据创建加速的加速显示了金融中人工智能的潜力,并且有必要深入研究个别算法。随着金融领域采用更多的人工智能,特征工程和提取将成为中心舞台,因为流程设计的差异将导致性能结果的差异。

参考文献

www.cmegroup.com/education/files/big-data-investment-management-the-potential-toquantify-traditionally-qualitative-factors.pdf Björnfot, F. (2017). GDP 增长率的现在预测和预测。https://www.diva-portal.org/

smash/get/diva2:1084527/FULLTEXT01.pdf Bullock, N. (2017). 高频交易者适应过度供应和艰难时期。https://www

.ft.com/content/ca98bd2c-80c6-11e7-94e2-c5b903247afd.

卡内基梅隆大学。 (2014). 从 0 到 70 在 30。https://www.cmu.edu/homepage/

环境/2014/秋季/从 0 到 70 在 30.shtml CB Insights. AI 100:重新定义行业的人工智能初创企业。https://www

.cbinsights.com/research/artificial-intelligence-top-startups CIFAR(无日期)。10 图像库。https://www.kaggle.com/c/cifar-10 Cole, C. (2017). Artemis Capital Management,波动性和风险炼金术,第 7 页。http://

www.artemiscm.com/welcome Condliffe, J. (2016). 算法可能导致英镑闪崩。https://www

.technologyreview.com/s/602586/algorithms-probably-caused-a-flash-crash-of-the-britishpound/

金融稳定委员会。 (2017). 金融服务中的人工智能和机器学习。http://www.fsb.org/2017/11/artificial-intelligence-and-machine-learning-in-financialservice/

高盛股权研究。 (2016). 无人机:飞入主流。高盛内部出版物。

Google Cloud (2017). 对 Google 的第一个 Tensor 处理单元 (TPU) 的深入了解。

https://cloud.google.com/blog/big-data/2017/05/an-in-depth-look-at-googles-first-tensorprocessing-unit-tpu 伊西多尔, C. (2015). 无人驾驶汽车完成 3400 英里的横穿全国之旅。http://money.cnn.com/

2015/04/03/autos/delphi-driverless-car-cross-country-trip/index.html 基恩斯, M. 和涅夫米瓦卡 Y. (2013). 市场微观结构和高频交易的机器学习。https://www.cis.upenn.edu/∼mkearns/papers/KearnsNevmyvakaHFTRisk Books.pdf Kensho Indices. https://indices.kensho.com 拉扎德资产管理。 (2015). 少即是多 - 集中投资组合的案例。https://www

.startupvalley.news/uk/jonathan-masci-quantenstein NVIDIA 深度学习博客。https://blogs.nvidia.com/blog/2017/08/30/qualitative-financialanalysis Parloff, R. (2016). 为什么深度学习突然改变你的生活。http://fortune.com/aiartificial-intelligence-deep-machine-learning Richtell, M. and Dougherty, C. (2015). 谷歌的无人驾驶汽车遇到问题:有驾驶员的汽车。https://www.nytimes.com/2015/09/02/technology/personaltech/google-says-itsnot-the-driverless-cars-fault-its-other-drivers.html Shujath, J. (2017). 为什么开源应该推动生命科学中的人工智能开发。https://blogs

.opentext.com/why-open-source-should-drive-ai-development-in-life-sciences 西罗秋克, 艾琳和班尼特, 瑞恩. (2017). 机器的崛起,技术启发的投资,IS&P

交替流动性。瑞士信贷,内部出版物。

Soper, T. (2017). 自动驾驶汽车在经过 2500 英里的自主横穿全国之后抵达西雅图。https://www.geekwire.com/2017/self-driving-car-arrives-washington-2500-mile-autono mous-cross-country-trip Sykuta, M.E. (2016). 农业大数据:农业数据服务中的产权、隐私和竞争。国际食品和农业经营管理评论 A (特刊)。

TechEmergence. (2018). 适用于目的的过拟合 - 为什么众包人工智能可能不适用于对冲基金。 www.techemergence.com/overfit-purpose-crowdsourced-ai-may-not-work-hedgefunds/

第四章:实施替代数据在投资过程中

文雍贾

4.1 引言

2007 年 8 月,系统性投资中发生了一次警钟,许多街头的量化交易员在一个被称为“量化震荡”的三天时间内遭受了他们有史以来最严重的损失。这个事件在量化世界之外并没有广泛报道,但对那些度过了这一周的投资组合经理来说,这是一个改变世界观的周。从某种意义上说,对替代数据来源的搜索始于那几天。

在本章中,我们将探讨这个基础性事件是如何激发对替代数据集的搜索的,替代数据实际上被采用的程度以及采用的缓慢程度的解释,以及一些基金经理更广泛采用替代数据的建议。然后,我们将审视替代数据的一些重要问题,包括数据质量和数量;我们将审视替代数据如何实际上帮助传统的定量或基本过程;以及我们将研究在替代数据中寻找阿尔法的技术。最后,我们提供了四个替代数据示例以及回测结果。

4.2 震荡:激发替代数据搜索

在 2007 年 7 月表现不佳但并不是非常不寻常后,许多量化策略在 8 月 7、8 和 9 日连续三天经历了戏剧性的损失——根据一些说法,这是 12 个标准差事件或更多。在通常高度控制风险的市场中性量化投资世界中,这样一串回报是闻所未闻的。通常秘密的量化交易员甚至向他们的竞争对手寻求帮助,以便了解发生了什么,尽管当时没有立即得到明确的答案。

许多量化交易员认为,这些错位必须是暂时的,因为它们是模型认为公平价值的偏差。然而,在混乱期间,每个经理都必须决定是削减资本以止血——从而锁定损失——还是坚持下去,如果预期的反弹没有按时到来,就冒着关闭店铺的风险。而且决定有时不在他们手中,在他们没有稳定资本来源的情况下。每月流动性的对冲基金不会被投资者迫使清算,但是分开管理的账户的经理们和专有交易台不一定有这种奢侈。

分开管理的账户和专有交易台并不一定有这种奢侈。

8 月 10 日,这些策略强劲反弹,正如事件发生后不久发表的一篇事后分析报告所示 (Khandani and Lo 2008)。到周末结束时,那些坚持持有头寸的量化交易员几乎回到了他们开始的地方;他们的月度回报流几乎没有注册任何异常情况。不幸的是,许多人没有坚持,或者不能坚持;他们削减了资本或减少了杠杆——在某些情况下,直到今天。一些大型基金随后很快关闭了。

4.2.1 发生了什么?

渐渐地,人们形成了关于发生了什么事情的共识。最有可能的是,一个交易经典量化信号和一些流动性较低策略的多策略基金在那些流动性较低的账户中遭受了一些巨大的损失,他们迅速清算了他们的量化股票账户以满足保证金要求。他们清算的头寸恰好与世界各地许多其他量化驱动的投资组合所持有的头寸非常相似,而这种清算对这些特定股票施加了下行压力,从而对其他管理者产生了负面影响,其中一些管理者反过来又进行了清算,造成了连锁反应。与此同时,更广泛的投资界并未注意到——这些策略大多是市场中性的,当时市场上并没有大的方向性波动。

事后看来,我们可以回顾一些我们知道已经过度拥挤的因素和一些其他因素,看到在地震期间表现出的明显差异。在表 4.1 中,我们看到了三个简单的拥挤因素:盈利收益率、12 个月价格动量和 5 天价格反转。我们现在用来降低投资组合拥挤度的大部分数据集都是在 2007 年以后才出现的,但是对于其中的一些不那么拥挤的 alpha,我们可以回溯到那个时期进行回测。在这里,我们使用了一些 ExtractAlpha 模型的组件,即战术模型(TM1)的季节性组件,它衡量了股票在那个时间表现良好的历史倾向(Heston 和 Sadka 2008 年);Cross-Asset 模型(CAM1)的成交量组件,它比较了看跌期权和看涨期权的成交量以及期权和股票的成交量(Fodor 等人 2011 年;Pan 和 Poteshman(2006 年));以及 CAM1 的 Skew 组件,用于衡量虚值看跌期权的隐含波动率(Xing 等人 2010 年)。记录这些异常现象的学术研究大多发表于 2008 年至 2012 年之间,当时这些观点并不是很广为人知;可以说,与其“智能贝塔”对应的这些异常现象相比,这些异常现象在当时仍然相对较少被关注。

表 4.1 显示了这些单一因素构建的美国流动性股票的美元中性、等权组合的平均年均化收益率,并且每日重新平衡。在截至量化地震的七年期间,相对不拥挤的因素表现平平,而拥挤的因素表现相当不错——在费用之前,该期间的平均年均化收益率约为 10%,约为拥挤因素的一半。但在地震期间,它们的回撤与拥挤因素相比较小。因此,我们可以将其中一些因素视为多样化或对冲拥挤的工具。并且在某种程度上,如果确实想要清理头寸,那么在相对不拥挤的投资组合中应该更加流动。

TABLE 4.1 美国流动性资产的美元中性、等权组合的年均化收益率

股票更拥挤的因子更不拥挤的因子
盈利收益率动量
(%)(%)简单反转平均
(%)(%)TM1
季节性 (%)CAM1 成交量 (%)CAM1 偏度平均
(%)(%)
2001–2007 年平均年11.0014.7635.0920.288.643.6017.109.78
收益率
2007 年 8 月每日因子收益 7 日-1.06-0.11-0.34-0.50-0.060.33-0.85-0.19
2007
8 月 8 日-2.76-4.190.23-2.24-0.21-0.040.21-0.01
2007
8 月 9 日-1.66-3.36-3.41-2.81-0.29-1.27-0.23-0.60
2007
8 月 10 日3.914.0912.456.820.71-0.011.700.80
2007

我们现在知道的这些因素表现较差的原因是对一些经理人来说是一个震惊的发现,因为他们认为他们的方法是独特的,或者至少是不常见的。结果证明,他们都在进行非常相似的交易策略。大多数股票市场中性量化交易者在一个类似的宇宙内交易,控制着相似的风险模型,并且在很大程度上是根据相同的数据源构建相同的 Alpha。

4.2.2 下一场地震?

随后几年量化回报一般都很不错,但许多团队花了数年时间恢复他们的声誉和资产管理规模(AUM)。到 2016 年初,量化震荡似乎已经足够遥远,并且回报已经足够长时间良好,以至于可能已经产生了自满情绪。量化回报一直相对强劲,直到 2017 年中旬之前的 18 个月中最近的量化回撤,此时至少有一个规模可观的量化基金已经关闭,几家知名的多管理公司已经关闭了他们的量化账本。与此同时,许多替代 Alpha 都很好地预测了回报。最近的表现不佳可能是由于最近在常见量化因子中的拥挤情况,部分是由于量化基金的增加,他们在过去十年相对于自由裁量型经理的表现良好,以及智能贝塔产品的兴起。一个明显的处方似乎是让经理们多样化他们的 Alpha 来源。

今天有如此多的数据可用 - 其中大部分在 2007 年还不可用 - 顶级投资经理人明显倾向于采用替代数据,但许多经理人的投资组合仍然主要由经典的、可能是拥挤的因素主导。

最有前瞻性的量化基金经理人通过与系统性投资组合经理的广泛对话,积极地追求替代数据。

然而,大多数量化管理者仍然依赖于他们一直以来使用的相同因素,尽管他们可能更加关注风险、拥挤和流动性来进行交易。关于我们目前处于采用曲线的哪个点的可能解释有几种。其中最主要的是,弄清楚哪些数据集是有用的是困难的,将它们转化为 Alpha 也是困难的。

换句话说,截至撰写本文时,替代数据还没有“跨过鸿沟”。 Moore(1991)从创新技术供应商的角度详细描述了产品的生命周期 - 指出采用周期最困难的部分是从有远见的“早期采用者”转向更加务实的“早期主流”采用者,后者在采用新技术时更为风险规避(图 4.1)。

这个概念在科技初创公司中广为人知,但在机构投资领域并未广泛思考 - 但它同样适用。对于替代数据参与者来说,我们目前正处于采用的早期阶段,但可能已接近早期阶段的尾声 - 就在深渊的边缘。格林威治联合公司(McPartland 2017)的一项调查指出,80%的买方受访者希望将替代数据作为其流程的一部分。根据我们的经验,相对较少的公司取得了重大进展,尽管人数仍在增长。早期采用者往往是那些已经特别精通数据且拥有实验新数据集资源的量化基金管理公司。

关于替代数据的新闻报道可能会误导且充满炒作。仅有极少数资产管理规模达数万亿美元的基金所获收益可能受到先进的机器学习技术驱动(Willmer 2017)。真正基于人工智能的基金非常少,不足以判断这些技术是否导致超额表现(Eurekahedge 2017)。目前还不清楚,例如利用卫星图像统计沃尔玛停车场汽车数量等方法中是否存在可扩展的 alpha(Hope 2016)。

因此,尽管数据和量化技术目前比量化风暴时期更普遍,但采用情况仍然落后于炒作。一些基金经理对替代数据集的拥挤感表达了担忧,但至少根据截至目前的采用合理估计,这些担忧目前尚未成立。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

也许还有些人对未采用替代数据的公司持观望态度,他们希望价值、动量和均值回归并没有受到很多关注,或者他们对这些因素的理解有足够的差异化 - 在没有关于竞争对手更好信息的情况下,这将是一种大胆的赌注。同样,2017 年市场上量化交易员和量化基金的数量比 2007 年多得多,跨越了更多地理位置和风格,因此某些机构记忆已经褪色。

可能存在一种行为解释:群体行为。与主要投资于最大基金的配置者一样,尽管相对于新兴基金,大基金的表现不佳,或者与群体一起调整预测以避免大胆但可能错误的判断的卖方研究分析师一样,也许基金经理更喜欢在同一时间证明他们的赌注与竞争对手的赌注一样错误。在所有上述情况中,利益相关者不能因为许多同行已经做出的决定而责怪群体行为者。对一些经理来说,这可能比采用一种创新但具有短期记录并且可能更难向配置者或内部官僚机构解释的替代数据策略更好。

无论出于何种理由,似乎很明显,2017 年比 2007 年更有可能发生另一次量化震荡。具体机制可能不同,但在这些竞争激烈的市场中,由拥挤性驱动的清算事件似乎非常可能发生。

4.3 利用替代数据爆炸

通过与基金经理的许多对话,我们观察到他们通常在与数据提供商联系和通过供应商管理评估过程方面变得更加擅长。越来越多的大型基金拥有数据采集团队。许多这些团队在评估数据集方面还不够高效,即在其中找到 alpha。

一些提高效率的可能处方包括:

  1. 研究资源专门分配给新数据集,为评估每个数据集设定明确的时间范围(比如 4-6 周),然后就数据集的附加价值有无做出明确决定。这需要保持新数据集的流水线,并坚持一个时间表和一个流程。

  2. 建立一个即插即用的回测环境,可以高效评估新的 alpha 并确定它们对现有流程的潜在附加价值。在测试数据集时总会涉及创造力,但更乏味的数据处理、评估和报告方面可以自动化以加快(1)中的流程。

  3. 指定一位经验丰富的量化分析师负责评估新数据集 - 一个曾经看过许多 alpha 因子的人,可以思考当前的因子可能与之前的因子有何相似或不同。替代数据评估应被视为任何系统基金的核心能力。

  4. 增加对创新数据供应商的接触,而不是从大数据提供商那里获得的产品,后者更难被认为是真正的替代品。

  5. 优先考虑相对容易测试的数据集,以加快对替代 Alpha 的接触。更复杂、原始或非结构化的数据集确实可以带来更多的分散化和更独特的实现,但这可能会延长已有因素的持有时间,因此如果对替代数据还不熟悉,最好从一些低 hanging fruit 开始。

  6. 更加熟悉我们经常在替代数据集中看到的有限历史长度。对于许多新的数据集,人们是在短期历史的基础上进行决策的。我们不能像对传统因子进行 20 年回测那样来评判这些数据集,既因为早期数据根本不存在,又因为 20 年前的世界与今天拥挤的量化空间几乎没有关系。但是,不评估这些数据集可能被认为是更加冒险的。

下面,我们将讨论一些用于考虑有限历史的技术。将替代数据转化为交易策略的过程并不简单。此外,它与投资组合经理的核心活动竞争,包括日常投资组合管理、资本筹集和不断增加的合规负担。但是通过仔细的规划,可以在用于评估传统数据集(如定价或基本面)的现有框架之上构建替代数据策略。这对量化基金经理尤为真实。

4.4 选择用于评估的数据源

在此,我们将在量化股票流程的背景下检查选择评估数据的一些问题。

首先,必须收集数据,或从数据提供者那里获取数据。除非拥有大量资源,否则大多数基金不会在直接数据收集上花费大量资本。即使与数据供应商合作也需要专门的资源,考虑到当今提供者数量的激增。

对于大多数经理来说,一开始不清楚哪些提供商的数据集具有投资价值。大多数数据提供商没有能力以与顶级从业者方法一致的方式严格回测自己的数据或信号。许多供应商回测忽略交易成本;在一个不切实际的宇宙中进行回测,其中非流动性资产推动收益;将等权重投资组合与资本化加权基准进行比较;仅使用当前指数成分股或当前上市的股票;不是时间点;或不考虑持仓的风险敞口。当然,供应商的回测很少显示出糟糕的表现,因此它们经常受到怀疑。因此,供应商评估通常是内部流程。

最少应该具有足够的历史和广度的数据集;应该可以将数据转换为类似时点的东西;并且应该标记或可标记到证券。传统的量化回测技术往往对资产覆盖范围窄于几百个资产,历史长度短于三年的数据集效果较差,特别是如果数据集用于预测季度基本面数据。

一旦选择了供应商进行评估,就需要仔细检查他们的数据集。因为其中许多数据是由在资本市场经验有限的供应商收集的,它们可能不是为了易于消费或回测而设计的。

例如,记录可能没有标记到安全标识符,或者它们可能仅标记到一个非唯一的标识符,比如一个股票代码。历史可能相对较短,特别是如果数据集基于移动或社交媒体活动,而且较旧的年份可能不代表当前技术使用的状态。它们可能表现出幸存者偏差,尤其是如果数据是回填的,供应商数据集很少真正是时点的。提供的时间戳可能不准确,可能需要进行验证。

这些数据集没有像彭博、FactSet 和汤姆逊路透等大型数据供应商提供的那样被彻底检查过。因此,数据错误和间隙更有可能发生。

典型情况下,对这类数据集的学术研究不多,因此必须自己提出假设,说明这些数据集可能具有预测性或有用性,而不是利用已发表的或工作论文。在某些情况下,卖方研究团队可能会研究更知名的数据提供者的数据集。

数据集可以处于“信号”形式,换句话说,处理到可以轻松纳入多因子量化过程的程度。信号通常更容易测试和解释,但它们的使用实际上涉及投资组合经理向供应商外包研究。因此,评估供应商的资历以及模型构建的严谨性至关重要。更多时候,数据以相对原始的形式提供,这样可以提供更大的灵活性,但显著增加了评估数据有效性所需的时间。许多较大的量化基金会更喜欢原始数据,而资源较少的量化人员或非量化管理者可能会满意信号产品,尽管这两个说法都有例外。

大多数另类数据集根本没有投资价值,或者它们的价值自然受到限制。这些数据集通常听起来直观吸引人,但可能缺乏广度;例如,最近出现了许多供应商,他们使用卫星图像来统计美国大型零售商停车场中的汽车数量,或者评估油箱的内容。然而,这些信息可能相关的资产总数自然有限。

作为另一个例子,捕捉在线活动情绪的数据集,也许是我们现在认为的另类数据的最早形式,已经爆炸式增长,有许多供应商,其中大多数从 Twitter 挖掘情绪。除了 Twitter 包含大量噪音的明显观察外,一些关于微博情绪的实证研究表明,这些信号的预测能力不会持续超过几天,因此很难纳入可扩展的投资策略中(Granholm 和 Gustafsson 2017)。

最后,应该至少制定一个关于为什么可能在数据集中找到价值的一般假设,无论这个价值来自于预测股价、波动性、基本面还是其他内容。

4.5 评估技术

对于量化经理,另类数据集的评估过程可能与评估基本面等非另类数据时使用的过程非常相似。

人们可以为数据中的某些内容预测回报 - 或者收益,或者投资者关心的其他内容 - 制定假设,并制定一组公式,以便对这些假设进行样本内测试。如果数据结构化并具有悠久历史,这一点尤为重要。然后可以在回测或事件研究中测试这些公式的预测能力,考虑到风险敞口和交易成本;在样本内环境中进行优化,或者简单选择,以生成尽可能强大的单变量预测;根据现有情况检查(通常非另类)预测因子的独特性和对更广泛策略的贡献;然后,假设结果直观、稳健且独特,进行样本外验证。

前面段落中的内容与大多数量化股票组合经理在评估传统数据集时所做的事情并无不同。尽管机器学习和人工智能经常与另类数据一起提及,但在数据有一定结构的情况下往往不必使用这些技术,这样做可能会导致结果不如预期那样直观 - 尤其是在不太熟悉这些技术的研究人员手中。

但在某些情况下,替代数据集具有使该过程某些部分更加困难的特征。例如,非结构化数据或具有更有限历史的数据可能需要新的处理数据和创建公式的方法。最常见的例子是情感分析,其细节超出了本章的范围,但它涉及使用自然语言处理或其他机器学习技术将人类生成的文本或语音信息压缩为乐观或悲观的度量,然后相对容易将其汇总到资产级别。

一些替代数据集可能未经过良好的标记,如 CUSIP、SEDOL 和 ISIN 等强大的安全标识。许多数据供应商从股票代码开始标记,但股票代码可能会更改并且可以被重复使用。而一些更原始的数据集仅通过公司或实体名称进行标记。对于这些数据,需要构建一种健壮的公司名称匹配技术,以适当考虑缩写、拼写错误等因素。一旦构建完成,这些工具可以应用于多个数据集。

许多替代数据集没有清晰的时间戳,指示数据在历史上何时可用,因此使得回测困难。

常常唯一的解决方案是观察供应商收集数据的时间,并评估提供的日期。

如前所述,任何使用替代数据集的人最终都会遇到一个否则具有吸引力的数据集,其历史数据可用性不及人们所希望的多。短期历史具有几个含义:

  1. 历史可能不涵盖多种不同的宏观经济环境,例如高波动性和低波动性时期。

  2. 数据较少时,回测结果自然会更嘈杂,并且无法像使用更长的历史数据那样以相同的健壮性进行细分(比如按部门)。

  3. 传统的样本内和样本外技术,例如使用前 10 年进行样本内和剩余的 5 年进行样本外,可能不适用。对于第一个问题并没有太多的解决方案,但可以在一定程度上解决第二和第三个问题。

短期回测具有噪声,因为股票价格是嘈杂的。对于一天或更长时间的预测,这一点尤为真实,而这些时间长度是大型机构投资者最感兴趣的。解决这个问题的一个非常直观的方法 - 以及与特定行业数据集的交叉覆盖范围过窄的相关问题 - 是建立对股票价格或回报而非更基本的东西的预测,例如收入或收入,或这些值的简单衍生物,例如盈利惊喜或收入增长。由于资产波动性 - 可能受情绪和外生冲击驱动 - 在长期内超过收益波动性,基本预测往往比资产价格预测更稳定。

因此,一个潜在的可能性是,可以利用相对较短的历史建立对基本价值的稳健预测。

基本预测在学术文献中并不新鲜。例如,一篇着名的论文(Sloan 1996)表明,由应计驱动的收益比由现金流驱动的收益不那么持久,并且不同的持久性随后反映在股价中。 20 世纪 90 年代末和 21 世纪初的研究还表明,个别分析师有不同的能力进行盈利预测,这些差异可以转化为交易策略(Mozes and Jha 2001)。对盈利预测的这项工作最近已扩展到 Estimize 收集的众包盈利估计的替代数据集(Drogen and Jha 2013)。

当然,使基本预测在投资组合管理环境中有用的前提是,准确预测基本面会导致超越的投资组合,换句话说,市场关心基本面。尽管证据表明长期来看这是正确的,但并不时有市场条件,其中资产价格主要受其他效应驱动。在过去几年中我们已经多次看到这种情况,包括全球金融危机后的“风险偏好”行情以及 2016 年期间,股票价格受到关于宏观事件的预期变化的影响,如英国退欧和美国总统选举。识别这些环境正在发生时可以帮助使基本预测更加稳健。

资产波动本身倾向于相当稳定,因此,使用有限历史的替代数据集的一个相对不引人注目的应用是改善波动率预测。本章稍后将探讨一个这样的例子。

样本内和样本外的方法可能必须更改以考虑较短的历史和不断发展的量化景观。例如,可以在样本内和样本外月份之间交替,从而允许回测包含更近期的样本内日期,衡量因子在当前市场条件下的表现如何,并确保任何历史数据长度的样本内和样本外周期之间的类似分布。必须非常谨慎地处理这种方法,以避免从样本内泄漏到样本外,并避免季节性偏差。

另一个考虑因素是,许多源自替代数据的 alpha,特别是那些基于情绪的 alpha,与其拥挤的同行相比,其时间跨度相对较短;alpha 的时间跨度通常在一天到两个月的范围内。对于管理大量资产的,不能太灵活地移动资本的资产管理人员,可以以非传统的方式使用这些更快速的新 alpha,例如确定更好的长期交易进出点(Jha 2016) - 或者将它们分开在更快的交易账簿中进行交易 - 可以让他们利用这些数据集改变策略。我们观察到,随着运行较低夏普比书籍的量化人员试图提高回报,对中期视野的收敛正在发生。

同时更高频率的量化人员寻找额外的容量,使得区分中期 alpha 的需求更加迫切。

在评估基于事件的替代数据时 - 例如,来自网络的众包预测集合,或者与通常的收益意外、合并等不同的公司事件数据集 - 事件研究可以是一种极其有用的技术。典型的事件研究涉及跟踪事件前后资产回报的情况。这些研究可以展示一个事件是否在大幅回报之前或之后发生,当然,但它们也可以告诉你这些回报实现的时间跨度,这将让研究人员了解事件是否可以在短期或长期 alpha 生成的背景下使用,以及在对新事件做出反应时需要多快行动。还可以沿着许多维度将事件分区:

对大盘和小盘股票的事件,或者在收益周期的不同时期,或者由不同类型的预测者产生的事件,例如,可能会产生不同的结果。最后,可以对资产回报进行残差化处理,即控制对共同风险因素的暴露,从而使研究人员能够确定其在事件发生后看到的任何超额表现是否是事件数据集内在投注的结果,例如小盘股或动量偏差。

上述可能的调整可以解释部分替代数据的特殊性,但基本的定量研究原则仍然相关:应该建立直观因素的时间点数据库,并在精心设计的样本内期间内进行严格测试,同时考虑风险和交易成本。

4.6 基金经理的替代数据

尽管量化基金,尤其是系统性对冲基金,一直是替代数据的早期采用者,但自由裁量和基本管理者也开始接受替代数据。这种转向“量化基本”投资反映了市场上其他一些趋势,包括资金流向量化策略,远离股票多空策略,以及机械“智能β”或风险溢价投资风格的更大接受度。

量化基本法采用多种形式,包括传统量化技术的使用增长,如回测、风险管理和基于基本分析的投资组合中的投资组合归因。在这里,我们将主要关注自由裁量分析师和投资组合经理对替代数据的采用。

量化基础的增加意味着以前在数据科学方面经验有限的基金将需要了解一些定量研究的基本原理。挑战在于将这些广泛的数据驱动方法与一直强调深度而不是广度的投资哲学相协调。格林奥尔德(1989 年)在《主动管理的基本法则》中捕捉了这一区别:

I R = I C ∗ N IR=IC*{\sqrt{N}} IR=ICN

在这里,经理的信息比率(IR),即其风险调整后的主动回报的衡量标准,被显示为两个因素的函数:

  • 信息系数(IC),即经理预测与随后实现回报之间的相关性;一种技能的度量。

  • 独立下注的数量(N);一种广度的度量。

简单地说,自由裁量管理者关注信息系数,而量化管理者关注广度;量化策略可以在许多资产上复制,但很少对任何特定交易提供高度信心,而基本分析师理论上可以通过深入研究提供高但不可扩展的信息系数。

因此,基本经理们使用替代数据的一种方式是,即使不增加总下注数量,也能更深入地了解一家公司。通常由个别分析师决定新数据是否有助于提供这样的见解。因为数据不需要在许多股票或自动摄入中广泛或非常高效地产生,所以通常以报告的形式提供,这些报告可能包含特定于行业的信息。

这可能是基本分析师使用替代数据的最简单方法,只能被宽松地视为量化基础。

数据采用曲线上进一步的一点,一些基本团队正在通过设计用于提供可视化、筛选和有关替代数据集的警报的用户界面(UI)摄取数据。例如,基本投资组合经理可以将其监视列表输入到这样的工具中,并寻找最近的消费者或社交媒体行为趋势表明即将出现的问题的股票,这将通知位置大小,或者分析师可能希望筛选由这些数据集驱动的交易想法。这些 UI 工具可以很好地融入基本投资组合经理或分析师的工作流程中,历来以彭博终端和 Excel 模型为主。

最后,一些基金团队最近引入了团队来管理供应商关系,并在内部提供数据科学工具。这些工具可以包括与上述类似的可视化,但它们也可以包括利用新数据集创建股票排名和评分的量化模型的开发。一些资产管理者多年来一直有量化团队担任这一角色,使用传统数据,但在股票多空对冲基金领域相对较新。

在这两种情况下的一个挑战是让投资组合经理和分析师关注数据科学团队生成的内部产品。基本用户可能不完全赞成量化方法,也可能不希望量化流程在很大程度上决定他们的决策。因此,经理可能更愿意与基本团队合作设计量化方法,考虑到他们的愿望、反馈和工作流程,保持数据科学团队与基本团队之间的持续协调。

另一个问题是,基本团队通常对样本大小、回测、鲁棒性等微妙问题不太熟悉。由于他们依赖 IC 而不是 N,基本投资组合经理和分析师寻求高信心的信息,但资本市场中的经验证据很少能提供这种程度的信心。量化赌注可能大部分时间都是错误的,但平均上仍然能赚钱,但一次错误的赌注可能会让基本分析师对量化技术产生厌恶。

在这里,没有什么比继续学习量化技术来增加熟悉度更好的替代品。

从实际角度来看,新的定量基本团队实际上也将不得不修改他们使用的工具。历史上,自主管理者的工作流程依赖于一些书面报告、Excel 模型和彭博终端的混合。传统的量化过程不使用这些工具之一;而是依赖数据源。新的定量和替代数据源将必须通过可视化、筛选和电子邮件警报等前述的工作流程工具交付给基本团队,这将促进更广泛的采用,而定量基本团队将需要将注意力从典型的工具转移到最佳利用新数据集的工具上。

4.7 一些例子

在这里,我们通过四个例子来使用替代数据生成信号,该信号可以用于投资组合管理过程。虽然在某些情况下,信号生成的细节可能有些专有,但我们希望提供足够的信息来激发对其他数据集的研究。

4.7.1 示例 1:博主情绪

我们从分析由 TipRanks 提供的金融博客数据集开始。TipRanks 收集来自各种来源的在线建议,包括新闻文章和几个金融博客网站。它的专有自然语言处理算法是通过对一组文章进行手动分类进行训练的,并用于为每篇文章生成情绪。特别是,该算法将文章分类为看涨 vs 看跌(或买入 vs 卖出)。无法以高度自信分类的文章将被发送回给人类读者进行分类,并在未来更好地训练算法。

新闻文章包括卖方分析师的看涨或看跌评论,这些评论通常与分析师的买入和卖出建议重复,而这些建议已经包含在数据供应商(如汤姆森路透和 FactSet)提供的广泛使用的结构化数据集中。因此,在这里,我们关注金融博客这一较不为人知的数据源。金融博客的内容(例如 Seeking Alpha 和 Motley Fool)与微博(例如 Twitter)不同,它们通常包含长篇文章,并对公司的业务和前景进行重要分析;因此,它们更像卖方研究报告,而不像微博帖子或新闻文章。

我们开始我们的研究,通过事件研究来了解在被分类为买入或卖出的博客文章发布之前和之后的股价行为。我们可以以多种方式划分我们的数据,但样本内最重要的发现似乎是某些博客网站包含具有预测价值的文章,而其他网站则没有。这可能是由于各个网站的编辑标准不同所致。在具有预测价值的网站中,我们看到类似于图 4.2 中的事件研究围绕发布日期。

请注意,在这里我们绘制的是平均累积残差收益,即控制行业和风险因素的收益,作为文章发布日期前后交易日的函数。从图表中可以看出,发布当天存在很大的影响,这可能是文章对市场和文章发布可能与重大公司事件同时发生的事实。我们还看到了一个很大的上涨效应,即买入文章通常在价格上涨之前出现,而卖出文章通常在价格下跌之前出现。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们还看到文章发布后几周预期方向的持续漂移,与文章作者继续推动市场和/或他们预测未来价格走势的能力一致。

我们可以将这些买入和卖出信号包装成一个简单的股票评分算法,自 2010 年末以来每天评分超过 2000 只美国股票。由 TipRanks 和 ExtractAlpha 合作构建的 TRESS 算法采取的方法是直接的,涉及对给定股票的最近文章级买入或卖出(+1 或−1)信号的总和进行加权,加权系数为自文章发布以来的天数。这样,得分最高的股票是最近有买入推荐的股票,得分最低的股票是最近有卖出推荐的股票。为了使具有许多推荐的股票(通常是较大或更受欢迎的股票)与推荐较少的股票具有可比性,我们按该股票的博客文章频率进行缩放。

金融博客通常针对个人投资者和交易者的观众,他们持有集中的长期投资组合,通常寻找买入建议而不是卖出建议。因此,约 85%的博客推荐最终被归类为买入。这意味着一旦我们按股票级别汇总,我们最终得到的净卖出情绪占多数博客的股票相对较少。

话虽如此,我们发现当大多数博客看跌时,股票往往表现不佳,如图 4.3 所示。该图绘制了得分较低(TRESS 值为 1–10)的股票与得分较高(TRESS 值为 91–100)的股票的平均年化收益率,因此,卖出或做空信号很少,但具有很强的影响力。

低 TRESS 分数和高 TRESS 分数之间的表现差异在时间上保持一致,包括样本内期间(至 2013 年中期结束),go-live 日期(2014 年末)及随后三年的实时数据(图 4.4)。这表明,金融博客情绪是回报的一致预测因子。有许多方法来切分这种绩效以证明其鲁棒性,但是一个简单的长/空头投资组合,每天重新平衡一次,由得分为 91-100 的股票的多头部分和得分为 1-10 的股票的空头部分组成,是一个方便的视觉工具。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这种情况下,我们绘制了考虑交易成本之前的回报,但受到市值最低要求(1 亿美元)、平均每日美元交易量(100 万美元)和名义价格(4 美元)的限制。每个投资组合的日换手率约为各自的 6%,因此这些结果应该能够经受住合理的交易成本假设。

4.7.2 示例 2:在线消费者需求

上述示例探讨了中介情绪的另一种来源的预测能力:

  • 在这种情况下是博客作者。

  • 他们可能对公司的基本面有所了解。一些替代数据集更直接地关注公司基本面的替代品,例如面板交易数据。

  • 我们在下面的第 3 项中展示了一个例子。在这两个极端之间,我们可以研究能够为我们提供消费者偏好洞察的数据。基于网络的需求数据可以帮助提供这些洞察。

随着越来越多的时间花在线上,消费者不仅仅在网上购买产品,他们还在做购买决策之前对这些产品进行研究。这对零售消费者和企业对企业(B2B)买家都是真实的。因此,公司产品的需求可以通过公司的网络存在所受到的关注度来近似。尽管关注度可能是一个负面的标志(如丑闻案例),但文献表明,总体上更多的关注对公司的前景是有好处的。

这种类型的关注数据在数字营销领域已经被使用了一段时间,但是对于股票选择模型来说还比较新颖。在这里,我们研究了 alpha-DNA 收集的一个数据集,他们是数字需求数据的专家。alpha-DNA 数据集包括三个类别的关注度测量:

  • 网络搜索:消费者是否通过搜索引擎在线搜索公司的品牌和产品?

  • 网站:消费者是否访问公司的各个网站?

  • 社交媒体:消费者是否通过赞、关注等方式表达他们对公司的各种社交媒体页面的关注?

为了将相关术语和属性映射到公司级别,alpha-DNA 维护一个数字局,这是一个每个公司的品牌和产品名称、网站和社交媒体句柄的不断发展的数据库。(图 4.5)。这项分析所需的大部分前期工作都在生成这个数字局。

alpha-DNA 已开发出一套专有的评分系统,用于排名大约 2000 家公司在数字平台(网站、搜索、社交)和消费者效益(渗透率、参与度、受欢迎程度)上的整体表现强度。排名每天进行一次,历史数据始于 2012 年。使用“民意调查”的方法,将来自多个数据集的许多不同数字维度组合起来,以创建加权绩效评分。

使用这种民意调查的民意调查,针对每家公司建立相对于其同行的数字实力指标。alpha-DNA 的数字收入信号(DRS),与 ExtractAlpha 合作建立,衡量这种数字实力,将其作为预测收入意外的函数;当消费者需求增加时,公司更有可能超过其销售方一致的收入目标,当消费者需求减少时,公司更有可能未能达到目标。因此,得分较高的 DRS 股票往往表现出正面的收入意外以及正面的收入增长。在图 4.6 中,我们绘制了按 DRS 十分位划分的股票击败其收入目标的百分比,根据上述用于 TRESS 的相同宇宙约束(并且在撰写时,alpha-DNA 没有收集金融股票的数据)显示了 2012 年至 2015 年的组合内外样本期间,并显示自 DRS 推出以来的每个后续季度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

显然,人们可以定期使用嵌入在 DRS 中的数字需求数据来预测收入意外。正如人们所预期的那样,该预测也导致使用 DRS 构建的盈利组合。在图 4.7 中,我们绘制了基于 DRS 的投资组合的累积回报,使用了上面用于 TRESS 的相同技术。

收益率年化为 11.4%,夏普比率为 1.64。进一步观察发现,结果在宇宙的资本范围和大多数其他合理的横截面切片中保持一致。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

,轻松应对交易成本和各种再平衡规则,鉴于每日成交量与 TRESS 相似,每天每边 6%。因此,似乎准确的收入意外预测,本例中基于在线另类数据集的组合,产生了一种潜在的盈利投资策略。

4.7.3 示例 3:交易数据

美国早期使用的另类数据的早期示例之一是信用卡交易数据。这些数据集用于提前了解行业的收入情况,而不是企业发布收入公告。随着中国消费者活动的增加,人们意识到,在世界人口最多的经济体中,无论这些公司的总部和上市地点在哪里,交易数据都可能对拥有大量中国客户群的公司的收入具有信息价值。

檀香顾问是第一个专注于中国消费者市场的替代数据平台。该公司已经收集了几个捕捉中国内地零售交易的独特高价值数据集。在这项研究中,我们关注其中一个数据集,来自中国最大的企业对消费者(B2C)电子商务网站天猫网,截至 2016 年占据了 57%的市场份额。中国和国际消费品生产商利用天猫来进入中国消费者市场。在天猫上有各种各样的产品可供销售,包括服装、鞋类、家电和电子产品。外国公司必须符合严格的要求——特别是年度收入的最低金额——才能够在天猫上列出其产品。

在这项研究中,我们对天猫数据中的公司级指标进行了检验,该数据每月收集一次,滞后五个工作日。基础数据包括每月人民币总销售额和销售的单位数量。我们能够将天猫数据映射到五个市场中交易的 250 只流动性证券上:中国、香港、日本、韩国和美国。天猫历史数据的长度有些有限,跨越了 2016 年 3 月至 2017 年 6 月。

我们检验了一个非常简单的α值,即逐月销售额的变化。这个指标允许我们对天猫数据集中的任何股票进行评分,但由于公司在平台上增加或减少销售努力、促销活动导致的跳跃、汇率波动对可能具有不同国际风险的股票的影响以及可能会影响每只股票销售的季节性效应,因此存在一些噪音。

另一种表述方式是查看市场份额的月度变化。

对于每个类别,我们可以计算特定品牌与其他所有公司的市场份额的比例,无论我们是否能够将这些公司映射到流动的公共股权(例如,私人公司)。然后,我们可以按照该类别对公司整体来自天猫的收入的贡献加权聚合市场份额。这可能是一个比月度销售变化更清晰的指标,但也有一些缺点。公司的收入分配可能不反映其在天猫上的收入分配,而且,也许最重要的是,我们尚未为所有公司映射到类别级别的数据,因此我们的样本量对于这一指标来说太低了,因此我们将市场份额分析留给未来的研究。

在我们早些时候关于查看短期历史数据以预测基本面的评论之后,我们首先观察到,月度天猫营收增长低于−10%的股票的实际报告季度增长率(1.8%)低于月度天猫营收增长率高于 10%的股票(6.1%)。这一分析表明,天猫数据集代表了公司的收入。

然后,我们按照之前的方法,从月销售增长构建做多-做空组合,这基本上导致了一种月度换手率策略(尽管我们是每日重新平衡的)。我们独立地看待每个地区:美国、中国和发达亚洲 - 在这种情况下,发达亚洲指的是香港、日本和韩国。我们使用每个市场的本地货币回报。由于与早期模型示例相比,每个地区内的数据相对稀疏,我们将数据分成了三等份(而不是十等份),简单地做多了地区内排名前三分之一的股票并做空了排名最后三分之一的股票。结果是每个地区的投资组合仍然相当集中。

在图 4.8 中,我们展示了每个地区内的累积回报,然后展示了一个简单的全球投资组合,该组合在三个地区均匀分配资金,并显示了这样做时风险调整后回报的分散效益。

这些结果的低成本性值得注意,因为交易成本 - 在美国和日本较低,并且中国 A 股的交易成本已经大幅下降 - 在香港和韩国仍然相对较高,原因是有印花税和证券交易税。此外,我们在这里假设了一个做多-做空的投资组合,尤其是在中国股市中,股票借贷可能受到限制或昂贵。但我们确实看到排名靠前的股票在整个股票市场中表现优异,这表明仅在做多方面有用。

尽管我们构建的度量标准的简单性质,但这些结果仍然非常令人鼓舞。虽然这些数据集的历史长度和横截面覆盖范围都有些有限,但它们背后的明确直觉以及中国的在线购物对全球零售业务日益重要,却很少受到投资者的关注,这意味着它们值得深思熟虑。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4.7.4 示例 4:ESG

尽管环境、社会和治理(ESG)投资正在增长,但大多数捕捉 ESG 的技术使用简单的指标,如剥离能源公司或关注董事会多样性。ESG 投资者通常不是数据驱动或系统化的,尽管有大量关于公司可持续性和负责任行为的数据。

一些最近的研究已经开始揭示一些 ESG 数据集和回报之间的关系仍然相当混乱。一个可能引人注目的替代方向是使用 ESG 因素进行风险管理。在这里,我们借鉴了 Dunn 等人(2017 年)的做法,并使用一种针对金融服务部门的新型数据集来衡量风险。

美国消费者金融保护局(CFPB)是在全球金融危机之后成立的,旨在加强对信用卡和抵押贷款发行商等金融服务提供商的监督。 CFPB 维护着一个每天更新的消费者投诉数据库,其中记录了与零售金融服务相关的消费者投诉,并为金融服务提供商提供了回应投诉的平台。 投诉数据可以从 CFPB 免费获取,但需要一些工作来使其在量化背景下可用。 与许多政府数据来源一样,数据格式随时间改变,数据没有标记为安全标识符。 因此,我们使用专有的模糊名称匹配算法,考虑拼写错误、缩写(如“Inc.”和“Corp.”)、公司名称随时间变化以及公司名称中单词的相对唯一性,将 CFPB 提供的公司名称映射到主公司名称数据集,然后再映射到常见的安全标识符,如 CUSIP。

然后,我们有一个数据库,其中包含约 100 家上市金融服务公司,每年有 48000 个投诉,数据始于 2011 年。

数据集非常丰富,包括收到投诉的日期、它所涉及的特定产品(例如借记卡、学生贷款)、公司是否及时回应投诉以及该回应是否被争议。 投诉的文本也包括在内。

我们的假设是,相对投诉较多的公司面临更大的业务风险,要么是因为他们疏远了客户,要么是因为他们更有可能受到惩罚性的监管行动。 在这些关乎生存的风险最终被投资者知晓时,它们应该也会影响股票的波动性。

为了简单起见,在这里我们仅计算了在给定时间段内与每个证券相关的投诉数量。 当然,金融产品的大型发行者通常会收到更多的投诉,因此我们仅仅取得前一年内的投诉数量 - 保持一个季度的滞后以确保历史数据的可用性 - 并按市值比例进行缩放。 然后我们取反,以便得分较高的股票是相对投诉较少的股票。

我们首先进行了一个快速测试,以查看我们的投诉计数是否预测了回报,使用与之前相同的方法论(表 4.2)。 这里我们使用五分位组合而不是十分位组合,因为 CFPB 的横截面覆盖范围较少。

与先前数据集相关的数据。 2014 年之前的数据太稀疏,无法使我们在我们的流动宇宙内创建健壮的五分位组合,因此我们在 2014 年初至 2017 年中建立了组合。

我们可以看到一些证据表明,投诉较少的公司确实表现优异,基于这些数据的策略在交易成本上不会受到重大影响,考虑到我们制定的慢速性质,但结果在时间上并不一致,并且在很大程度上受到 2016 年的日历影响。当评估既有有限横截面覆盖又有限历史的数据集时,此类非稳健结果很常见,因为评估参数(例如分位数数量、宇宙选择和交易参数)的轻微变化可能会导致由于样本量较小而导致结果发生较大变化。尽管回报效果值得进一步研究,但我们现在转而衡量投诉数据是否能告诉我们有关风险的信息,我们可能期望得到更稳健的结果。

我们通过查看五分位数的共同风险因素的平均暴露来检查我们的度量的一般风险特征(这些因素被缩放为均值 0 和标准差 1)(表 4.3)。

我们可以看到,投诉最多的公司往往更具波动性和更高的杠杆,并且它们的股息收益率较低。因此,我们需要确定投诉是否解释了超出我们通过查看这些标准风险因素所知道的风险。

数量
分组公司天数/事件数年度收益率 (%)年度夏普比率
总体719036.200.5
201460248−3.30−0.29
2015722522.000.15
20167625228.102.31
201779151−7.60−0.53
收益率波动性动量规模价值
抱怨较少(0.09)(0.55)-0.53
2(0.05)(0.40)0.020.67
30.04(0.33)(0.13)0.75
4(0.10)(0.27)(0.03)1.77
抱怨较多(0.27)(0.15)0.030.64

我们首先通过投诉量五分位数来检查股价波动性,该投诉量是在我们计算投诉后的一个月内衡量的。我们用两种方式衡量波动性:

  • 每日股票收益的标准偏差。

  • 残差化每日股票收益的标准偏差,其中每天的收益在横截面上回归到行业和共同风险因素,仅留下特有的回报。

残余收益波动性应该告诉我们,投诉数据告诉我们关于未来风险的程度,这些风险不能通过常见风险因素解释,包括股票自身的历史波动性。对于这两个指标,我们每个月将它们百分位化,以考虑市场整体波动性随时间的变化。

我们可以在图 4.9 中看到,相对于其市值而言,投诉较少的股票未来的波动性较低,即使在控制已知风险因素的情况下也是如此。这种效应比我们之前用基于回报的指标看到的更加一致。

最后,我们还可以使用回归方法来解释回报波动性的横截面,使用我们的基本风险因素,然后再添加我们的投诉因素。在这里,更高的值意味着更多的投诉,所以如果经历更多投诉的公司更加风险,我们期望在投诉变量上看到正的系数(表 4.4)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基线有投诉
参数参数
估计t 值Pr >t估计t 值
截距0.020101.81<0.00010.01992.24<0.0001
波动性0.00834.38<0.00010.00728.91<0.0001
规模(0.000)(5.23)<0.0001(0.000)(5.15)<0.0001
0.0014.00<0.00010.0015.40<0.0001
增长(0.000)(0.03)0.980.0000.100.92
杠杆(0.000)(0.33)0.74(0.000)(1.70)0.09
动量(0.000)(2.70)0.01(0.000)(0.75)0.45
收益率(0.000)(1.69)0.09(0.000)(1.90)0.06
投诉0.0038.86<0.0001
调整 R 平方0.3500.363

尽管在第二次回归中,历史波动率(未来波动率的最佳预测因子)与投诉之间的上述相关性表现为历史波动率的系数较低,但在第二次回归中,投诉因子非常显著,T 值为 8.86,并且回归展现出比基准回归更高的调整 R 平方。换句话说,投诉为未来风险提供了独特的、增量的解释力量,超越了传统基本风险模型。

我们可以按年份重复这个练习,我们看到每年投诉因子在 3%或更好水平上都是显著的,所有年份中的调整后的 R 平方有所增加(表 4.5)。

ESG 增强型风险模型可以用多种方式。新因子可以作为优化过程中的约束条件,以在组合水平上减轻 ESG 风险;可以监测组合和股票水平的 ESG 风险;可以测量相对于 ESG 因子的残差回报,用于例如,均值回归股票选择模型。这些探索性结果表明,非传统 ESG 数据集可以帮助管理者构建更智能的模型,以衡量和减轻风险。

基准模型加入投诉
年份调整 R 平方调整 R 平方t 值Pr>
20140.2940.3175.00<0.0001
20150.3970.4002.220.03
20160.3860.4096.06<0.0001
20170.3490.3643.470.00

4.8 结论

在量化风波之后的几年里,数据驱动的投资迅速增长。

在量化和自主分析领域,具有前瞻性的投资者已经开始在其决策过程中使用替代数据集,尽管主流市场还有很大的采用空间。资产管理者正在努力寻找最佳的替代数据采用方法,并找到合适的数据集来帮助他们的 alpha、基本面和波动率预测。我们发现经验数据表明,如果这些数据经过仔细审查和严格测试,替代数据可以帮助所有这些事情。随着越来越多有关物理世界和在线世界的数据被收集,研究人员将会发现在处理这些新兴数据集时会找到更多的价值。

参考文献

德罗根,L.A.和贾,V.(2013)。利用集体智慧的盈利估计生成异常回报。Estimize 白皮书。

邓恩,J.,菲茨吉本斯,S.和波莫尔斯基,L.(2017)。通过环境、社会和治理暴露评估风险。AQR 资本管理。

Eurekahedge。 (2017). 人工智能:对冲基金的新前沿。 eurekahedge.com Fodor, A., Krieger, K., 和 Doran, J. (2011). 期权未平仓量变化是否预示未来股票回报?《金融市场和投资组合管理》, 25 (3): 265。

Granholm, J. 和 Gustafsson, P. (2017). 寻找异常收益的探索:基于 Twitter 情绪的交易策略研究。 Umea 商学院。

Grinold, R.C. (1989). 主动管理的基本定律。《投资组合管理杂志》15 (3): 30–37。

Heston, S.L. 和 Sadka, R. (2008). 股票收益截面的季节性。《金融经济学》, 87 (2): 418–445。

Hope, B. (2016). 微型卫星:对冲基金正在利用的最新创新。《华尔街》杂志。

Jha, V. (2016). 利用短期阿尔法定时权益量化头寸。《交易杂志》11

(3): 53–59。

Khandani, A.E. 和 Lo, A.W. (2008). 2007 年 8 月量化交易员们发生了什么?:基于因子和交易数据的证据。 NBER 工作论文 No. 14465。

McPartland, K. (2017). 用于 alpha 的替代数据。 Greenwich 联合报告,Q1。

Moore, G.A. (1991). 越过鸿沟:向主流客户推广和销售高科技产品。哈珀商业基础。

Mozes, H. 和 Jha, V. (2001). 通过 StarMine 专业版创建并从更准确的盈利预估中获利。 StarMine 白皮书。

Pan, J. 和 Poteshman, A. (2006). 期权交易量中的信息对未来股票价格的影响。

《金融研究评论》, 19 (3): 871–908。

Sloan, R. (1996). 股价是否充分反映了关于未来盈利的应计和现金流信息?《会计评论》71 (3): 289–315。

Willmer, S. (2017). BlackRock 的机器人选股师创下历史记录的亏损。彭博社。

Xing, Y., Zhang, X., 和 Zhao, R. (2010). 单个期权波动率微笑对未来股票回报的启示?《金融与量化分析杂志》, 45 (3): 641–662。

第五章:使用替代和大数据交易宏观资产

Saeed Amen 和 Iain Clark

5.1 引言

近年来,从个人和公司等各种来源产生的数据量迅速增加。传统上,对于交易员来说,最重要的数据集是描述价格变动的数据。对于宏观交易员来说,经济数据也是交易过程的关键部分。然而,通过将现有流程与这些新的替代数据集相结合,交易员可以更深入地了解市场。在本章中,我们深入探讨了替代数据和大数据的主题。我们将讨论分成三部分。在第一部分中,我们试图定义围绕大数据和替代数据的一般概念。我们解释为什么数据以迅速增加的速度生成以及“排气数据”的概念。我们讨论了描述市场的模型的各种方法,比较了传统方法和机器学习。我们详细介绍了各种形式的机器学习以及它们如何在金融环境中应用。

在下一节中,我们将更多地关注替代数据在宏观交易中的一般应用。我们指出它如何可以用于改进经济预测,例如,或者用于现在预测的构建。还列举了来自新闻和社交媒体等来源的大数据和替代数据的现实例子。

在最后一部分中,我们将更详细地介绍,提供几个使用替代数据集或不寻常技术来理解宏观市场的案例研究。我们展示了美联储沟通所产生的情绪与美国国债收益率的变动之间存在着密切关系。我们讨论了使用可机器读取的新闻来影响外汇市场价格行动以及新闻量与隐含波动率的关系。我们还研究了一个基于对金融网站 Investopedia 的网络流量表示的投资者焦虑指数。我们展示了如何使用它来在标准普尔 500 指数上创建主动交易规则,以优于仅多头和基于 VIX 的过滤器。

最后,在一个案例研究中,我们使用了一个更传统的数据集(外汇波动数据),但以一种新颖的方式进行分析,试图理解关于计划事件周围价格行动的风险,以 GBP/USD 在英国脱欧周围的例子为例。

5.2 理解大数据和替代数据中的一般概念

5.2.1 什么是大数据?

最近几年,"大数据"这个术语可能被过度使用了。有一些构成大数据的特征,这些特征被称为四大 V:volume(容量)、variety(多样性)、velocity(速度)和 veracity(真实性)。

5.2.1.1 容量

构成大数据的最著名特征之一是其庞大的容量。大数据的范围可以从几十 GB 到几 PB 甚至 EB。使用大数据的一个挑战就是尝试存储它。

5.2.1.2 多样性

大数据可以有许多种类。虽然传统上由交易员使用的数据通常是以时间序列格式包含数值的结构化数据,但大数据并不总是如此。例如,网络内容。网络的大量内容都是文本和其他媒体,而不仅仅是数字数据。

5.2.1.3 速度

大数据的另一个定义特征是其生成频率。与更典型的数据集不同,它可以以高频率和不规则的时间间隔生成。金融领域高速数据的一个例子是交易资产的 tick 数据。

5.2.1.4 真实性

大数据的真实性通常更加不确定。大数据往往可能来自未经验证的个人或组织。最明显的一个例子是 Twitter,账号可能会试图积极传播虚假信息。然而,即使是金融大数据,其来源可能是受监管的交易所,数据通常仍然需要清理以去除无效的观察结果。

5.2.2 结构化和非结构化数据

结构化数据,顾名思义,是相对有组织的数据集。通常,它可能有足够的结构以被存储为数据库表。数据集通常相对干净。如果一个结构化数据集主要是文本数据,它也会有元数据来描述它。例如,它可能会伴随情感分数以及通常描述文本的一般主题的标签和表示收集时间的时间戳。

相比之下,非结构化数据则组织性要低得多。通常,它可能包括从网页或其他来源抓取的文本。网络抓取的数据通常以原始形式存在,包括所有的 HTML 标签或格式,需要在后期进行删除。它将具有最少的元数据来描述它。将非结构化数据转换为更可用的结构化数据往往是一个耗时的步骤。实际上,大多数大数据都以非结构化形式开始,并需要进行工作将其转换为结构化数据。

5.2.3 应该使用非结构化还是结构化数据集?

使用结构化数据集更容易且更快速。与花费大量时间清理非结构化数据和创建元数据相比,供应商已经为您完成了这项工作。然而,在某些情况下,您可能仍然更喜欢使用非结构化数据集,而不仅仅是因为成本的原因,特别是如果没有与数据供应商提供的结构化数据集相关联的数据。此外,可能存在这样的情况,即非结构化数据集是专有的,而现成的结构化数据集不可用。您可能也希望以不同的方式构建数据。一旦将数据集结构化为特定格式,它就可以减少您可以对其执行的分析类型,例如。为了做到这一点,您需要访问实际的原始数据。虽然大型量化基金通常热衷于访问原始数据并具有数字分析能力,但许多其他投资者可能更喜欢使用较小的结构化数据集。

在图 5.1 中,我们给出了一个示例,即由佛蒙特大学创建的结构化数据集——幸福指数,该指数旨在反映用户在 Twitter 上的幸福感。它占大约 10%的推文,并根据幸福程度对每个推文进行分类,使用一种词袋式技术。一个词典包含大量单词,这些单词根据人们使用亚马逊机械土耳其服务的相对幸福程度进行评分。诸如’joy’之类的词得分很高,而诸如’destruction’之类的词在词典中得分很低(见图 5.2)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在图 5.3 中,我们对每周的每一天都进行了平均分数。也许并不令人惊讶的是,我们发现人们在星期一最不开心,而他们的幸福感在整个星期内上升。我们展示了这个例子,以说明尽管非结构化大数据(在本例中从 Twitter 提取)可能由非常大的数据集组成,但一旦结构化,就更容易对数据进行推断。

5.2.4 大数据也是替代数据吗?

让我们首先考虑金融市场背景下的替代数据是什么。最简单的是考虑那些在金融中不常用的数据集。诚然,在未来几年,我们目前认为是“替代”的数据集可能会变得更加主流,并且可能会出现替代数据领域的新数据集。

重要的是,替代数据不一定总是由大数据组成。与千兆字节相比,替代数据集实际上可能相对较小,以兆字节为单位。

与我们通常将与大数据相关联的千兆字节或拍字节不同,实际上甚至可以将整个原始替代数据集存储在 Excel 电子表格中,这在大数据的情况下显然不成立。

5.2.4.1 所有这些数据都来自哪里? 根据 IDC(2017 年)的数据,2016 年全球产生了大约 16.3 ZB 的数据,相当于每人每天产生约 1.5 GB 的数据。IDC 预测到 2025 年这将上升至 163 ZB。这些数据是从哪里产生的?在其报告中,它将数据的来源分为三类:核心、边缘和终端。

核心涉及数据中心,包括云端和企业网络中的数据中心。边缘由位于其数据中心之外的服务器组成。终端包括网络边缘的所有内容,其中包括个人计算机以及其他设备,如手机、连接车辆、传感器等。边缘中的许多数据源当然是新设备。终端的许多设备是物联网设备。

(物联网)报告估计,实际上大多数数据是在终端生成的,其余部分分布在核心和边缘区域之间。其中大部分数据是非结构化的。

存储技术的发展速度跟不上我们生成数据的速度。因此,大量数据没有被存储。在许多情况下,我们可以避免将数据存储在多个地方。例如,考虑音乐或视频内容的流媒体 - 通常用户会直接消费它而不在本地存储,因为它可以随时从云端的副本中再次流媒体。也许还有其他情况,数据根本不存储在任何地方,一旦被消费就会丢失。

5.2.4.2 数据集的货币化和废气 我们已经广泛讨论了数据产生的领域。在本节中,我们举例说明了如何通过向交易员出售数据集来将数据集货币化。我们还讨论了“废气数据”的概念,这可以是交易员使用的替代数据集的来源。

数据通常具有主要用途。考虑一个金融交易所。作为其日常业务的一部分,它生成大量的市场数据,这些数据由使用交易所的市场参与者生成。这既可以来自发布的报价,也可以来自市场参与者之间的实际执行。显然,这些市场数据对于交易所的正常运行非常重要。

尽管交易费用可能占交易所收入的很大一部分,但它们可以通过出售数据源来产生额外的收入。如果市场参与者想要一个非常细粒度的数据源,其中包括市场深度数据,他们将支付比那些仅想要收到每日收盘报价的人更多的费用。交易所还可以存储生成的所有数据,并出售历史数据供量化分析师在其模型的回测中使用。

关于金融之外的示例呢?让我们回到我们的媒体内容示例。如果我们考虑视频数据,比如电影或电视,它主要是为了消费者观看而生成的娱乐内容。音乐内容也是如此。这些可能看起来是显而易见的陈述。然而,我们可能能够将这些数据集用于其他用途。例如,他们可能能够对电影进行语音识别以生成字幕,然后也许可以进行自然语言处理来识别电影的情感,以帮助对其进行分类。

媒体流媒体公司也很可能收集到二次数据,这是用户收听音乐或观看电视的副产品。他们正在播放什么歌曲和视频,什么时间以及从哪个位置播放?我们可以收集无数的数据点。一旦所有数据集都被正确对齐,这本身可能是一个耗时的过程,媒体流媒体公司就可以回答很多问题,帮助个性化用户的体验。关于观看什么的推荐显然会因用户而异。然而,这种所谓的“废气数据”还有其他用途,这些数据是公司在日常业务中生成的。在实践中,数据在其完整效用被理解之前往往被收集起来。这在多个领域可能是这种情况,而不仅仅是在金融领域。

在我们早期的金融示例中,我们注意到交易所通过将其数据集出售给金融市场参与者来实现数据的商业化,这似乎是一个非常直接的用例。企业也可以通过将数据集出售给交易者来实现数据的商业化,以帮助他们做出更好的交易决策。然而,在这样做之前,他们需要意识到与此相关的法律问题。

5.2.5 分发替代数据涉及的法律问题

5.2.5.1 个人数据

在我们关于媒体流媒体公司的示例中,我们注意到“废气数据”的一个用途是帮助个别用户个性化体验。然而,如果公司希望将这些数据分发给交易者,它需要考虑几个法律问题,特别是其是否遵守各种数据保护条款。它与用户的协议中的法律条款允许这样做吗,以及数据可以以什么格式分发?例如,公司往往需要对数据集进行匿名化处理。有时仅仅遮挡个人细节可能不足以。考虑一个社交网络。即使用户的真实姓名不可用,也可以通过他们连接的人推断出关于个人的许多细节。还可以结合语言分析来识别个人。

在实践中,交易者不需要或不需要从数据中使用个人身份来使用其交易策略。公司也可以将原始数据聚合成更结构化的形式,然后再进行分发。

5.2.5.2 替代数据集与非公开信息

替代数据集之所以被称为“替代”,是因为它们在金融领域不像传统数据集那样被广泛使用,例如价格数据。我们可以推测,如果某些替代数据集具有特定的可交易价值,如果使用它们的市场参与者较少,那么可能会更具优势。特别是在策略的容量可能有限的情况下。从宏观角度来看,一个例子可能是一个数据集,它可以帮助我们更好地预测经济数据发布,并使我们能够围绕这些实际数据发布进行交易。出于流动性原因,这类交易策略的容量相对较小。

如果一家公司将关于自身的数据专门分发给单一客户,其他人无法购买,那么是否存在向外界提供“重大的非公开信息”的风险?这显然取决于数据集的性质。缓解这种情况的一种方式是,如果数据以某种形式聚合,并且以使任何敏感信息都无法从中进行逆向工程设计的方式进行。Fortado 等人(2017 年)指出,由于这个原因,某些基金更喜欢不处理独家数据集。

我们可以主张,如果第三方正在收集关于特定公司的信息,其他人也有可能复制的过程,那么这种风险就要小得多,特别是如果来源是公共信息,可在网上获取。宏观资产交易者通常对基于更广泛的宏观建模感兴趣,而不是特定公司的数据。当然,在宏观市场中仍然存在潜在的“重大的非公开信息”,例如经济数据发布的泄密或央行的决策。

5.2.6 替代数据集价值多少?

数据市场并不新鲜。关于金融市场的数据已经以多种形式出售和分发了几个世纪,即使它的分发方式从纸质媒介(如报纸)到电子方式发生了变化,覆盖了各种公共和私人网络。在许多情况下,可能有多个供应商分发类似的价格数据集,这有助于价格发现。

然而,正如我们之前提到的,替代数据集的商品化程度远远低于大多数价格数据集。甚至最“常见”的替代数据集,例如机器可读新闻,即使由多个供应商分发,也远不及价格数据集那样普遍。此外,即使在这里,机器可读新闻数据集的结构以及使用的原始数据来源也存在差异。

对于一些替代数据集,可能只有一个供应商出售该特定数据。正如前面讨论的,基金也有可能是特定替代数据集的独家用户,这可能会提高数据集的价格。

任何交易者,无论是宏观还是其他类型的交易者,都需要考虑另类数据集的价值。同样,对于这些数据集的销售者来说,他们应该定价多少?对于双方来说都很困难。出于明显的原因,交易者没有义务向供应商明确说明他们如何使用数据集。然而,没有这样的信息,供应商很难知道数据集对交易者有多有价值(因此应该收取多少费用)。

显然,交易者需要考虑数据集对理解他们愿意为此支付多少钱有多大用处。仅仅因为一个数据集被认为是“另类”的,并不一定意味着它价值数百万美元。数据集中的历史数量有助于确定其价格。如果没有任何历史记录,就很难对替代数据集进行历史回溯测试,以了解它的有用性。不幸的是,考虑到替代数据集通常较新(在某些情况下是使用全新技术收集的),它们的历史可能比更传统的数据集小得多。更一般地说,与任何数据集一样,数据的质量非常重要。如果数据集是杂乱的,并且有许多丢失的值,它可能会降低它的效用。

当考虑替代数据集的价值时,我们还需要能够量化它可能会在多大程度上改善我们的策略。如果备选数据集对后验测试的影响很小,那么它可能不值得购买,特别是如果我们无法抵消购买它的初始成本。

使用数据时也存在规模经济的问题。一个更大的基金可能会更容易承担数据成本。虽然数据集成本通常与用户数量有关,但额外成本可能比较小,相对于一个更大公司可以依赖该数据集运行相关策略的资金量而言。

我们需要问一下,数据集是否仅用于非常具体且容量很低的策略,还是它可以用于多种交易策略。与小规模交易操作相比,一个更大的基金可能对仅对低容量策略有用的数据不太感兴趣。实际上,在这里成为一个较小的交易者是有利的。更广泛地说,数据的价值不太可能对不同的交易者相同。根据我的经验,我发现来自多个基金对完全相同的另类数据集的使用反馈非常不同。这可能有很多原因,涉及交易的资产类别以及实际上用于对比交易策略的不同方法。

替代数据集的成本不应仅以购买许可证的金融术语来衡量,还包括评估数据集和围绕其开发策略的成本。一个数据集没有资源来使用就是毫无价值的。因此,我们需要考虑这个替代数据集是否值得调查,而不是其他优先事项。非常多的量化对冲基金经常受到数据供应商提供新数据集的联系。即使对于非常大的基金,也很难充分评估每个提供的数据集。

5.3 传统模型构建方法与机器学习的区别

传统上,在开发交易策略或者任何预测时,我们首先尝试找到一个假设。然后我们可以使用统计分析来验证(或者无效化)我们的假设。其基本原理是这个练习有助于减少数据挖掘的可能性。我们本质上是在修剪我们的搜索空间,(希望)只留下我们认为相关的领域。

5.3.1 什么是机器学习?

机器学习技术的思想是我们不需要事先知道变量之间的关系形式。这与线性回归形成对比,例如,我们已经假设变量(或特征,使用机器学习术语)之间存在一定类型的关系。相反,我们的机器学习算法可以帮助我们建模函数,即使它是高度非线性的。这将使我们能够找到我们之前没有想到的变量之间的关系,特别是如果我们使用机器学习的技术。

5.3.2 传统机器学习与深度学习的区别

使用传统的机器学习方法,我们首先定义一组特征,然后让算法找到合适的函数。然而,在某些情况下,手工制作可能相关的特征非常困难。以试图识别图像中的对象为例。易于定义的特征,如取图像中所有像素的平均亮度或颜色,不太可能为我们提供关于图像中的对象的有用信息。深度学习技术尝试在不必定义特征的情况下提取特征。对于某些领域,如图像分类,深度学习技术已经取得了非常成功的成就。为了使深度学习有效,需要大量的训练数据可用。

5.3.2.1 监督学习、无监督学习和强化学习

机器学习依赖于训练来识别模式。这通常需要一个训练集。在监督学习中,我们提供了一个成对标记的训练集。手动标记数据可能很耗时,这可能会限制我们使用的训练集的大小。在无监督学习中,我们有未标记的训练数据,算法被设计为从训练数据中推断出模式而不带有“提示”。因此,使用非常大的数据集可能会更容易,因为我们没有标记数据所带来的限制。深度学习通常使用无监督学习。强化学习是一种不同的方法。在这里,我们创建一组简单的规则,我们的算法可以遵循,这些规则旨在最大化奖励函数。这在游戏领域已经取得了成功。在这种情况下,奖励函数可以被定义为在对手手上赢得一局比赛。强化学习让计算机自己教会自己解决问题的最佳方法。在游戏的例子中,它可能最终会以一种与人类玩家非常不同的方式进行游戏。DeepMind 在游戏领域广泛使用了强化学习。DeepMind 的 AlphaZero 通过强化学习学会了下棋,并设法击败了世界上最好的下棋电脑 Stockfish 8(Gibbs 2017)。

5.3.2.2 我们应该使用机器学习来制定交易策略吗?

可以这样认为,面对非常庞大的数据集时,我们可能会尝试使用机器学习技术让数据自己“说话”。然而,困难在于我们可能最终会在本质上是噪声的数据中找到模式。此外,金融问题的性质并不稳定。金融时间序列是非平稳的。市场经历着不断变化的制度。例如,2008 年的市场与 2016 年的市场截然不同。这与机器学习取得成功的其他领域的情况形成对比,那些领域的问题随时间不变,比如图像分类或玩游戏。

实际上,识别和构建重要因素(或特征,使用机器学习术语)仍然是制定交易策略的关键部分。然而,我们认为机器学习技术在交易中仍然有用,只是在使用机器学习技术制定交易策略时必须采取谨慎的方法。

还有一种情况是,如果我们运行的是黑盒交易模型,当模型开始亏钱时,我们可能只能关闭模型,如果我们无法理解模型的运作方式。我们可以尝试缓解模型可解释性的问题。一种方法是创建一个更简单的线性模型来代理机器学习交易规则,这可能会更容易理解如何改变输入会影响我们的交易。

为了避免围绕非平稳金融时间序列的问题,我们可以将机器学习应用于我们的交易问题,而不仅仅是专注于预测资产本身的时间序列。毕竟,制定交易策略不仅仅是关于定义信号;我们还需要在构建任何实际交易规则之前对数据集进行预处理和清理。在我们讨论机器学习在交易中的有效性时,我们将区分不同的领域。诸如高频交易之类的领域具有非常庞大的数据集,因此更容易接受机器学习技术(Dixon 等人,2017 年)。机器学习,特别是深度学习,也被用来改善长期股票因子模型的表现(Alberg 和 Lipton,2017 年)。

预处理还可以涉及对数据集的部分分类,应用诸如情感分析或文本主题识别之类的技术。在这些情况下,我们建议机器学习可能是一种有用的技术。

5.4 大数据和替代数据:在基于宏观的交易中广泛使用 、

5.4.1 我们如何在宏观背景下使用大数据和替代数据?

我们如何更广泛地为宏观交易员理解大数据和替代数据的一般方法?在这里,我们给出了一些开始的想法。

5.4.1.1 改善现在的预测/经济预测

有许多不同的非典型数据集,我们可能希望使用这些数据集来改善我们对非农就业人数月度变化的预测。如果我们有一个足够好的这个数字的预测,我们可以在一天之内围绕这个数字进行交易。我们还可能寻求获得一个可以在整个月内生成的实时估计,以帮助我们的交易策略。显然,这种方法也可以用于其他经济发布,除了非农就业人数之外。我们还可能寻求使用替代数据集来改善较长期的经济预测,或者可以直接为我们提供预测的替代数据集,这可能对更广泛的投资有用。如果我们能够生成合理的预测,我们也可以围绕经济数据发布进行短期交易。

5.4.1.2 市场定位和资产情绪对交易的关键部分是理解

市场其余部分的想法,特别是他们的定位。如果市场非常看涨,有时可能会增加空头挤压的机会,例如。利用替代数据集来帮助建模这些因素是有潜力的。

我们可以使用我们稍后讨论的 alpha 捕获数据来衡量市场定位,并结合来自市场制造商的专有流量指标。

5.4.1.3 改善波动率估计

可以证明市场波动率与新闻的数量存在合理的关系,无论是来自传统新闻源(如新闻线)还是新的新闻源(如社交媒体)。因此,我们可以通过与新闻和社交媒体相关的数量数据增强波动率预测。

5.4.2 大数据和替代数据的现实案例

在本节中,我们建立在前面描述的泛化案例之上。我们列举了一些大数据和替代数据的示例,这些数据对交易员可能很重要。随后,我们描述了适用于金融应用的结构化数据集,这些数据集可以被视为替代数据。这些数据集通常对人类交易员和机器可读形式都可用。通常,这种机器可读数据可以通过 API 实时分发给计算机进行摄取,或者以较低频率(例如日末)以扁平文件的形式分发,这更适合长期投资者。

5.4.2.1 大数据

5.4.2.1.1 高频市场数据

市场数据来自交易所、交易平台和市场制造商。除了顶部数据,该数据还提供了较小交易规模的报价以及执行交易数据,还可以提供更细粒度的数据,例如市场深度。交易员可以使用市场深度数据计算指标,如市场失衡及其偏斜,这可以用来洞察高频价格行为。

5.4.2.1.2 网络内容

从宏观上看,网络内容是非结构化的。如果我们从网络中爬取数据,通常会以非结构化形式出现。然后需要清理数据集,并对其进行分类,创建额外的元数据来描述它。

网络内容可以由许多不同形式组成,包括文本、视频和音频。

我们还可以从网络内容中衍生出排放数据,例如页面浏览量。

5.4.2.1.3 社交媒体

许多形式的社交媒体可供机器读取解析,例如 Twitter,可通过 Twitter 的 Gnip 订阅获得。然而,该文本的格式对计算机来说可能特别难以理解。这种文本不仅通常比新闻文章要短得多,而且很难理解文本的真实性。解释此类文本的情感可能会有些棘手,因为其中使用了缩写词和讽刺。还存在理解推文上下文的问题。帮助理解上下文的一种方法是与其他类似来源结合,例如可机器读取的新闻。

有时,突发新闻在传统新闻通讯社报导之前,甚至在市场上产生影响之前,就会出现在 Twitter 上。因此,它已经成为一种重要的新闻来源。一个特别的例子是在特朗普总统任职的早期,他经常会在 Twitter 上发推文谈论公司。事实上,还专门创建了应用程序,用于标记他发送的这类推文(Turner 2017)。由于 Twitter 在突发新闻中的重要性,一些新闻通讯社,如彭博新闻(BN),也直接在其信息流中报导重要的推文。

5.4.2.1.4 移动电话数据

追踪与移动电话相关的数据可从各种供应商处获得。在聚合级别上,这些数据可以用于绘制人员流动。例如,我们可以使用这些数据来模拟人们在商店中的脚步流动,以帮助估计零售销售数据。我们还可以利用这样的数据来了解就业水平,如果考虑到高峰小时内铁路站出入口的整体人流量,或者在这些时段道路上汽车的数量。

5.4.2.2 更具体的数据集

5.4.2.2.1 新闻线

新闻线产生的新闻文章主要是为人类读者编写的。BN 的文章通常设计为供彭博终端用户使用。但是,彭博也以机器可读的形式提供这些新闻,其中包括大量的附加元数据,包括主题分类。其他新闻通讯社,如汤姆逊路透和道琼斯(通过 RavenPack),提供机器可读的新闻。新闻数据集可以用于评估市场情绪,包括更广泛的经济情绪以及特定资产周围的情绪。

5.4.2.2.2 ALpha 捕获

最著名的 alpha 捕获数据集之一是由独立的交易想法网络 TIM Group 汇总的。基本上,这涉及以系统化的方式收集经纪人的交易建议。许多对冲基金还在其投资组合中使用基于 alpha 捕获的策略,特别是对于单只股票。它们在宏观资产类别中的使用程度也较少。投资者可以系统地跟踪 Alpha 捕获数据集。它们还可用于提供市场定位的指示。例如,如果许多经纪人推荐购买特定债券,则表明该资产的定位相当重要。

5.4.2.2.3 预测和即时预测

预测和即时预测长期以来一直可供市场参与者使用。在历史上,这些预测的来源通常是卖方经纪公司的研究团队,然后由彭博等数据供应商进行汇总。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然而,目前许多可用的预测是由卖方和个人投资者共同提供的。

彭博社根据 Twitter 上个人提供的估计发布了一个预测(见图 5.4),用于美国非农就业人数的月度变化,这是一个月中最重要的经济数据发布之一。随后,在一个案例研究中,我们基于包括从推文中派生的一个变量在内的几个变量为工资提供了一个预测。

Estimize 众包预测股票收益数字和经济发布数据。Alpha 捕获数据集涉及将销售方经纪人的交易建议汇总到一个易于导航的数据集中。

提供卫星摄影服务的供应商很多,比如 Orbital Insights。

这可以被商品交易者用来估计当前储存在筒仓中的石油水平或作物产量,例如。

5.4.2.2.4 网页内容

虽然直接从网络上抓取内容是可能的,但有几个特定网页内容的数据集可以以更易于使用的格式下载。其中最著名的之一是维基百科语料库。

整个数据集可供下载和分析。此外,读者统计数据也可供使用,可以揭示热门话题。查看话题受欢迎程度的另一种方式是通过 Google Trends。它提供了特定搜索词随时间变化的相对搜索量统计数据。

5.4.2.2.5 社交媒体

我们注意到,广泛而言,社交媒体可能会面临挑战,特别是由于消息的长度。有许多金融数据供应商提供自己的来自 Twitter 的结构化数据集,为其主题标记消息,有时还附带情感。这些供应商包括 Dataminr、Knowsis、彭博社和汤森路透等。

也有专门用于金融应用的社交媒体网络,如 StockTwits,拥有约 150 万活跃用户(Roof 2016),并且以机器可读形式提供。

5.5 案例研究:通过大数据和替代数据深入挖掘宏观交易

我们已经给出了许多关于各种数据集的广泛例子以及如何被宏观交易者使用的快速总结。在本节中,我们将更深入地探讨这个主题,对其中每一个进行简要的案例研究。

5.5.1 联邦储备:Cuemacro 联邦储备外汇和债券情绪指数

从直观的角度来看,预计联邦储备的通信会影响宏观经济。特别是,我们注意到在联邦公开市场委员会(FOMC)会议周围存在显著的波动。然而,量化对市场的影响则更为困难。Cuemacro 的联邦储备情绪指数试图以系统化的方式量化这些通信。

原始输入数据包括从联邦储备通信中提取的文本,规模相对较小。然后将其结构化为表格数据格式。这包括联邦储备发布的演讲、声明和会议记录。

元数据是从这段文字中提取的,比如情感分数,这些分数是使用自然语言处理生成的。

这些情感分数被聚合成一个时间序列,代表了随时间推移联邦储备局的整体情绪指数。这个想法并不是创建一个高频交易的指数 - 例如,仅在 FOMC 周围的公告 - 相反,它旨在提供近几周联邦的代表性观点。

然后,这个时间序列就可以更容易地被交易员使用,特别是用于理解外汇或债券市场的变动。在图 5.5 中,我们绘制了美国国债 1M 变化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

10Y 收益率对情绪指数。我们注意到,在这两个时间序列之间存在着很强的关系。此外,如果我们对它们进行回归,T 统计量约为 2,这表明这种关系是显著的。我们注意到,当然存在指数的一些分歧,这是直观的,鉴于联邦并不总是美国国债曲线的主要驱动因素。一个例子可以在 2017 年 11 月看到,当时收益率上升是由唐纳德·特朗普的当选而不是联邦政策的任何具体变化引起的。

5.5.2 机器可读新闻:彭博新闻了解外汇价格行动

各种新闻线每天都会产生大量新闻。新闻是推动市场变动的重要因素这一概念并不新鲜。毕竟,人类交易员在决策过程中会关注新闻,试图从新闻中提取信号。然而,每天阅读所有这些新闻对于一个人来说是非常困难的;实际上,一个人只能阅读到一个小快照。因此,合理地问一下,是否可以以某种方式自动化这个新闻阅读过程,以帮助洞察市场。

在我们的案例研究中,我们基于 Amen (2018)的结果,研究了 2009 年至 2017 年间 BN 新闻线的文章。尽管 BN 通常是 Bloomberg 终端用户使用的,但它也以可机器读取的形式提供,使其适用于作为系统交易策略的输入。

我们案例研究的重点是理解这个新闻数据集是否可以用于交易发达市场的外汇交叉盘。特别是,想法是制定一个日常交易规则,而不是一个高频交易规则,在一篇新闻文章之后做出交易决策。

数据集已经被结构化,这有助于使分析工作变得更容易一些。

然而,我们仍然需要对每篇新闻文章的正文进行少量清理,删除每篇文章的开头和结尾,其中包含撰写文章的记者的姓名和联系方式。此外,我们通过删除后续不会使用的字段来减小数据集的大小。

为了使数据集更易于使用,我们需要剪切要检查的新闻文章,并专注于我们认为对我们的资产类别最有影响力的那些文章。

(在我们的案例中,外汇)。因此,下一步是过滤引用特定货币的文章的数据集。这样做的附加好处是再次减少数据集的大小。

虽然筛选我们正在交易的资产是最明显的方法,但同样有效的筛选新闻文章的方法也有很多。另一种方法可能是筛选我们认为对货币重要的新闻主题,比如每个国家的经济新闻。在这些情况下,这些文章中可能完全没有提到货币。然而,经济新闻对货币政策预期有影响,这是货币行为的关键部分。我们也可能选择阅读与影响货币的其他因素相关的新闻,比如地缘政治新闻。

然后,自然语言处理被应用于这些经过筛选的文章,为每篇筛选的新闻文章创建情绪分数。正如之前所指出的,我们分析的目标是评估大量新闻文章的情绪,而不是在每篇文章之后立即尝试进行高频交易。因此,这些情绪分数随后被聚合成每种货币的每日标准化分数。使用个别货币分数后,我们可以为货币对生成每日分数。例如,USD/JPY 的分数简单地是 USD 分数-JPY 分数(见图 5.6)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们的交易规则基于短期动量。它基于这样的前提:在短期内,关于某项资产的“好”新闻很可能会以积极的方式影响该资产。因此,如果货币对的新闻分数为正,则我们买入该货币对。相反,如果它具有负分数,则我们卖出该货币对。从新闻中获取信号还有其他可能的方法。特别地,我们可以尝试应用更长期的窗口来评估新闻,然后使用基于均值回归的交易规则。其理论是,在很长的时间段内,如果新闻持续“好”,市场将会调整对其的预期。我们可能会期待类似的效果,即持续的负面新闻。

在图 5.7 中,我们展示了一篮子发达市场货币相对于美元的历史回报。包括交易成本和持有成本。我们将回报与外汇中的通用趋势跟随模型相对比。我们选择了趋势,因为它通常是交易员用来交易外汇的策略之一。阿门(2013)讨论了如何利用趋势和持有为基础的策略来解释大量的外汇基金回报。因此,通用的趋势和持有策略可以被视为外汇中的贝塔的代理。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 5.7 新闻篮子交易回报。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们发现,基于新闻的策略在这段时期内在风险调整的基础上优于趋势。此外,这两种策略之间几乎没有相关性。这表明新闻基础策略可以用来使典型的外汇基金经理的回报多样化。

尽管可以从对可机读新闻的情感进行判断来提取方向信号,但新闻的数量本身也可能出于其他原因而有用。在图 5.8 中,我们绘制了各种货币的隐含波动率与与这些货币相关的新闻量之间的线性回归的 T 统计图。我们发现,隐含波动率和新闻量之间往往存在显著正相关。这表明我们可以将新闻量用作隐含波动率模型的输入。

Amen(2018)中还有许多其他结果。该论文还讨论了如何利用欧洲央行(ECB)和 FOMC 会议之前的新闻来估计围绕这些数据点的外汇波动性的行为。与 FOMC 和 ECB 声明相关的新闻量对短期外汇具有强烈影响

波动性。

5.5.3 网站流量数据:利用 Investopedia 的焦虑指数了解市场情绪

Investopedia 是一个金融教育网站。我们能从 Investopedia 用户搜索的主题中得到什么信息吗?其焦虑指数背后的原理是跟踪用户进行的搜索,从而产生 Investopedia 的页面浏览量。它专注于与投资者焦虑有关的搜索词,例如“空头卖出”。总共有 12 个不同的 URL 在最终指数中被引用,这些 URL 通常具有较高的页面浏览量。

(Kenton 2017)。在图 5.9 中,我们将 Investopedia 焦虑指数(IAI)与 VIX 进行了绘制比较,

通常被称为“华尔街恐慌指数”。我们注意到,当 VIX 上升时,表示期权变得更加昂贵时,我们看到投资者焦虑上升,如 IAI 所示。相反,VIX 下降通常也伴随着投资者焦虑的下降。这些观察似乎很直观,即期权价格与投资者焦虑相关。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Amen(2016)讨论了如何利用 IAI 在标普 500 上创建主动交易规则。在图 5.10 中,我们呈现了该论文的这一主动交易规则的回报,并将其与使用 VIX 的回报以及仅做多标普 500 的回报进行比较。基本上,当 IAI 高时,我们持平标普 500,否则做多。我们对 VIX 应用类似的规则。我们发现,在我们的样本中,经过风险调整的回报对于 IAI 过滤策略来说是最高的,超过了来自 VIX 的回报。

过滤策略。最低风险调整回报来自于仅做多策略。

5.5.4 波动性数据:围绕英国脱欧计划安排事件的 Fx 现货行为预测

作为数据集,波动率数据并不特别不寻常;毕竟,外汇期权已经交易了几十年。然而,也许较少见的是利用波动率数据来指导围绕计划数据事件的现货行为。特别是,我们可以从事件前的波动率面推断出现货的隐含分布。Clark 和 Amen(2017)讨论了英镑/美元波动率面如何用于推断 2016 年 6 月 23 日英国脱欧公投后的现货分布。

他们最初根据他们在 2016 年 6 月 13 日之前可用的隐含概率密度的视觉观察,从 GBP/USD 隐含波动率中提取表面,市场预期投票离开可能导致 GBP/USD 汇率从 1.4390(2016 年 6 月 10 日现货参考)下降到 1.10-1.30 范围,即 10-25%的下降 - 很可能伴随着高度波动的价格行动。在图 5.11 中,我们展示了英镑/美元在脱欧公投前几个日期的隐含概率分布。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

他们还构建了与 GBP/USD 相关的两种情景的混合模型

公投后的汇率,一个是“留下”的情景,一个是“离开”的情景。根据 2016 年 2 月 24 日至 6 月 22 日的四个月市场数据对此模型进行校准,我们发现,“离开”票与预期的英镑贬值大约到每 GBP 1.37 美元,贬值 4.5%,与观察到的公投后汇率下跌从 1.4877 到 1.3622 非常一致。

5.6 结论

我们已经讨论了大数据的一般特征,即 4V。此外,我们还谈到了结构化数据和非结构化数据之间的区别,以及大多数生成的数据是以非结构化形式存在的。

我们注意到正在生成的数据正在迅速增长,并预计进一步增加。公司作为日常业务的一部分收集大量数据,所谓的“废气数据”。这些数据集可以通过出售给交易员来实现货币化。

机器学习可以用于发现大型数据集中的模式。我们写了关于各种形式的机器学习以及它们在交易过程中的应用的文章。然后,我们花时间讨论了各种类型的大数据和替代数据,这对于金融市场参与者可能相关。

最后,我们更深入地挖掘了一些细节,提出了几个基于宏观的交易员使用替代数据集的案例研究,包括利用机器可读新闻和网络流量数据以及一种新颖的技术,用于推断现货价格行动的随后分布在外汇期权数据中。

参考资料

Alberg,J.和 Lipton,Z.C.(2017)。通过预测公司基本面改进基于因子的量化投资。摘自 arxiv.org:https://arxiv.org/abs/1711.04837 Amen,S.(2013)。*Beta’em Up:外汇市场中的市场β是什么?*摘自 SSRN:https://papers

.ssrn.com/sol3/papers.cfm?abstract_id=2439854 Amen, S. (2016). 交易焦虑 - 使用 Investopedia 的专有数据集进行风险交易

伦敦:Cuemacro。

Amen, S. (2018). Robo-News Reader. 伦敦:Cuemacro。

Clark, I. and Amen, S. (2017). 从 GBPUSD 风险逆转中推断分布及对英国脱欧情景的影响。Retrieved from MDPI: http://www.mdpi.com/2227-9091/5/3/35/

pdf Dixon, M.F., Polson, N.G. and Sokolov, V.O. (2017). 用于时空建模的深度学习:动态交通流量和高频交易。Retrieved from arxiv.org: https://

arxiv.org/abs/1705.09851 Fortado, L., Wigglesworth, R. and Scannell, K. (2017). 对数据挖掘的对冲基金的黄金时代。Retrieved from FT: https://www.ft.com/content/d86ad460-8802-11e7-bf50-e1c239b45787 Gibbs, S. (2017). AlphaZero AI beats champion chess program after teaching itself in four hours.

Retrieved from Guardian: https://www.theguardian.com/technology/2017/dec/07/alphazerogoogle-deepmind-ai-beats-champion-program-teaching-itself-to-play-four-hours IDC. (2017). 数据时代 2025。Retrieved from Seagate: https://www.seagate.com/files/wwwcontent/our-story/trends/files/Seagate-WP-DataAge2025-March-2017.pdf Kenton, W. (2017). Investopedia 焦虑指数。 Retrieved from Investopedia: https://www

.investopedia.com/anxiety-index-explained Roof, K. (2016). StockTwits raises funding, gets new CEO. Retrieved from Techcrunch: https://

techcrunch.com/2016/07/06/stocktwits-raises-funding-gets-new-ceo Turner, K. (2017). 这款应用会通知你特朗普是否在推特上提及你投资的公司。

Retrieved from Washington Post: https://www.washingtonpost.com/news/the-switch/wp/

2017/01/07/this-app-will-notify-you-if-trump-tweets-about-a-company-youre-investedin/?utm_term=.2c6d2a89d135

第六章:大即美好:电子收据数据如何帮助预测公司销售额

Giuliano De Rossi,Jakub Kolodziej 和 Gurvinder Brar

6.1 介绍

本章描述了我们在一个大数据项目上的经验。在本章中,我们的目标是双重的:1. 评估电子收据数据作为信息来源的潜力,特别是实时预测公司销售额。2. 记录处理如此大型数据集所面临的挑战以及我们采取的解决方案。

我们在分析中使用的数据集包括一张庞大的表格,详细列出了美国大样本消费者在一些公司的在线平台上的购买情况,包括亚马逊、Expedia 和 Domino’s Pizza 等。

在经济学和金融领域,大规模组织的消费者数据并不是新现象。例如,密歇根大学的收入动态面板研究

(PSID)自 1968 年以来一直追踪着 18000 名个体(及其后裔),定期收集问卷调查的回答。然而,Quandl 数据库与’纵向面板’在两个方面有很大不同。

首先,数据收集并非旨在构建代表性样本。

与 Quandl 签署数据共享协议的个人通常在注册使用他们从 Quandl 合作伙伴那里获得的电子邮件生产工具时这样做。因此,我们对样本的人口统计学、收入和其他特征知之甚少。如果使用样本来推断总体人口,这可能会引入偏差。

其次,我们样本的规模和捕获的细节水平完全不同。

而最大的纵向面板可以依赖约 25,000 个个体和两年更新,我们的大数据样本目前有超过 3 百万活跃用户,以每周频率进行抽样。纵向面板通常询问每个家庭在食品、休闲和其他支出类别上的支出金额。通过大数据,可以获得每个用户购买的产品和服务的产品细节。由于数据基于实际交易,因此不受通常在自我报告数据中观察到的潜在不准确性和扭曲的影响。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

交易,它不受通常观察到的自我报告数据的潜在不准确性和扭曲的影响。然而,值得指出的是,历史非常有限,即与横向维度不同,时间序列的长度目前很有限。

我们统计分析的主要目标之一将是在利用样本的规模优势的同时,减轻潜在的偏见。

从 Quandl 数据库中生成的分析类型的示例在图 6.1 至 6.5 中给出。图 6.1 显示了我们样本中 Domino’s Pizza 订单按星期几的分布。周末显然是比萨爱好者最热门的时间。图 6.2 关注下订单的时间,显示了在午餐时间(中午 12 点至下午 2 点之间)有明显的高峰,晚上预订活动明显减少。图片还显示,我们能够按比萨大小细分销售,表明中等大小始终占主导地位。

图 6.3 绘制了我们从样本订单中识别的前 30 种食材的频率。令人惊讶的是,我们发现迄今为止最受欢迎的食材(除了奶酪和番茄)是意大利辣香肠。在数据中,培根也被发现是意外受欢迎的。

与亚马逊等电子商务公司的时间模式完全不同。

图 6.4 显示,在我们样本中,用户在周一至周六的亚马逊订单数量呈稳定下降趋势。如果我们为每个工作日绘制一天中的时间模式(图 6.5),我们可以看到周日一直是亚马逊电子商务中一周中最安静的一天,直到上午 10 点左右。在一天的后期,周日的订单增长速度比工作日的订单快,甚至在其他工作日下降时仍然增长。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

下午,其他日子显示下降。到周日晚上 10 点,周日排名为一周中第三繁忙的一天。

这些例子说明了 Quandl 数据库的一些重要特征。

信息的粒度,甚至到个别产品的水平,是非常显著的。此外,订单被收集并附有时间戳,确保数据趋势可以以比以前更高的频率和实时捕获。值得一提的是,尽管我们在这里不追求这个想法,但是

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可以使用数据推断出不同公司之间的数据模式。一个例子是检查顾客是否倾向于用竞争对手的产品替代 Domino 的产品,或者是否倾向于将他们的消费在餐厅上以大致相同的比例分配给其他提供者。也可以基于他们的购买(例如大笔支出者与小笔支出者)对样本参与者进行聚类,并分析在集群之间数据模式的任何差异,这可能会识别出早期采用者。

6.2 Quandl 的电子邮件收据数据库

6.2.1 处理电子收据

我们首先描述将在报告中分析的 Quandl 数据集的结构。该数据集依赖于一大批同意与 Quandl 的合作伙伴分享他们的在线购买信息的美国消费者样本。通常,当安装电子邮件生产力增强应用程序时,他们选择参与此数据共享协议。

我们的数据提供商因此能够每周扫描所有活跃示例参与者的收件箱,以确定他们可能已从许多参与的在线商户(例如亚马逊、沃尔玛、H&M)收到的任何电子收据。

图 6.6 说明了这个过程:电子收据(显示在左侧)被扫描并转换成一系列记录,每个记录代表购买的每个单独产品。在我们的示例中,购买了三种不同的产品,但总物品数量等于四,因为订单包括两个单位的线路跟踪传感器。在数据库中,这由图 6.6 右侧显示的三行表示。数据在周二交付,延迟八天。

(即覆盖到上一个星期一为止)。

不用说,每个用户都是匿名的,因为我们只观察到一个永久 id,所有关于姓名、电子邮件地址和支付方式的信息都被丢弃了。用户 id 可以用来查询一个单独的表,其中包含额外的信息,比如邮政编码、用户进入和退出样本的日期,以及他或她最后一次购买的日期等等。值得强调的是,用户 id 是唯一的和永久的,因此可以在不同平台(例如在亚马逊、蒂芙尼和沃尔玛订购的商品)和时间上重建每个个体用户的购买历史。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6.6 中的表显示了 Quandl 实际提供的一小部分字段。这些字段包括每个记录所指的订单、产品和用户的永久标识符。我们还得到了每个产品的描述、数量、价格以及许多可能有用的其他字段,如税费、送货成本、折扣等等。一些字段是指特定产品(例如价格、描述),而另一些字段如运费和时间戳则是指整个订单。

我们用于分析的电子商务收据数据库是 Quandl 提供的替代数据产品之一(图 6.7)。产品范围涵盖了消费者数据之外,还有来自物联网设备、农田传感器中的农业数据、物流和建筑活动数据。

每次新用户加入样本时,Quandl 的合作伙伴都会扫描他们的收件箱,寻找仍然在保存的电子邮件中可用的收据。例如,如果一个用户在 2017 年 9 月加入,但她的电子邮件帐户仍然保留着自 2007 年 9 月以来的 Expedia 收据,那么这 10 年的 Expedia 预订将立即添加到数据库中。因此,数据库确实包含一小部分在数据收集开始之前发生的交易。虽然没有明显的理由认为这种回填方法会引入偏见,但事实上,如果我们实时使用数据,回填的观察结果将不可用。正如我们下面详细说明的那样,出于这个原因,我们决定集中在用户实际上是样本的一部分时记录的交易。

6.2.2 样本

图 6.8 显示了随时间活跃在样本中的用户总数,即那些可以通过 Quandl 合作伙伴部署的工具访问其收件箱的用户。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如上所述,新用户加入样本时是在个人选择数据共享协议时选择的,而一些现有用户则在其收件箱不再可访问时退出。数据显示,当 Quandl 的一个合作伙伴撤回时,样本大小在 2015 年底急剧下降。在样本期间的其余时间里,大小一直稳步增长,特别是在 2016 年中期有明显加速。构成数据库的独特用户总数接近 470 万。

对于我们的分析,我们可以访问三家公司发布的收据数据:

亚马逊、Domino’s Pizza 和 Expedia。此外,我们可获得的数据集截止到 2017 年 4 月。

我们提到我们样本中的所有用户都位于美国。图 6.9 是他们在 2017 年 4 月时在美国领土上的分布的图形示例(使用送货邮政编码,如果可用,否则使用账单邮政编码)。深色表示用户较多的邮政编码区域。该地图显示了围绕洛杉矶、旧金山、休斯顿和纽约等城市的大型城市地区的强烈集中。

为了将这些数字置于上下文中,我们在图 6.10 中显示了每个美国州人口的用户数量占总人口的百分比(不包括阿拉斯加和夏威夷),截至 2017 年 4 月。 总的来说,数据库跟踪了大约 250 万用户,而美国

人口约为 3.25 亿(比例为 0.77%)。 大多数州的覆盖率约为该值,这表明我们的覆盖范围不集中在几个地理区域。 极端值是特拉华州(覆盖率最高)和新墨西哥州(覆盖率最低)。

通过检查一些亚马逊交易,我们得出结论,大多数用户似乎是个人或家庭。 然而,在一些情况下,一个用户似乎代表一个更大的群体下订单。 在一个案例中,我们同时处理了 500 个微控制器(带有同样数量的箱子和电适配器)的购买,这表明该订单是代表学校下的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

单个用户多频繁地进入和退出样本? 图 6.11 是 4.7 百万独特用户中每个用户在样本中花费的时间的直方图。 我们包括了当前活跃的用户(例如,加入日期为 2017 年 1 月 1 日的用户在 4 月 1 日之前显示为具有三个月的持续时间,无论他在 4 月 1 日之后是否离开了样本)。 图表显示,大多数用户在样本中的停留时间不到 12 个月。 这并不奇怪,考虑到过去 18 个月参与者人数激增。 在正好 12 个月处似乎有一个峰值,这可能与试用期的长度或 Quandl 合作伙伴提供的应用程序的初始订阅有关。 加入样本三年前或更早的用户中有相当大比例仍然活跃,而已经超过五年的用户很少。

为了评估数据质量,我们查询了数据库,以确定在样本期间发生的亚马逊电商平台上的最大交易(图 6.12)。 大多数物品是由第三方销售而不是直接由亚马逊销售。 在表中的六个项目中,有三个似乎是真实的数据点:一张从未发布过的电影的稀有海报,一块豪华手表和一枚稀有硬币。 剩下的产品似乎有些可疑。 尽管如此,总体上声称价格超过 10 万美元的物品很少,这表明由于对电子邮件收据的解析不佳而导致的数据错误不太可能成为问题。

另一个简单的检查方法是对数据进行汇总,并检查 Quandl 样本参与者所作的总购买与我们在零售电子商务中所期望看到的模式是否一致。众所周知,亚马逊销售显示出强烈的季节性模式。通过使用会计数据,我们可以检测到 Q4 的高峰,随后是 Q2 的低谷(图 6.13)。利用我们的大数据样本,我们可以以更高的频率聚合在亚马逊上的购买行为。在图 6.14 中,我们计算了每年 52 周的平均每周销售额,并对其进行了重新调整,使得销售指数的平均值等于一。数据清楚地显示了与亚马逊的Prime Days和黑色星期五相对应的显著高峰,传统上被认为是圣诞购物季的开始。表明了 Q4 销售增长的高峰(图 6.13)集中在黑色星期五到 12 月底的几周之间。

描述类别价格,美元
1907 年圣高登斯二十美元 PR69 PCGS稀有硬币4,194,800.00
圣灵办公室:由乌尔里希·里舍·比松撰写的所有教堂必备的研究4,000,003.99
怪物 1932 年 TOD BROWNING 27 x 41 ONE SHEET 经典恐怖极其罕见!电影海报850,000.00
一块非常昂贵的石头?500,004.99
三星 SmartCam HD Pro 1080p 全高清 Wi-Fi 摄像头Wi-Fi 摄像头360,006.24
沛纳海 Jules Grande Complication手表275,504.49
FIGURE 6.12亚马逊上六笔最昂贵的购买。

FIGURE 6.12 亚马逊上六笔最昂贵的购买。

来源:Macquarie Research,Quandl,2017 年 9 月。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

FIGURE 6.13 基本数据的季节性模式:亚马逊的季度销售。

来源:Macquarie Research,Factset,2017 年 9 月。图表以对数刻度绘制。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们在介绍中提到,从大数据中推导出财务预测并不总是直接的。Expedia 是 Quandl 电子收据数据库涵盖的公司之一的一个很好的例子。正如 Expedia 收入表附注中所解释的那样,该公司不会将用户在其平台上预订的服务的总价值视为收入。相反,收入来源于 Expedia 收取的预订费,这不能直接从发送给其客户的收据中推断出。

即使费用是通过对预订成本应用固定百分比计算的,我们也无法从我们的数据中推导出总销售额的估算。每个业务线可能会收取不同的费用,销售按业务部门分解的情况随时间显著变化,正如 Expedia 的收据数据清楚显示的那样。

(图 6.15)。例如,与住宿相比,航班往往具有较低的利润率。

因此,在分析中融入深刻的基本见解对于充分利用大数据的潜力至关重要。在这种情况下,我们将不得不从公司为每个业务线(航班、住宿、汽车租赁)收取的典型费用的估算开始。然后,我们将能够使用我们的大数据样本进行预测

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

按段落累积总销售额的总数,并合计以获得头条销售额的估算。

6.3 处理大数据的挑战

我们在分析中使用的数据,在存储为平面文件时占用了超过 80 GB。它包括 4.7 百万个独特用户的 144.1 百万次购买(行)。因此,我们数据集的庞大规模(即使我们只能访问 Quandl 数据库涵盖的三个名称之一)使得使用标准数据库工具运行甚至最简单的查询变得困难。面对这一技术挑战,我们尝试了其他解决方案来在合理的时间范围内处理数据。

Amazon Redshift 被证明是我们首选的解决方案,因为它经过优化,可以使用简单的语法进行分析处理(只需要对我们的标准 SQL 查询进行少量修改),并且在我们的设置中,与 MySQL 相比速度显著提升(约为 10 倍)。Redshift 通过列而不是行的方式以压缩形式存储数据库表信息,从而减少了磁盘输入/输出请求的数量和从磁盘加载的数据量,特别是在处理像我们这样大量列的情况下。

将更少的数据加载到内存中,使得 Redshift 在执行查询时可以执行更多内存处理。此外,Redshift 查询引擎经过优化,可以在多个计算节点上并行运行查询,并且为了进一步提高速度,完全优化的代码以编译格式发送到计算节点。

6.4 预测公司销售额

股票投资者和分析师关注的最重要的指标之一是公司营收的增长。因此,销售额的意外变化已知会引发股价波动,并且分析师动量信号(即销售预测的修订)已被发现可以预测股票回报。

6.4.1 我们方法的总结

本节的目的是传达我们预测方法的基本原理。设置如图 6.16 所示:我们的任务是根据管理层发布的指导方针和我们电子邮件收据数据集中的信息来预测第 t 季度的销售额。

如图 6.16 所示,财政第 t 季度的实际收入数据在该季度结束后才可用,通常是在 t+1 季度的中期。使用收据数据集的一个优点是,我们可以在季度结束后立即生成预测,因为所有样本信息都每周更新。换句话说,我们样本中的用户在第 t 季度购买的所有信息在季度结束几天后就可用。

另外,我们可以利用频繁的更新,在第 t 季度的数据可用后进行实时预测,因为随着每周购买数据的更新,新的数据变得可用。我们将在本节末尾更详细地解释我们的方法论。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们利用了两个信息来源:管理指导和电子邮件收据。

前者由一系列值(预测收入)组成,可以转换为最新报告的季度的增长率范围。我们可以从测量一组用户在两个季度内增长的购买额开始。然后,可以将这一增长率与指导范围进行比较,以预测销售是否会在管理层指示的范围的下限或上限。如果样本内的增长率超出了指导范围,那么我们可以简单地假设销售额将位于范围的下限或上限。

例如,在 2016 年第三季度,亚马逊对销售的指导范围在 310 亿美元至 335 亿美元之间。这对应于第二季度的增长率在 2% 到 10.2% 之间,当时收入总额为 304 亿美元。如果 Quandl 监测的用户样本在 Q3 比 Q2 花费增加了 3.6%,那么我们将以 3.6% 作为我们的估计值,接近范围的下限。然而,如果我们样本的增长率为 12.5%(超出指导范围),那么我们将认为这一结果表明销售可能位于管理层指示的范围的顶端。因此我们将使用 10.2% 作为我们的估计值。

本节的其余部分表明,这种简单方法可以在正式的统计框架中得到证明。特别地,我们认为将两种信息源结合的一种自然方式是采用贝叶斯方法,并将指导视为先验信息。然后,我们处理数据以描述销售增长的后验分布(图 6.17),即在给定数据的情况下增长率的分布。

如图 6.17 所示,先验分布仅仅利用了指导中隐含的范围,例如增长率在 2%至 10.2%之间。后验的众数是先验分布中的假设样本增长率 3.6%。

6.4.2 贝叶斯方法

目标是根据两个样本估计在期间 1 和期间 2 之间的销售变化。形式上,我们假设有两组观察值可用:{y[11], ..., y[1n]}{y[21], ..., y[2n]}。让我们暂时忽略本节稍后将处理的两个复杂因素:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  1. 我们的样本可能引入了一些选择偏差,因为’Quandl 总体’与整体总体不同。

  2. 总体随时间增长。

我们假设每个样本是从两个时间点的大总体中抽取的。总体中的个体保持不变:一些个体花费为零,但没有新用户加入,也没有用户退出。我们还假设,在每个时间点给定分布的参数后,两个期间的支出是独立的,即分布的形状总结了关于消费增长的所有相关信息。

每个样本被假定从具有参数 i 的负指数分布中抽取:

p ( y ∣ λ i ) = λ i e − λ i y p(y\mid\lambda_{i})=\lambda_{i}e^{-\lambda_{i}y} p(yλi)=λieλiy

( 6.1 ) (6.1) (6.1)

p(y ∣ i) = ie−iy (6.1)

指数分布(图 6.18)是一个简单的设备,用于模拟具有严重偏斜分布的正随机变量。实际上,消费者购买的样本将被长尾右侧特征化,这反映了在期间内有少数用户支出非常大的金额。2 在给定参数 1 和 2 的情况下,假设这两个样本是独立抽取的。这相当于假设均值参数的变化总结了在期间 1 和期间 2 之间的总体变化的所有信息。

每个总体的均值是 1/i,这是指数分布的一个特性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

6.4.2.1 先验分布 感兴趣的主要数量是均值的比率 1 2

,其中捕捉了从期间 1 到期间 2 购买的平均金额的增长。我们定义 1 = 1/2,并设置如下的均匀先验:3

ϕ 1 ∼ U ( μ ‾ , μ ‾ ) \phi_{1}\sim U(\underline{{{\mu}}},\overline{{{\mu}}}) ϕ1U(μ,μ)

( 6.2 ) (6.2) (6.2)

1 ∼ U(, ) (6.2)

其中 和 为存货指导范围的上下界,以季度基础的增长率(加一)表示。我们强调,先验是不确定的,即我们不在管理范围内的任何其他值内强加任何其他结构。这在图 6.17 中有所说明。

该推导可向作者索取,首先选择了参数 的先验分布,即 Gamma 分布。这是我们对 1 的假设: 1∼Gamma(, )。然后,我们对第 2 时期人口的平均值施加了先验,以考虑存货指导所隐含的增长率范围:

λ 2 − 1 ∣ λ 1 ∼ U ( μ λ 1 , μ ‾ λ 1 ) \lambda_{2}^{-1}\mid\lambda_{1}\sim U\left(\frac{\mu}{\lambda_{1}},\frac{\overline{{{\mu}}}}{\lambda_{1}}\right) λ21λ1U(λ1μ,λ1μ)

其中量 ∕1 可视为时期 1 的平均值乘以增长率,该增长率等于指导范围的下限。

作为替代,我们还考虑了高斯先验和 Datta 和 Ghosh(1996 年)对 1 的不恰当先验。详情可向作者索取。

6.4.2.2 后验分布 本节描述了我们的收据数据集中参数的分布特征,即平均支出增长率。在推导后验分布时,我们使用了对先验的假设。

(方程(6.2))(Gamma 和均匀)以及似然(方程(6.1))(指数)来推断出给定数据的参数 1 的分布。

可以证明

p ( ϕ 1 ∣ d a t a ) ∝ { ( ϕ 1 s ) α + n ( 1 + ϕ 1 s ) − ( α + 2 n ) if μ ‾ ≤ ϕ 1 ≤ μ ‾ 0 otherwise p(\phi_{1}\mid d a t a)\propto\begin{cases}\left(\frac{\phi_{1}}{s}\right)^{\alpha+n}\left(1+\frac{\phi_{1}}{s}\right)^{-(\alpha+2n)}&\text{if}\underline{{{\mu}}}\leq\phi_{1}\leq\overline{{{\mu}}}\\ 0&\text{otherwise}\end{cases} p(ϕ1data) (sϕ1)α+n(1+sϕ1)(α+2n)0ifμϕ1μotherwise

其中 s = ∑iy2i/( + ∑iy1i)。后验分布在 ≤ 区间内具有

1 ≤ ,一个属于 Pearson 分布家族的众所周知的表达式,并且可以重写为 F 分布的转换。因此,其众数可以明确计算,而其均值和中位数可以通过数值积分计算。后验分布如图 6.17 右侧所示。

在实践中,我们可以使用后验分布的众数作为销售增长的估计值。我们首先建立每个时期平均支出的估计器:

λ ^ 1 = α + n β + ∑ i y 1 i , λ ^ 2 = n ∑ i y 2 i {\widehat{\lambda}}_{1}={\frac{\alpha+n}{\beta+\sum_{i}y_{1i}}},\quad{\widehat{\lambda}}_{2}={\frac{n}{\sum_{i}y_{2i}}} λ 1=β+iy1iα+n,λ 2=iy2in

值得注意的是

̂1 只是 1 的后验分布的均值,而

̂2 是第 2 时期样本均值的倒数。然后,增长率的最大后验概率(MAP)估计值为

ϕ ^ 1   M A P = { μ λ ^ 1 / λ ^ 2 if   λ ^ 1 / λ ^ 2 < μ λ ^ 1 / λ ^ 2 if   μ ≤ λ ^ 1 / λ ^ 2 ≤ μ ‾ μ ‾ if   λ ^ 1 / λ ^ 2 > μ ‾ (6.3) \widehat{\phi}_{1\,\mathrm{MAP}}=\begin{cases}\frac{\mu}{\widehat{\lambda}_{1}/\widehat{\lambda}_{2}}&\text{if}\,\widehat{\lambda}_{1}/\widehat{\lambda}_{2}<\mu\\ \widehat{\lambda}_{1}/\widehat{\lambda}_{2}&\text{if}\,\mu\leq\widehat{\lambda}_{1}/\widehat{\lambda}_{2}\leq\overline{\mu}\\ \overline{\mu}&\text{if}\,\widehat{\lambda}_{1}/\widehat{\lambda}_{2}>\overline{\mu}\end{cases}\tag{6.3} ϕ 1MAP= λ 1/λ 2μλ 1/λ 2μifλ 1/λ 2<μifμλ 1/λ 2μifλ 1/λ 2>μ(6.3)

因此,我们可以通过在两个时期的参数估计之比来估计增长率。如果估计值超出了指导中隐含的范围,则我们将取较低或较高边界作为我们的估计。值得注意的是,随着样本量的增加,先验分布对估计的影响往往会消失,即参数和变得无关。

6.4.2.3 我们的样本具有代表性吗? 在本节中,我们介绍了一种简单的调整方法,处理由于抽样误差可能产生的潜在失真。Quandl 数据集相关的人口可能与全球客户和潜在客户的更广泛人口性质不同。此外,正如下一节为亚马逊案例研究所详述的,企业的电子商务部分可能不允许我们就整个业务的销售增长得出结论。

季度季节性效应可能是一个问题,因为企业的不同部分可能有非常不同的模式。特别是电子商务可能会在 12 月和季节性销售期间显示出更明显的高峰,这将导致我们高估这些效应的影响。此外,我们很可能捕捉到的是倾向于年轻化并且更广泛使用电子商务平台的客户子集,而这些客户不代表整个人口。

一个简单而实用的方法是将从我们的样本中测得的增长率视为与实际感兴趣的变量相关的信号,即全体人口的增长率。形式上,我们可以将其写为

g t = f ( ϕ t ) + ε t g_{t}=f(\phi_{t})+\varepsilon_{t} gt=f(ϕt)+εt

其中,gt 是销售季度环比增长率。然后我们可以利用数据拟合一个适当的函数 f,例如通过使用诸如核回归之类的非参数方法。然而,在我们的案例中,由于我们历史样本的长度极短,我们更倾向于专注于一个考虑到季节性因素的线性模型:

g t = β ′ f t   ϕ t + ε t g_{t}=\beta^{\prime}f_{t}\,\phi_{t}+\varepsilon_{t} gt=βftϕt+εt

其中是一个 4 × 1 的季度斜率向量,ft 是一个 4 × 1 的向量,根据时间索引 t 指示的季度选择正确的斜率,即 ft = (f1t, f2t, f3t, f4t)

f q t = { 1 0 f_{q t}=\left\{\begin{array}{l}{{1}}\\ {{0}}\end{array}\right. fqt={10

i f t = 4 k + q     f o r   s o m e   k ∈ N o t h e r w i s e \begin{array}{l}{{i f t=4k+q\,\,\,f o r\,s o m e\,k\in\mathbb{N}}}\\ {{o t h e r w i s e}}\end{array} ift=4k+qforsomekNotherwise

产品

′ft 是一个随着时间变化的缩放因子,因为受到季节效应的影响。可以通过回归从数据中估计系数向量。在经验分析中,我们还考虑了一个简单的变体,其中所有 的分量相等。

一旦模型被估计,就可以生成一个经过偏差校正的大数据预测版本

̂1MAP:

ϕ ~ 1 t M A P = β ′ ^ f t   ϕ ^ 1 t M A P \widetilde{\phi}_{1t M A P}=\widehat{\beta^{\prime}}f_{t}\,\widehat{\phi}_{1t M A P} ϕ 1tMAP=β ftϕ 1tMAP

( 6.4 ) (6.4) (6.4)

然而,似乎很重要允许季节性组分本身的时间变化。例如,如果公司不同业务的相对重要性发生变化,那么我们可以预期最佳缩放系数也会相应变化。处理这个潜在问题的一种简单方法是将斜率向量 视为(缓慢)变化的系数。在这种情况下可以使用的流行模型之一是状态空间模型,将系数向量视为随机游走:

g t = β t ′ f t   ϕ t + ε t g_{t}=\beta_{t}^{\prime}f_{t}\,\phi_{t}+\varepsilon_{t} gt=βtftϕt+εt

β t = β t − 1 + η t \beta_{t}=\beta_{t-1}+\eta_{t} βt=βt1+ηt

其中 t 和 t 是均值为零、方差为 2 , 方差为 2 的扰动项。该模型可以用先验 0∼N(1, I) 初始化,并通过卡尔曼滤波器和平滑器(KFS)进行估计。参数 2 , 2 和 可以根据数据进行校准。由于我们样本的持续时间有限,我们不再深入探讨这个想法。

另一个潜在的偏倚来源是人口增长。我们的样本不包括任何活跃用户(即已选择加入 Quandl 数据库并可联系到的用户),但选择不在电子商务平台上购买任何产品。这应该捕捉到一般人口水平上用户增长的一个方面,即开始使用该平台的新客户。然而,由出生、死亡和移民引起的美国人口规模和人口构成的变化也可能影响电子商务销售的增长。例如,大量移民可能会增加销售额。同样,年轻的人口可能更倾向于在线购物。

在我们的分析中,当计算增长率时故意保持人口恒定,这样我们的结果就不会误以为是应用程序用户的增长导致的。鉴于大部分收入来自人口增长较低的发达国家,这种影响似乎可以忽略不计,我们决定忽略它。另一种方法是明确建模用户增长,并将其添加到从样本中获得的销售增长的预测中。

6.5 实时预测 6.5.1 我们的结构时间序列模型

本节处理实时生成季度销售额预测的问题,即在季度期间有新的每周更新可用时更新当前预测。为了避免不必要地复杂化符号,我们将每个季度人为地划分为 13 个期间,将其称为“周”。在实践中,当季度的天数不完全是 91 天时,我们允许较长或较短的第 13 个“周”。在闰年中,我们总是假设第一季度的第 9 周有八天。我们的命名约定的完整描述见图 6.19。

以亚马逊为例,图 6.20 显示了我们数据集中捕获到的购买在每个季度内显示出强烈的季节性模式。我们绘制了一个周销售的指数,该指数在每个季度内归一化为单位平均值(与图 6.14 不同,在图 6.14 中,我们强加了整个日历年的单位平均值)。因此,需要对季节性进行建模,以便基于每周数据生成有用的预测。例如,如果我们仅查看了 Q4 上半年的累计销售额,我们可能会低估增长,因为大多数购买通常在 12 月份进行。

为了简化符号,我们将区分季度销售额 Yt 和季度 t 期间观察到的周销售额 Yt, n,其中 n 标识特定的周,因此 1≤n≤13。按照∑13 n=1 Yt,n = Yt 构建。

我们的周时间序列模型可以写成

Yt,n = Yt(It,n + ΛnMt,n) + ut,n, n = 1*, …,* 13

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

10 月 01 日 10 月 08 日 10 月 15 日 10 月 22 日 10 月 29 日 11 月 05 日 11 月 12 日 11 月 19 日 11 月 26 日 12 月 03 日10 月 07 日 10 月 14 日 10 月 21 日 10 月 28 日 11 月 04 日 11 月 11 日 11 月 18 日 11 月 25 日 12 月 02 日 12 月 09 日

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传 7 7 7 7 7 7 7 7 7 7 7 8

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中It,n是一个不规则成分,捕捉例如亚马逊的prime日对销售的影响,Λn 是季节性成分,而Mt,n是捕捉周具有不规则持续时间效应的乘数(例如,在 Q1 结束时的六天星期)。 期望误差。系数随我们建模的季度而变化(即,Q1 的第一周与 Q4 的第一周不同),但我们只使用下标 t 来保持符号简单。

需要注意的是,假定季节性成分Λn 在不同年份间是恒定的,而prime day的日期和乘数 M

随时间变化(后者是因为闰年)。为了关闭模型,我们施加了限制。

t=1

( I t , n + Λ n M t , n ) = 1 (I_{t,n}+\Lambda_{n}M_{t,n})=1 (It,n+ΛnMt,n)=1

以便

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

E(Y)可以被视为季度销售额的预期总和。

6.5.2 估计与预测

由于模型的乘性特性,我们可以直接从图 6.20 中所示的规范化销售系列估计参数,即我们可以使用比率 Yt,n/Yt 进行计算。 Prime Day 的效应 It 可以通过对平均值进行估算来估计

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Prime Day 周的规范化销售与没有举行 Prime Day 的同一周的规范化销售之间的差异。

由于一年中的天数已知,因此乘数 Mt 是已知的。为了估计季节性组件 Λn,我们使用 KFS 对比率 Yt,n/Yt(在减去不规则组件之后)拟合了一个三次样条曲线。7 亚马逊的估计结果绘制在图 6.21–6.24 中。从图中可以清楚地看出,季节效应在最后一个季度中更加明显。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

假设我们已经观察到新季度前 s < 13 周一组客户的每周购买情况,那么我们可以预测整个季度的总数为

Y ^ t ∣ s = ∑ n = 1 s Y t , n ( ∑ n = 1 s ( I t , n + Λ ^ n M t , n ) ) − 1 \hat{Y}_{t|s}=\sum_{n=1}^{s}Y_{t,n}\left(\sum_{n=1}^{s}(I_{t,n}+\hat{\Lambda}_{n}M_{t,n})\right)^{-1} Y^ts=n=1sYt,n(n=1s(It,n+Λ^nMt,n))1

季度增长率随后可以使用前一节介绍的方法进行预测。

6.6 案例研究:Http://Amazon.Com 销售 6.6.1 背景

在本节中,我们将上面讨论的方法应用于预测亚马逊的季度收入问题。在 Quandl 数据库中,亚马逊是观察次数最多的公司。此外,它是一个需要结合定量和基本洞察的复杂结构的公司的很好的例子。

亚马逊报告业务部门的季度销售额分拆,这在一段时间内发生了变化。在图 6.25 中,我们绘制了两个广泛类别的相对重要性:电子商务和其他销售(其中包括亚马逊网络服务,AWS)。由于我们数据集的特性,通过集中研究电子邮件收据,我们只能调查美国电子商务销售的趋势。图 6.25 表明,尽管由于快速增长,来自电子商务的收入占总收入的比例很大,但占比正在下降。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AWS 的增长。8 同样,我们可以从图 6.26 看出,向北美客户(我们可以接近美国销售的客户)的销售额占总销售额的一半以上。

然而,我们无法得出结论,专注于美国电子商务将产生无偏的预测。首先,正如我们在前一节中所论述的,我们的样本仍可能具有显著的选择偏差,因为我们无法确定 Quandl 样本是否代表美国人口。

其次,即使非通过电子商务平台预订的销售比例和发生在美国以外的销售比例都很小,这些部分的增长率可能完全不同,最终导致我们的预测出现偏差。

为了解决这个潜在的问题,我们将销售增长(按季度计)分解为各地区的贡献加上 AWS(图 6.27–6.30)。在每个图中,柱的总高度代表了亚马逊相应季度营收的增长率。通过将每个部分的相对权重与其季度增长率相乘来获得各个组成部分。

结果表明,AWS 对总体销售增长的贡献仍然较小,特别是在 Q1 和 Q4。然而,在 Q2 和 Q3 的预测中,它变得越来越重要。北美和世界其他地区对总体增长率都有显著贡献,但在大多数情况下,前者占据较大份额。

结论是,专注于美国不太可能导致显著偏差,但忽视 AWS 部门(最近增长速度远远快于电子商务)似乎越来越危险。通过业务部门的分解(这里省略以节省空间)得出类似的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

6.6.2 结果

现在我们转向预测头条销售数字的问题。但在这样做之前,我们通过散点图(图 6.31)检查了总销售增长与电子商务收入增长之间的差异。黑色实线上方的点表示电子商务增长速度超过总体增长速度的季度。

如预期的那样,这往往发生在 Q4(当季度增长率超过 30%时)因为圣诞节销售高峰期。图 6.32 显示,专注于美国的销售本身不太可能导致显著的偏差。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们实施了上一节中讨论的估计器,以预测亚马逊季度销售增长。图 6.33 呈现了我们对预测的替代版本的结果,并将其与共识进行了比较,即从 I/B/E/S 在日历季度结束后一周获取的平均分析师估计值。到那时,所有季度的客户交易都已经处理并由 Quandl 添加到数据库中,因此两个预测都是可用的。

表格的中间部分显示,与共识相比,大数据估算表现出了良好的比较:预测的两个版本都显示出了较低的平均绝对误差(MAE)。

与平均分析师预测相比。由于样本期间早期出现了一些导致大误差的离群值,根均方误差(RMSE)将倾向于共识。在第三列中,我们显示命中率,即我们的预测改善共识的次数,作为总样本量的百分比。

预测器MAERMSE击中率
共识(1)1.76%2.11%
收据和指导(2)无偏差校正 偏差校正1.64% 1.51%2.34% 2.40%66.7% 66.7%
结合(1)-(2)无偏差校正 偏差校正1.21% 1.32%1.47% 2.15%75.0% 75.0%

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们在三分之二的时间内取得了改善。尽管时间序列中的观察次数确实有限,但我们的分析似乎表明,大数据估计至少与共识一样准确。

通过偏差校正进一步改善了估计(以 MAE 为指标),这再次表明 Quandl 样本不是不受选择偏差影响的。然而,我们的结果表明,通过使用上一节详细介绍的简单解决方案,即方程(6.4),可以准确建模偏差。随着更长的时间序列的可用性,如果表征我们样本偏差的季节模式随时间变化,则可能需要使用先前建议的自适应估计。

在图 6.33 底部,我们提供了分析师估计和大数据相结合的结果。在这里,两个预测值简单地通过取两个值的平均值来结合。这导致准确性的提高,无论是以 MAE 还是命中率来衡量,后者达到了 75%。尽管就 RMSE 而言,证据不如预期(校正偏差版本与共识相比略高),但总体而言,结果突显了通过结合大数据和分析师的基本见解所能获得的预测能力的改善。

图 6.34 给出了大数据预测与实际值之间距离的图形印象(图表中未使用分析师输入)。预测似乎紧随销售实际增长,估计误差似乎随着时间序列观测次数的增加而减小。再次,这一结果可以归因于,随着用于估计的扩展窗口增加,偏差校正机制变得越来越准确。

6.6.3 综合考虑

对比我们的大数据估计与时间的共识也很有用(图 6.35 和 6.36)。在图 6.35 中,我们绘制了两个估计器的预测误差。

在样本期间早期(特别是 2014 年第四季度)发生的相对较大的误差导致我们的预测显示较高的 RMSE。有趣的是,共识显示了季节模式:分析师往往低估 Q1 销售额,并高估 Q4 销售额。在大数据预测中找不到这样的模式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 6.36 以稍微不同的方式呈现相同的信息,通过绘制预测和实际销售意外。实际数字计算为报告数字与共识之间的差异(在形成预测时不可访问的)。预测意外是我们的大数据估计和共识之间的差异,即如果我们的估计器被证明是 100% 准确的,会发生的意外。从图中明显可见第 4 季度的强烈负面意外的模式。除了两次例外(2014 年第 3 季度和 2015 年第 4 季度),我们将能够在每个季度中正确预测意外的符号。

图 6.33 中一个令人惊讶的结果是,使用偏差校正(表格的最后一行)的预测组合表现不佳,与不使用偏差校正的情况相反。这与使用大数据估计器时,当单独使用时受益于偏差校正的证据不符。为什么当我们的估计器与共识结合时,结论会发生变化呢?事实证明,如果我们依赖 Quandl 数据而不试图校正偏差,我们在第 4 季度往往比共识更不乐观,在第 1 季度至第 3 季度更乐观。正如图 6.37 明确显示的那样,我们样本中的增长率往往低于第 4 季度的报告数字,而在其余时间,特别是第 1 季度,则高于年度报告数字。这正好与共识显示的错误模式相反(图 6.35)。因此,与“两个错误不构成一个正确”的古话相反,当我们结合两个估计时,错误会相互抵消,从而提高了 MAE 和特别是 RMSE。然而,我们不解释我们的结果表明应该在将大数据与分析师预测结合使用时使用原始估计器 ̂1MAP。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

模型输入MAERMSE命中率
不当的先验收入数据
指数收入,指导
高斯收入,指导5.14% 1.64% 1.64%6.52% 2.34% 2.34%33.3% 66.7% 66.7%
指导中值指导2.73%3.23%16.7%
季度平均增长率历史增长率7.86%12.94%25.0%

图 6.38 结果稳健。数据覆盖了 2014 年第 2 季度至 2017 年第 1 季度的时间段。

出处:Macquarie Research、Quandl、Fact Set、I/B/E/S,2017 年 9 月。

为了得出强有力的结论,需要更好地理解偏差的驱动因素。

图 6.38 的上半部分评估了我们的大数据估计器的表现在多大程度上受到两个输入的影响,即指导和收据数据。我们首先检查结果对我们选择的先验分布的敏感性。有两种方法:

通过仅依赖于 Quandl 数据得出一个预测的方法。这相当于对增长率的不当先验,就像 Datta 和 Ghosh(1996)所提倡的那样。

  1. 使用基于正态先验而不是我们的 Gamma-指数模型的模型。9

我们的基准模型在表中被称为指数

忽略来自管理指导的信息会导致估计器质量显著恶化,例如,MAE 从 1.64%上升到 5.14%。命中率仅为 33.3%。然而,单独的指导并不足以匹配我们的大数据估计器的预测准确性。在图 6.38 中,我们展示了指导中点(即指导范围中间的点)作为未来季度增长的估计的性能指标。得到的 MAE(2.73%)和 RMSE(3.23%)明显高于图 6.33 中的任何预测因子。命中率低于 20%。总之,我们方法中的两个要素(指导和大数据)在提供极其准确的销售估计方面发挥着重要作用。我们的结果表明,指导在减少可能结果范围方面很重要,而 Quandl 数据集则提供了关于范围内增长率可能性的宝贵信息。

图 6.38 还包含了一个天真的预测结果,即历史平均增长。

鉴于强烈的季节效应,我们计算了每个季度(Q1-Q4)的历史季节平均值,从扩展窗口中获得。其性能明显比迄今考虑的其他方法差得多。

6.6.4 实时预测

在本节中,我们实施前一节讨论的方法,以模拟随着 Quandl 数据库的每周更新而实时估计销售增长。

我们根据前 t<13 周的数据推断整个季度的增长率,然后应用上述纠正潜在偏差并整合来自管理指导的信息的估计程序。

可用数据库对系统分析来说太短了。因此,我们将重点放在样本期间的最后四个季度(2016 年第二季度至 2017 年第一季度),并展示了一个样本外分析的结果。唯一使用完整样本估计的参数是影响周销售的季节性组件(如图 6.21-6.24 所示),这些估计是使用 2014 年至 2016 年的数据进行估计的,并用于推断每周销售趋势。我们承认这可能会产生轻微的前瞻性偏差。但是,这种偏差不会影响 Q1 2017 的样本外分析。此外,任何前瞻性偏差仅在每个季度的前期才相关,因为随着更多周的数据变得可用,我们的推断过程对结果的影响变得不那么重要。一旦日历季度结束,估计值就不再变化,我们对每周季节性影响的估计也不再需要。

图 6.39-6.42 显示了结果的时间序列图。灰线代表共识估计,而黑线显示了我们实时大数据预测的演变。此外,我们以灰色阴影区域的形式图形化地表示了管理指导所暗示的增长率范围,该区域始于发布指导的日期。最后,每张图片中的红点代表实际报告值。

在所有四种情况下,当亚马逊发布其结果时,大数据估计都比共识更准确。我们在这里评估了 Quandl 数据库中的信息需要多长时间才能产生足够准确的估计。

有趣的是,共识在发布指导后往往会有较大幅度的变动(图 6.39 是一个明显的例子),然后保持在范围内。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

出处:Macquarie Research、Quandl、Factset、I/B/E/S,2017 年 9 月。

管理层指示的指导范围内。与指导范围相比,共识值在此后往往变动很小,并且通常保持在上半部分。

我们的大数据估计在日历季度结束后保持不变(例如,在 6 月 30 日,在图 6.39 中有一周的滞后)因为在那之后没有新信息可用。在这个分析考虑的期间内,只有在一个案例中,Quandl 样本产生的增长率超过了指导范围(图 6.42)。图中的虚线代表原始估计值。在 2016 年 Q3(图 6.40)中,估计值开始高于上限(并向中间收缩),但随着更多周的数据变得可用,它逐渐减小直到进入指导范围。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们的大数据预测通常比共识更不稳定,特别是在季度初期甚至在发布指导之前更加明显。尽管如此,值得注意的是,这两种预测——分析师预测和大数据预测——很少交叉(图 6.42 中仅一次),这表明即使在季度初期也能预测到销售意外的方向。

参考文献

Adrian, T. and Franzoni, F. (2009). 学习有关 Beta 的知识:时间变化的因子负载、预期收益和条件性 CAPM。J. Empir. Financ. 16:537–556。

Ben-Rephael, A., Da, Z., 和 Israelsen, R.D. (2017). 这取决于你在哪里搜索:机构投资者的关注度和对新闻的反应不足。 Rev. Financ. Stud., 30: 3009–3047。

Brar, G., De Rossi, G., 和 Kalamkar, N. (2016). 使用文本挖掘工具预测股票回报。

在:金融情感分析手册(ed. G. Mitra and X. Yu)。伦敦:OptiRisk。

Das, S.R. 和 Chen, M.Y. (2007). 从网络上的闲聊中提取情感:Yahoo!适用于亚马逊。 Manag. Sci., 53: 1375–1388.

Datta, G.S. 和 Ghosh, M. (1996). 关于非信息先验的不变性。Ann. Stat., 24:

141–159。

Donaldson, D. 和 Storeygard, A. (2016). 俯瞰全局:在经济学中应用卫星数据。 J. Econ. Perspect., 30: 171–198.

Dragulescu, A. 和 Yakovenko, V.M. (2001). 指数和幂律概率分布。

财富和收入的分布。 Phys. A., 299:

213–221。

Gholampour, V. 和 van Wincoop, E. (2017). 我们可以从欧元美元推文中学到什么?

NBER 工作论文编号 23293。

Green, T.C., Huang, R., Wen, Q. 和 Zhou, D. (2017). 员工群体的智慧:

雇主评论和股票回报,工作论文。可在 SSRN 上获取:https://ssrn.com/

abstract=3002707.

Johnson, N.L., Kotz, S., 和 Balakrishnan, N. (1995). 连续单变量分布

vol. 2. 纽约:Wiley。

Madi, M.T. 和 Raqab, M.Z. (2007). 使用广义指数分布的贝叶斯降雨记录预测。 Environmetrics, 18: 541–549。

Perlin, M.S., Caldeira, J.F., Santos, A.A.P., 和 Pontuschka, M. (2017). 我们可以根据 Google 的搜索查询预测金融市场吗? J. Forecast., 36: 454–467。

Rajgopal, S., Venkatachalam, M., 和 Kotha, S. (2003). 网络优势的价值相关性:电子商务公司的案例。 J. Account. Res., 41: 135–162。

Trueman, B., Wong, M.H.F., 和 Zhang, X.J. (2001). 回归基础:预测互联网公司的收入。 Rev. Acc. Stud., 6: 305–329.

Wahba, G. (1978). 不恰当的先验、样条平滑和回归中防止模型错误的问题。 J. R. Stat. Soc. Ser. B 40: 364–372.

"本文最初由麦格理研究于 2017 年 9 月 11 日向其客户发布的报告中发表。本文中的观点反映了所列作者的观点。本文中的任何内容不应被视为投资建议或投资建议。

本文基于据信为可靠的信息获得,不作准确性、完整性或最新性的声明或保证。麦格理对因使用本文而导致的任何直接、间接、后果性或其他损失概不负责。版权所有。©麦格理集团 2017 年"

第七章:应用于量化股票:梯度提升在多因子框架中的集成学习

Tony Guida 和 Guillaume Coqueret

7.1 引言

一个既直观又有充分文献支持的事实是,公司在股票市场上的表现受到它们某些核心特征的驱动。在他们的开创性文章中,法玛和法伦奇(1992)表明,具有较高账面市值比的公司明显优于那些具有较低账面市值比的公司。他们还报告说,小公司的回报往往高于大公司的回报。后来,杰格迪什和提特曼

(1993, 2001) 构建了异常盈利的(动量)投资组合,通过购买表现优异的股票和做空表现不佳的股票。

此类发现导致了所谓的因子指数的构建,投资者购买表现高于平均水平的股票并卖出低于平均水平的股票。关于这些异常的文献非常庞大,并且有自己的元研究(例如见 Subrahmanyam 2010; Green et al. 2013; Harvey et al. 2016)。

2016)。2 这是否源于真正普遍(和定价)的影响股票回报横截面的因素(这是法玛和法伦奇 1993 年启动的文献流)或者直接来自公司特征,正如丹尼尔和提特曼(1997)提出的那样,这个问题是有争议的。

无论如何,有很大的共识认为,投资者应该能够从引入公司特征到其资产配置过程中受益。

这些貌似显而易见的建议更为重要,因为智能贝塔指数正在重塑资产管理行业(Kahn and Lemmon 2016)。除了简单的投资组合构建过程外,3 出现了更复杂的方法,例如 Brandt et al. (2009) 和 Ammann et al. (2016) 中所述。

人工智能(AI)的崛起,特别是机器学习(ML)在无关领域(计算机视觉、翻译等)的应用,已经影响了量化管理者如何处理手头所有数据的方式。最近的贡献包括贝叶斯推理(Bodnar et al. 2017)、旗形图案识别(Arévalo et al. 2017)、聚类(Nair et al. 2017)、随机森林、提升树和神经网络(Ballings et al. 2015; Patel et al. 2015; Krauss et al. 2017)甚至是循环神经网络(Fischer and Krauss 2018)等技术。

这些文章的限制在于预测变量通常仅限于价格数据或可能是技术数据。这是次优的,因为正如资产定价文献已经证明的那样,还有许多其他可作为解释变量的候选因素。

在本章中,我们建议充分利用 ML 总体和提升树特别是其优势,例如非线性,正则化和良好的泛化结果,以及随着大量数据的增加而良好的扩展性。本文的贡献与 Ballings 等人的工作(2015 年)精神上最接近。两者之间的主要区别在于标签过程的复杂性:Ballings 等人(2015 年)只考虑价格方向,而我们采用更结构化的方法。

本章的组织如下。在第 7.2 节中,我们对提升树进行了略微技术性的介绍。第 7.3 节专门介绍数据和协议,将介绍数据集的构建,包括特征和标签工程,我们将在随后的章节中使用的协议以及通过计算机科学界建立的严格协议进行 ML 的校准。

7.2 提升树初探

本节专门介绍决策树和提升树的自包含且合理技术性的介绍。有关更多详细信息,请参阅 Friedman 等人(2009 年)的第九章和第十章。

我们考虑一个被分成两部分的数据库:解释变量,聚集在矩阵 x 中,以及我们的目标变量,为简单起见,我们假设它是一个向量,y。设 T 为数据中的出现次数,K 为解释变量的数量:矩阵 x = xt,k 的维度为(T× K)。因此,我们将 xt 记为包含出现 t 的所有字段的 K 值向量。

树的目的是将数据(即(x,y)的集合)分割成尽可能相似的簇。如果 y 是一个数值变量,这意味着减少簇内的方差;如果是一个分类变量,则意味着减少簇的’不纯度’(我们寻求一个明显占优势的类)。

为了简化演示,我们首先处理回归树。在树的根部,变量 j 的最佳分割 s 是这样的,即根据该变量形成的两个簇的 y 的总方差最小:

V j s = ∑ t = 1 T 1 { x t , k > s } ( y t − μ j + ) 2 + ∑ t = 1 T 1 { x t , k ≤ s } ( y t − μ j − ) 2 , V_{j}^{s}=\sum_{t=1}^{T}{\bf1}_{\{x_{t,k}>s\}}(y_{t}-\mu_{j}^{+})^{2}+\sum_{t=1}^{T}{\bf1}_{\{x_{t,k}\leq s\}}(y_{t}-\mu_{j}^{-})^{2}, Vjs=t=1T1{xt,k>s}(ytμj+)2+t=1T1{xt,ks}(ytμj)2,

其中 μ j + \mu_{j}^{+} μj+ μ j − \mu_{j}^{-} μj

其中+j 和−j 是簇内平均值:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

符号 1{.}表示指示运算符:如果 x 为真,则 1{x}等于 1,否则等于零。对于所有解释变量 j,该算法在所有可能的值 s 上最小化 Vsj,并保留使得总方差最小的那个值。然后进行第一次分割,然后在生成的两个簇上重复该过程。

注意在 Vsj 的定义中

,术语(yt − ±j)

2 仅仅是缩放的方差,因为我们构建了一个回归树。与线性回归的类比很明显:经典的最小二乘估计器也试图最小化实际数据与预测值之间的方差。在分类树的情况下,方差的计算被一个捕捉群集不纯度的度量所替代。这样的度量的一个流行选择是交叉熵。如果 s±k 是由排序 s 产生的两个聚类中 y 的 K± 类别的比例,交叉熵是不纯度的常用度量:− ∑k±

k=1 s±k log(s±k ). 最小化交叉熵通常会导致一个主导类的出现(至少,这是其目的)。

当节点分裂成两个时,树会逐步增长,而拟合度会随着叶子节点数量的增加而自然增加。显然,叶子节点数为数百个的树很可能会过拟合数据。确定节点数量的标准通常是一个线性组合:拟合度减去一个惩罚项,该惩罚项由叶子节点数量的倍数组成。

一旦建立了一棵树,增强的背后思想是将其与一棵或多棵其他树组合起来,以增加拟合度(这是集成学习的一个特例)。一种直观的解决方案是训练多个分类器,并将它们的预测组合成一个输出信号。在他的开创性贡献中,Schapire(1990)建议拟合三棵树,然后对二元分类进行多数投票。这一思想的改进导致了 AdaBoost 分类器族的发展(Freund 和 Schapire 1997)。有关此主题的综述,请参阅 Friedman 等人的文章(2000)。在后两篇文章中,作者们表明 AdaBoost 原理具有简单的加法表示。

为了图形化地说明这些观点,我们在图 7.1 中绘制了两棵简单的树。我们只对决定性特征感兴趣,即 y。后者的值通过颜色编码,并且树的目的是建立具有相似颜色的聚类。两棵树最终都形成了一个“热”聚类(左侧/叶子 1/第一棵树),但它们在确定第二个实例 y2 的位置上有所不同。现在,如果我们要预测具有类似于 y2 的特征的新事件的颜色,我们的预测将混合两个相应聚类的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在我们更深入地指定加法方法。让我们从一个拟合的树开始,然后让我们在其上“叠加”另一棵树,以减小第一棵树的误差(例如,通过将新树拟合到残差)。让我们称第一棵树为 T1。

第二棵树 T2 是按以下方式构建的:T2(xt) = T1(xt)+2f2(xt),其中 2 和 f2 被选择为使 T2 最小化损失函数(例如总方差或加权交叉熵的加权和)。该过程可以任意次迭代,当然:

T m ( x t ) = T m − 1 ( x t ) + γ m f m ( x t ) . T_{m}(x_{t})=T_{m-1}(x_{t})+\gamma_{m}f_{m}(x_{t}). Tm(xt)=Tm1(xt)+γmfm(xt).

真正的挑战显然是找到最优的 m 和 fm。 最近的方法 4 使用基于梯度的技术解决了这个问题。 下面,我们描述了 XGBoost 背后的算法(Chen 和 Guestrin 2016)。 对于每个发生的情况,该方法归结为计算来自不同树的预测的加权和。

我们从一些符号开始。 我们将 ̂ym 写成过程的第 m 次迭代的预测。 L 是损失函数,例如回归树的加权方差或多类分类的加权交叉熵。 我们希望最小化的目标是以下内容:

Λ m = ∑ t = 1 T L ( y t , y ^ t m + f m ( x t ) ) + Ω ( f m ) , \Lambda^{m}=\sum_{t=1}^{T}L(y_{t},\hat{y}_{t}^{m}+f^{m}(x_{t}))+\Omega(f^{m}), Λm=t=1TL(yt,y^tm+fm(xt))+Ω(fm),

其中 f m 是我们正在寻找的函数(在这里,是树)。 (f m) 是一个正则化项,用于惩罚树的复杂性。 我们用 q 抽象地表示 f m 的结构

(节点/分裂)。 另外,我们将叶子的数量设置为 J,没有损失一般性。

和它们的权重(在最终加权和中)为 wj。 假设对于 (f m) 采用 L2 形式,并使用关于 ̂ymt 的 L 的二阶泰勒展开,目标简化为近似形式

Λ ~ m = ∑ t = 1 T [ g i f m ( x t ) + 1 2 h i f m ( x t ) 2 ] + λ 2 ∑ j = 1 J w j 2 , \widetilde{\Lambda}^{m}=\sum_{t=1}^{T}\left[g_{i}f^{m}(x_{t})+\frac{1}{2}h_{i}f^{m}(x_{t})^{2}\right]+\frac{\lambda}{2}\sum_{j=1}^{J}w_{j}^{2}, Λ m=t=1T[gifm(xt)+21hifm(xt)2]+2λj=1Jwj2,

其中 gi 和 hi 对应于泰勒展开中的前两个导数。 如果我们定义叶子号 j 的实例集:Ij = {i ∣ q(xt) = j},那么

Λ ~ m = ∑ j = 1 J [ w j ∑ k ∈ I j g k + w j 2 2 ( ∑ k ∈ I j b k + λ ) ] , \widetilde{\Lambda}^{m}=\sum_{j=1}^{J}\left[w_{j}\sum_{k\in I_{j}}g_{k}+\frac{w_{j}^{2}}{2}\left(\sum_{k\in I_{j}}b_{k}+\lambda\right)\right], Λ m=j=1J wjkIjgk+2wj2 kIjbk+λ ,

并且对于每个给定的叶子,最小化的权重是:

w j ∗ = − ∑ k ∈ I j g k ∑ k ∈ I j b k + λ . w_{j}^{*}=-\frac{\sum_{k\in I_{j}}g_{k}}{\sum_{k\in I_{j}}b_{k}+\lambda}. wj=kIjbk+λkIjgk.

然后的问题是找到一个合适的树结构,这通常通过一些贪婪算法来执行。 注意,在上述权重中,梯度位于分子上,这在给定负号时似乎很直观:按照惯例,算法朝相反的方向前进。 最后,可以加入改进以进一步增强算法。 其中一种可能性是收缩。 其背后的想法是全面学习可能会使优化朝着正确的方向,但是太远了。

因此,新增加的树可以稍微被因子稀释,这为未来的树留下了更多的空间:

Φ m ( x t ) = T m − 1 \mathbf{\Phi}_{m}(\mathbf{x}_{t})=T_{m-1} Φm(xt)=Tm1

Tm(xt) = Tm−1(xt) + mfm(xt).

另一种可能性是子采样,我们参考原始贡献以了解有关此主题的更多详细信息。

7.3 数据和协议

本节描述了我们的 ML 模型使用的数据和实证协议。 我们专注于美国股票,以避免处理欧洲或全球股票中可能出现的不同货币和国家。 我们还选择了美国股票的宇宙,因为其财务指标的覆盖范围更广,相对效率更高。

因此,我们将术语“特征”或因变量互换使用,以表达股票特征。在本节中,我们将解释已执行的特征转换,以使每个特征线性化,并以相同的单位表达它们(即使 XGBoost 和树回归设计用于处理非归一化变量)。

数据

我们按市值调整的自由流通股本收集了前 3000 只美国股票的月回报率和月股票特征。完整数据集从 1999 年 12 月至 2017 年 12 月。股票的股票宇宙包括使用 Quandl 高级股票套餐的所有普通股权。数据集是时点数据,因此不会受到幸存偏差的影响。价格是每月离散总回报,考虑了股票拆分和股利调整。价格以美元表示,与其他金额一样。

此数据集代表大约 620,000 个实例,其中实例由股票和日期的组合组成。我们要预测的变量 y 是一年后的板块中性超额表现的概率。我们模型中的解释变量包括基于传统、金融、价格和基于成交量的指标的一大套 200 个特征。

为了避免前瞻性偏差,我们将使用一个为期 24 个月的滚动窗口来训练模型。因此,预测仅在 t+12 个月时才可能进行,并且我们将预测日期向前推移,以适应用于训练的正向时间段。我们将每个月重复一次训练,因此每个月更新每只股票在 12 个月后表现优异的概率。每个滚动分析周期将根据 80% 划分。

训练数据和 20% 的测试数据,保持测试数据在滚动窗口的最近部分,以避免“测试过去”的情况。测试部分用于调整超参数,因为避免过拟合是至关重要的,以便在样本外实现优越表现。

特征与标签工程

在基于 ML 的金融应用的大部分研究中,由于缺乏经济框架和不切实际或不明确的目标,例如寻找“最佳股票”,而失败。相反,我们的目的更为合理,因为我们寻求预测极端行为,并在每个板块中挑选出优质股票和最差股票,并将其表示为概率,以便对全面的股票横截面进行排序。

我们“工程化”了标签(未来回报)和特征,以便为算法提供更具因果关系的股票市场表示结构。

再次,我们摆脱了传统方法,该方法试图从过去的价格或短期回报推断未来的表现。我们将基本、风险、成交量和动量等基于信号的特征设为我们的特征。每个特征和标签都以 z 分数表示,然后转换为百分位数,以便在结果分析部分进行比较。

遵循古老的量化格言“垃圾进,垃圾出”,我们尽可能地对特征施加一些结构。

以同样的方式,我们通过顺序进行一些结构:

  1. 回到一年(1Y)的表现,这足以在数据集的特征性质和标签的趋势之间建立一定程度的因果关系。

  2. 根据每支股票的部门进行归一化。另一种方法是在特征中使用虚拟部门变量,但通过将正确的结构放在标签上,目的更加明确。

  3. 摆脱标签中的异常值:超出其部门中性表现(第 5;95)百分位数的股票被排除在培训之外。我们在这里的目标是尽可能地将特征与标签联系起来。例如,我们摆脱了被并购的股票或被涉及欺诈会计丑闻的股票,因为我们希望标签真正与特征相关联。

  4. 仅处理筛选后股票的剩余顶部和底部五分位数。

我们希望对横截面的顶部和底部部分的函数进行近似。通过这样做,我们希望对表现良好/不良好的股票有一个清晰的分层表示。

我们定义 Yi1 为股票 i 在一年后的一段时间内表现优于其部门 S 的概率。因此,Yi0 = 1 − Yi1 将是股票 i 在一年后表现不及其部门的概率。Yi1 作为我们分类任务的主要输入。我们在算法中处理的标签如下:

y i = { 1   i f   Y 0 i ≥ 0.5 0   i f   Y 0 i < 0.5 y^{i}=\left\{\begin{array}{l l}{{1\ i f\ Y_{0}^{i}\geq0.5}}\\ {{0\ i f\ Y_{0}^{i}<0.5}}\end{array}\right. yi={1 if Y0i0.50 if Y0i<0.5

因此,这个变量跟踪相应的股票是否有可能

表现良好。在下一小节中,我们将重点关注我们依赖于来预测 yi 的解释变量。

7.3.3 使用的变量/特征

在我们的模型中,我们旨在使用极端梯度增强树每个月预测一只股票在其部门表现优于的概率。由于我们想要顺序地创建弱学习器(单独的树),并且使用残差(错误分类的标签)进行下一轮,我们将使用数据集中的所有特征。在使用树进行 ML 预测的情况下,高度相关的变量不会干扰模型。大量高度相关的变量将为算法提供更多自由度,以确定每个单一变量的增值。

为了评估特征数据集之间的潜在相关性水平,我们计算了特征的等级相关性的分层聚类。如图 7.2 所示,我们可以确定代表信号族的不同指标组。

例如,图 7.2 中的左矩形显示了基于估值比率的指标,从简单的收益率和账面价值比指标到更基于规则的复合指标,根据公司性质施加更多的条件性。

中间的矩形代表基于价格的风险信号的聚类,例如价格波动信号的不同期限,或者波动率中的相关性加速。总共,这 200 个特征可以被聚类成六类指标,我们在表 7.1 中列出了它们。

在本章中,我们保留数据集中的所有特征。换句话说,在第一阶段我们不求助于重要特征发现,而是留下了树提升模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

成交量/
估值职称/资格月度经营/技术风险估算流动性
收益率ROE12-1 月度5 年熊市每股收益修订市值
回报成交量
账面收益率自由现金流/资产6 个月 RSI3 年FY1 收益成交量
相关性
销售收益率毛利润/资本投入12–1 个月回报/特定风险
成交量来自 PCA 的残差每股收益增长流动性
FY1风险

通过训练部分的正则化参数来确定哪些特征在训练中起作用。此外,我们在训练的每个步骤中都使用了非常短的时间段。

(两年),因此在适应市场变化条件(例如部门和风格轮换、风险打开-风险关闭期间等)时,保留高数量的特征是获得更多自由度的好方法。

7.4 模型构建

在前一节中,我们介绍并解释了方法的目标、数据集和变量以及它们的结构。现在,我们将深入探讨 XGBoost6 模型中使用的常规参数和超参数的细节。在本节中,我们介绍了 ML 模型,以及我们使用我们的数据找到的感兴趣的超参数。此外,我们将介绍如何调整它们,以便给读者提供更实用的操作指南。

XGBoost 是一种开源模型,可用于不同的语言(C++、R、Python、Julia、Scala),由于其在超参数调整方面的灵活性和快速的代码执行,在计算机科学界非常受欢迎。

我们在第 7.2 节中讨论了树提升的数学方面,因此我们将把本节的范围限制在实际方面。我们在这个练习中的目标是预测一只股票的行业中性超额表现的概率,我们依靠分类方法进行(我们回顾一下,我们的标签 yi 只能取一个或零作为值)。

为了获得行业中性超额收益的概率,我们采用基于逻辑的分类:发生的得分将通过 sigmoid 函数进行处理,这将导致一个介于零和一之间的数字。

目标函数将是通常的 logistic 损失函数,补充了一个正则化项,我们用它来控制模型的复杂性。控制模型复杂性是提升树的一级重点,因为它们往往会对数据过拟合,并可能在样本外表现出较差的泛化行为。

7.4.1 超参数

提升树中有许多不同的超参数;覆盖它们超出了本章的范围(它们通常取决于树聚合方法和实现方式)。我们将把介绍限制在我们测试或在本练习中使用的参数上。列表如下:

  • 学习率:它是用于防止过拟合的步长缩减。在每次提升步骤之后,我们可以直接得到新特征的权重,并实际上缩小特征权重,使提升过程更保守。

  • 最小分割损失:它是使叶节点的树进一步分割所需的最小损失减少。算法越大,就越保守(树将更小)。

  • 最大深度:它是树的从根到叶子的最长路径(以节点计)。增加这个值会使模型更复杂,更容易过拟合。

  • 正权重的比例控制正权重和负权重的平衡:

对于不平衡的类别很有用。考虑的典型值:sum(负案例)/sum(正案例)。

  • 回归:它是权重上的 L2 正则化项(在技术部分中提到),增加这个值会使模型更保守。

7.4.2 交叉验证

在图 7.3 中,我们对三个不同的参数进行了交叉验证。为了给读者一个一步一步的方法,我们计算了一个图表,保留了在对 1000 个树的聚合上测试的每对参数的训练和测试预测错误。这个交叉验证练习使用的评估指标是简单的平均误差,由概率阈值 0.5 定义,给出二元分类错误率。

从左到右我们增加了树的深度,使它们更加复杂,遵循(3,5,7)的顺序。从上到下我们增加

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

更高的学习速率意味着模型将学习得更快,有可能过拟合,并且在预测未见实例时泛化效果不佳。

偏差/方差折衷是机器学习算法的核心,并呼应了 XGBoost 中惩罚目标函数的核心原则:最小化损失并控制复杂性。与简单模型相关的较高误差率更有可能在样本外进行良好的泛化。例如,使用低收缩率(eta = 0.01)和非常浅的树(深度 = 3)测试的模型即使经过 1000 次迭代后仍然学习得非常缓慢。这个模型位于图 7.3 的左上部分,明显地对数据拟合不足:学习速度不够快。相反,图 7.3 右下部分的模型(深度 = 7; eta = 0.3)学习速度很快(从 0.01 到 0.1 最终到 0.3 的学习率达到 20%。

100 轮测试集后的误差率)之后就趋于平稳。在这个例子中,模型更可能过拟合:这个模型在训练集中几乎达到了 99%的准确率。

一般来说,可以看出增加树的深度有助于降低收缩的误差水平。可以注意到,对于 eta 为 0.3,深度为 5 或 7 之间的测试误差差异非常小,这表明这两个模型存在一些偏差(它们在 1000 轮后在训练集上达到了 99%的准确率)。

我们进行了网格搜索,以确认我们从图 7.3 中得出的结论。我们预测增强树模型的选定参数是:

  • 1000 轮,早停在 100 以防止过拟合

  • 设置为 0.1 以确保合理的学习速度 - 设置为 0:在我们的测试中,与其他参数相比似乎不太重要

  • 深度为 5:我们需要一些(但不要太多)复杂性来从 200 个特征的完整集合中获益

  • L2 正则化参数固定为 1,在 XGBoost 模型中是默认值。

7.4.3 评估模型质量

在评估模型质量的过程中,有许多不同的评估指标可用。在交叉验证部分,我们故意只披露了训练集和测试集的平均误差。在这个子部分中,我们想介绍混淆矩阵的概念及所有相关指标,以便精确评估 ML 模型的质量。

图 7.4 的每个部分都可以解释为:

  • Fp:假阳性。预测为表现优异的股票,但样本外实际上并不优秀。

  • Fn:假阴性。预测为表现不佳的股票,而样本外实际表现优异。

  • Tp:真阳性。预测为表现优异的股票,在样本外实际上表现优异。

  • Tn:真阴性。预测为表现不佳的股票,在样本外实际上表现不佳。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从这四种情况中,我们可以得出评估模型质量的几个经典指标。

精度:Tp /(Tp + Fp)

精度可以定义为中性部门的超额股票成功预测率。

召回率:Tp /(Tp + Fn)

召回率可以定义为真实率,因为我们包括了被错误分类为负的实例。

准确性:(Tp + Tn)/(Tp + Tn + Fp + Fn)

这是交叉验证部分使用的准确性水平。这些措施可以帮助检测类别的不平衡,这可能导致“懒惰”的分类器问题,即全局准确性结果很好,但一个类别的表示较少,并且显示较低水平的准确性。在我们的练习中,我们将对发现真正的负面而不是真正的正面的准确性不太感兴趣。

在我们选定的模型中,不同评估指标的结果如下:

  • 准确性:0.80 - 精度:0.797

  • 召回率:0.795。

在早期阶段,我们决定对横截面分布的尾部进行训练,因此类别中几乎没有不平衡:因此召回率、精度和准确率非常接近。

7.4.4 变量重要性

对于 ML 的一个常见批评是所谓的“黑箱”性质的预测,好像不可能理解或追踪哪个特征或特征组合负责预测。使用树进行集成学习确实具有一个非常好的特性,可以排除这一批评:变量重要性。

在图 7.5 中,我们展示了从 2002 年 12 月到 2017 年 12 月,我们每个月训练并用于预测的模型的平均变量重要性。每个月,我们保留来自训练模型的变量重要性。有很多不同的变量重要性指标。树集成中的一种流行指标是用于选择分割点的基尼不纯度指数。

在我们的练习中,我们使用增益度量,它等于相对贡献

(在准确性方面)与模型相对应的特征。要计算增益度量,必须对每个月的每个特征的贡献进行平均。可以将增益度量总结为预测有用性指标。

所有特征的增益度量总和为 1。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

首先,我们可以看到,平均而言,没有一项特征是占主导地位并解释大多数预测重要性的。然后,看看特征的类型,可以注意到:

  • 我们有来自表 7.1 中收集的六个不同指标家族的特征。

  • 在前 20 个特征中,价格风险指标似乎比估值、流动性指标等排名更靠前。

  • 我们发现了一些常见的、众所周知的并且在资产定价文献中反复研究过的特征(价值的书籍收益、规模的市值、质量的资产盈利能力、低波动性异常的价格波动率和 12-1 个月的动量)。

7.5 结果与讨论

现在我们进行一个用例。我们的用例将测试我们基于 ML 的信号作为构建等权重投资组合的基础。我们处理我们的部门胜率概率就像处理任何其他信号一样。我们对其进行归一化处理,用百分位数表示,并评估月度重新平衡的十分位组合的表现。作为基准,我们构建了两个信号,并遵循上述相同的协议。这两个信号是:

  1. 使用常用的综合指标进行简单的多因子信号混合,以反映“因子投资”的定义。

  2. 根据我们的提升树模型中最重要的 20 个特征挑选的排名前 20 个指标的线性组合。

在本节中,我们提供了实施为天真策略的信号的统计评估。我们将使用常用的股票特征制成的等权重(EW)投资组合作为基准,这些特征包括:

  1. 价值:收益率,账面收益率,企业价值/EBITDA。

  2. 质量:净资产收益率,债务/股权比。3. 动量:12-1 总回报表现。

  3. 低波动性:三年和一年的价格波动率。5. 大小:市值。

第二个基准将是一个等权重投资组合,使用由排名前 20 个最重要特征的线性组合构成的信号。

7.5.1 等权重十分位投资组合的时间序列分析

我们在这次回测中的目的是评估在多因子框架中使用 ML 信号相较于现有方法的附加价值。为了比较不同的

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

信号,我们根据每个信号的排名 z 得分创建等权重十分位投资组合。然后,我们使用月度回报分析这些信号的计算时间序列。最后,我们将重点放在前十分位(D10,最倾斜)上,以提供更多的分析结果。

图 7.6–7.8 是两个基准的以美元表示的财富曲线

(多因子信号和排名前 20 个特征的线性组合)以及使用提升树分类的 ML 模型。

可以注意到三个模型在十分位之间显示出累积的单调性能模式,即第一分位的性能低于第二分位的性能,低于第三分位的性能,等等。

三张图的比例故意相同,使得视觉比较更加容易。可以看到,使用 ML 模型的性能分散在不同十分位之间的差异要比使用排名前 20 个特征的线性组合更加清晰,后者也展现出更好的累积性能单调性模式。

7.5.2 经济收益的进一步证据

为了进一步简化我们模型与两个基准之间的比较,我们在一个图表中绘制了每个模型每个分位的年化收益率。在图 7.9 中,可以看到 ML 模型的平均收益率之间的差距(9.8%)比前 20 个特征的线性组合模型(6%)更大。

和简单的多因子组合投资组合 (5.1%)。

在这里,ML 模型受益于尾部训练,我们根据一年后的表现将重点放在了前五分之一和后五分之一上来训练模型。因此,正如预期的那样,ML 模型对于最低十分位数(D1)的表现最差,而对于第十分位数(D10)的表现最好。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

到目前为止,我们的分析集中在纯粹的绩效上,表格 7.2 为我们提供了一些关于替代和互补感兴趣的指标的光。这更深入地评估了 ML 模型的稳健性。

分析风险指标显示,与线性组合 (19%) 和 ML 方法 (17.6%) 相比,多因子组合投资组合的波动率最低 (14.7%)。这个结果并不令人意外: 多因子组合投资组合有五分之一的最终混合信号来自低波动性的投资。此外,它也很好。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

MFactor-Signal linear_var_imp-Signal ML-Signal

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

表格 7.2 分析

MFactorlin_var_impML
观测次数180180180
中位数月收益率 (%)1.21.51.9
年化收益率 (%)11.212.414.3
年化波动率 (%)14.719.017.6
平均秩 IC (12 M)0.050.060.11
平均秩 IC (12M forward vol)−0.460.02−0.05
收益/风险0.760.650.81
t-stats2.872.392.95
平均年换手率 (两种方式) (%)155203189
我们正在比较每个模型的前十分位(第十分位)投资组合的分析 -

我们正在比较每个模型的前十分位数(第十分位数)投资组合的分析 - 左侧的两个基准和右侧的机器学习模型。

已知,某些简单的质量关联度量,如债务与权益重叠,与低波动性轮廓重叠。

关于风险调整后的绩效,与多因子的 0.76 和前 20 个特征的线性组合的 0.65 相比,ML 模型产生了 0.81 的夏普比率。

查看平均等级信息系数(IC)显示,ML 信号更适合预测未来 12 个月的表现。ML 信号显示平均 IC

相比之下,多因子为 5%,线性组合为前 20 个变量的 6%。

最有趣的是,预测前实现波动性的平均 IC 数字显示,多因子信号的结果为 -46%。这一数字应该解释为:多因子信号水平高意味着与波动率呈负相关。换句话说,高水平的多因子得分意味着更高的低波动性股票曝光。这一结果对于 ML 模型和其他基准不成立。

最后,我们模型的三个 t 统计量都是显著的,ML 为最高

分别为 2.95,多因子和线性组合分别为 2.87 和 2.39。

由于其更动态的方法,与多因子信号(155%)相比,ML 信号产生了更高水平的周转率(189%)。然而,资产轮换低于前 20 个特征的线性组合。

本节结果显示,基于 ML 信号的投资组合在风险调整的基础上表现优于两个基准。ML 信号显示出更好的 IC

对于一年期前向表现和波动性的中立 IC。基于 ML 信号的多空策略(多头持有前十分位数,空头持有底部)在美元中性基础上表现优于两个基准。

基于我们的 ML 模型的非线性和动态方法在所有指标上都被证明更具回报和更高效(除了周转率)。这凸显了提升树算法、正则化以及用于训练模型的大型特征数据集的附加价值。

7.6 结论

在本章中,我们介绍了应用于系统性股票投资的提升树算法。我们展示了使用特征和标签工程的效率。应用更多条件性并施加更多因果结构使得现代量化方法能够进行准确的长期预测。这一有见地的发现与最近的批评相矛盾,即基于机器学习的方法仅适用于预测非常短期的价格波动。

我们提供了如何使用传统的财务特征(如估值和盈利能力指标)、价格动量、风险估计、成交量和流动性特征调整、训练和测试基于机器学习的模型的指导。我们表明,界定问题是首要任务,我们通过工程化特征和根据投资目标转换标签来解决这个问题。

我们发现,使用一个具有 200 个特征的提升树算法的天真的等权组合,与简单信号混合的多因素组合相比,平均表现优于 3.1%。我们的结果还表明,基于机器学习的信号对简单多因素信号是互补的。在股票多因素组合可能面临被大量涌入的风险、可能导致风格股票风险溢价套利的商品化风险的背景下,基于机器学习的信号可以构成智能贝塔过度消费时代的有效疗法。即使在最简单的加权方案和实施过程中,信号的动态特性也可能构成一个真正的优势。

参考文献

Ammann, M.,Coqueret, G.,Schade, J.P.(2016)。具有杠杆约束的基于特征的投资组合选择。《银行与金融杂志》70:23–37。

Ang, A.(2014)。《资产管理:因子投资的系统方法》。牛津大学出版社。

Arévalo, R.,García, J.,Guijarro, F.,Peris, A.(2017)。一种基于滤波标志模式识别的动态交易规则,用于股票市场价格预测。《应用专家系统》81:177–192。

Ballings, M.,Van den Poel, D.,Hespeels, N.,Gryp, R.(2015)。评估多个分类器对股价方向预测的效果。《应用专家系统》42(20):7046–7056。

Banz, R.W.(1981)。普通股的回报与市值的关系。金融经济学杂志 9(1):3–18。

Bodnar, T.,Mazur, S.,Okhrin, Y.(2017)。全球最小方差组合的贝叶斯估计。《欧洲运筹学杂志》256(1):292–307。

Brandt, M.W.,Santa-Clara, P.,Valkanov, R.(2009)。参数化组合策略:利用股票收益横截面中的特征。《金融研究评论》22(9):

3411–3447。

Chen, T.,Guestrin, C.(2016)。XGBoost:一种可扩展的树提升系统。在:《第 22 届 ACM SIGKDD 国际知识发现与数据挖掘会议论文集》785––794。ACM。

Daniel, K.,Titman, S.(1997)。有关股票回报横截面变化特征的证据。《金融学杂志》52(1):1–33。

Fama, E.F.和 French, K.R.(1992)。股票预期收益的横截面。《金融杂志》47(2):427–465。

Fama, E.F.和 French, K.R.(1993)。股票和债券回报的共同风险因素。

金融经济学杂志 33(1):3–56。

费舍尔(Fischer, T.)和克劳斯(Krauss, C.)(2018)。利用长短期记忆网络进行金融市场预测的深度学习。欧洲运营研究杂志 270:654––669。

弗洛因德(Freund, Y.)和施皮尔(Schapire, R.E.)(1997)。在线学习的决策理论概括及其在增强中的应用。计算机与系统科学杂志 55(1):119–139。

弗里德曼(Friedman, J.)、哈斯蒂(Hastie, T.)、蒂布什拉尼(Tibshirani, R.)(2000)。加法逻辑回归:对提升的统计视角(附讨论和作者的答辩)。统计年鉴 28(2):

337–407。

弗里德曼(Friedman, J.)(2001)。贪婪函数近似:梯度提升机。统计年鉴 1189–1232。

弗里德曼(Friedman, J.)、哈斯蒂(Hastie, T.)、蒂布什拉尼(Tibshirani, R.)(2009)。统计学习的要素,第 2 版。

斯普林格。

格林(Green, J.)、汉德(Hand, J.R.)和张(Zhang, X.F.)(2013)。收益预测信号的超级视图。会计研究评论 18(3):692–730。

哈维(Harvey, C.R.)、刘(Liu, Y.)、朱(Zhu, H.)(2016)。 . . . 以及预期收益的横截面。金融研究评论 29(1):5–68。

伊尔曼(Ilmanen, A.)(2011)。预期收益:投资者收获市场回报的指南

约翰·威利。

杰加迪什(Jegadeesh, N.)和提特曼(Titman, S.)(1993)。买赢家和卖输家的回报:对股票市场效率的影响。金融杂志 48(1):65–91。

杰加迪什(Jegadeesh, N.)和提特曼(Titman, S.)(2001)。动量策略的盈利能力:替代解释的评估。金融杂志 56(2):699–720。

卡恩(Kahn, R.N.)和莱蒙(Lemmon, M.)(2016)。资产管理者的困境:智能贝塔如何颠覆投资管理行业。金融分析师杂志 72(1):15–20。

克劳斯(Krauss, C.)、多(Do, X.A.)和赫克(Huck, N.)(2017)。深度神经网络、梯度提升树、随机森林:标准普尔 500 指数上的统计套利。欧洲运营研究杂志 259(2):689–702。

麦克莱恩(McLean, R.D.)和庞蒂夫(Pontiff, J.)(2016)。学术研究是否破坏了股票回报的可预测性?

金融杂志 71(1):5–32。

尼尔(Nair, B.B.)、库马尔(Kumar, P.S.)、萨克西维尔(Sakthivel, N.R.)和维平(Vipin, U.)(2017)。聚类股价时间序列数据以生成股票交易建议:一项实证研究。专家系统与应用 70:20–36。

帕特尔(Patel, J.)、沙阿(Shah, S.)、萨卡尔(Thakkar, P.)和科特查(Kotecha, K.)(2015)。利用趋势确定性数据准备和机器学习技术预测股票和股价指数的运动。专家系统与应用 42(1):259–268。

施皮尔(Schapire, R.E.)(1990)。弱可学习性的强度。机器学习 5(2):197–227。史巴拉曼扬(Subrahmanyam, A.)(2010)。预期股票收益的横截面:我们从过去二十五年的研究中学到了什么?欧洲金融管理 16(1):27–42。

范·迪克(Van Dijk, M.A.)(2011)。尺寸已经过时了吗?对股票回报尺寸效应的审视。银行与金融杂志 35(12):3263–3274。

期权定价模型与其捕捉标的现货价格过程动态的能力有关。 它的错误指定将导致定价和对冲错误。 参数定价公式取决于标的资产动态的特定形式。 出于易处理性的原因,做出了一些与市场回报的多重分形性质不一致的假设。 另一方面,神经网络等非参数模型使用市场数据来估计驱动现货价格的隐式随机过程及其与或有债权的关系。 在为多维或有债权,甚至是具有复杂模型的普通期权定价时,必须依赖于偏微分方程等数值方法、傅里叶方法等数值积分方法或蒙特卡罗模拟。 此外,在根据市场价格校准金融模型时,必须生成大量模型价格以拟合模型参数。 因此,人们需要快速且准确的高效计算方法。 具有多个隐藏层的神经网络是具有表示任何平滑多维函数能力的通用插值器。 因此,监督学习关注的是解决函数估计问题。 网络被分解为两个独立的阶段,一个是离线优化模型的训练阶段,另一个是模型在线逼近解决方案的测试阶段。 因此,这些方法可以以快速而稳健的方式用于金融领域,用于为奇异期权定价以及根据内插/外推波动率表面来校准期权价格。 鉴于执行某些信用风险分析,它们还可用于风险管理以在投资组合级别拟合期权价格。 我们回顾了一些使用神经网络为市场和模型价格定价的现有方法,提出了校准,并介绍了奇异的期权定价。 我们讨论这些方法的可行性,突出问题,并提出替代解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值