从非结构化数据到特色数据指标,AI如何更懂金融?

从非结构化数据到特色数据指标,AI如何更懂金融?
原创 张璐 谢玲玲 恒生技术之眼 2022-01-07 09:11
数据在宏观经济分析、行业研究、公司分析及个券分析等金融业务中有广阔的应用。随着人工智能等技术在数据处理、加工中深入应用,越来越多以往以非结构化面貌出现的数据可以形成特色指标、因子,深入业务场景,本文将结合恒生研究院的相关经验进行分享。

如何获取数据

从人工消化数据,到机器处理数据

金融业务中常用的数据包括宏观经济数据(GDP、CPI、PPI等)、公司三大报表数据、股权数据、企业工商数据(注册日期、注册资本、注册地址、所属行业等)、个券基本信息(发行日期、发行量、发行成本等)。归结起来,影响投资决策的关键数据要素可以分为四类:基本面数据,包括经营行为、资本运作、组织人事等方面的变化;政策面数据,包括宏观指标与操作、宏观政策涟漪、监管行为等;产业链数据,包括上游影响、下游影响、竞品影响等;舆情数据,包括公司负面传闻、高管负面传闻、连带方负面传闻等。这些都在不同程度上影响投资标的。

以投研场景为例,在传统的投研工作方式中,分析师通过阅读大量的资讯产生一些分析判断、领域洞察力,很多知识都存在于分析师的大脑中或Excel等文件中,主要的工作方式是一种半手工的工作方式。在这种半手工的工作方式下,人消化具体数据的能力远不如机器。随着人工智能技术的发展与应用,消化具体数据的工作,包括来自方方面面的结构化、非结构化的资料、文档、资讯等,都可以交由机器来完成,分析师可以站在更高的角度来发挥洞察力。因此,人工智能的引入势在必行。

如何理解数据

AI加持,从非结构化数据到特色数据指标

随着金融行业的蓬勃发展,信息量进一步爆发,不同类型的信息分散在不同的信息渠道,如何有效获取信息、捕捉关联关系、构建具有逻辑性的指标体系等问题,备受行业关注。

▶基于NLP的事件体系:有效分类信息,捕捉关键变化

事件体系能够有效地对信息进行分类,对投资者而言,相较于传统标签化的思路,事件体系能够更好地捕捉变化,为金融投资活动提供更加有效的边际信息。目前恒生所构建的基于NLP的事件体系,分为宏观事件、行业事件、微观事件三个层级,包含宏观、行业、股票(含股票市场表现)、债券、基金、衍生品6类事件体系。例如,行业事件体系基于行业动态、行业上下游、行业政策、行业事故等事件类型,围绕医药、房地产、汽车、钢铁、煤炭等行业分别提取行业特色所需的边际变化信息,形成包括事件、事件分类、事件边界、事件关系、影响传导关系、事件影响程度、事件影响有效期、业务属性、属性变化、属性变化重要度等维度的闭环。

▶基于知识图谱的股权穿透及资本系:深度挖掘关联关系

知识密度的增长,正在带来知识图谱价值质的变化,结合越来越多的业务场景衍生新的能力。以企业的股权数据为例,如果仅有上市公司的十大股东,是无法进一步穿透的,引入优质股权数据后,大多数公司的股权都能多级穿透,在此之上可进行受益所有人、实际控制人等相关的股权分析,进而提炼出公司实控人持股路径深度、路径条数、最大持股比例等量化指标,可以直接作为风险指标进行监控预警,也可以作为其他模型的因子输入。多家公司通过实控人进行关联,加入一系列额外的处理,可以进一步衍生出资本系,进行实控人/受益所有人、股权结构变动预警、股权风险传导、集团股权控制脉络、集团控股偏好、股权结构健康度等分析,赋能外部风险事件关联预警、债券违约概率波动分析、风险事件传导范围估计与企业名单输出等应用场景。

▶基于OCR的财务附注指标:构建具有逻辑性的指标体系

财务报表附注旨在帮助财务报表使用者深入了解基本财务报表的内容,是财务报表制作者对资产负债表、损益表和现金流量表的有关内容和项目所作的说明和解释。财务附注中的内容非常重要,首先需要基于OCR等技术完成信息提取,构建财务附注指标。例如,对于因为抵押或其他原因,导致无法使用的受限资产,针对每一个资产科目提取其受限部分;对于没有实物形态的可辨认非货币性资产,也即无形资产,区分土地使用权、采矿权、专利权等;对于固定资产,划分房屋及建筑物、各类设备等;对于关联交易部分,可提取应收账款、其他应收款、长期应收款来自关联方交易等。再进一步,还要结合指标间的层次性与关联性,构建具有逻辑性的指标体系。财务附注指标间、财务附注指标与财务报表指标可以组合成有效的衍生指标,这也是需要注意的。

如何使用数据

面对业务需求,特色数据指标大有可为

在NLP、KG、OCR等人工智能技术的加持下,特色数据指标能够更好地深入业务场景,释放潜能,以下以宏观投研、财务粉饰、高收益债投资等应用为例简要介绍。

▶宏观投研:分析宏观影响的层层涟漪

宏观经济与资本市场的表现息息相关,如果能够对经济进行准确判断,可以捕捉更多的市场结构性机会,例如扩张性财政政策会影响铁路、船舶及运输设备制造业、黑色金属和有色金属等相关行业公司的股价。投资者关注指标预测的结果,更关注导致这一结果的原因,基于知识图谱,宏观逻辑传导链可以帮助投资者实现经济逻辑的层层传导,进而实现归因分析。目前,在恒生宏观投研平台中,只要任意一个指标节点数据更新,分析结果即可随之更新。此外,利用NLP技术及事件体系对官方政策、官方发言、政策解读、宏观事件等另类数据进行处理,并与标准化市场数据形成关联分析,可以实现政策复盘、政策走势及市场趋势预判。

▶财务粉饰:及时给出可信的风险预警

第一时间给出企业财报可信性的风险预警,有较强的现实意义,但财务舞弊的识别具有一定的难度。对于大部分金融机构来说,详细的税单、出入库记录等一手信息获取壁垒较高、成本较高,舞弊风险识别存在舞弊认定的主观性、舞弊行为的隐蔽性等难点。针对隐蔽的舞弊行为,可以通过知识图谱建构基于工商、担保、质押等数据的关系网络,发现关联关系,进而发现关联交易;基于NLP的事件体系与财务数据深度融合,可以立体映射财务异常。此外,还可以通过统计学算法和AI算法,实现具有勾稽关系的指标发现,判断诸如应付职工薪酬变化与收入增长、周转率与毛利率等可以相互考察、核对的指标是否匹配。

▶高收益债投资:预测到期前的风险演化

高收益债顾名思义,具有高收益属性。国内市场大多以收益率来划分高收益债,低等级发行人通过提高利率来吸引投资者,当利率达到一定高度,债券就成为了高收益债。高收益债具有违约风险高、估值波动大、流动性差、违约处置难度大等特点,如何在现有约束条件下做好高收益债投资是一个引人关注的话题,需要建立良好的从内而外的高收益债分析框架。从内部出发,需要分析发债企业财务状况、偿债能力及回收情况,同时综合事件指标衡量发债企业偿债意愿。从外部出发,需要建立模型衡量政府及相关企业对高收益债主体的支持能力与支持意愿。

分析发债主体财务状况时,除了采用三大报表数据构建常见的盈利能力、偿债能力、运营能力、现金流指标外,还可以运用财务附注数据。逃废债在我国市场上屡见不鲜(有履行能力而不尽力履行债务的行为),因此偿债意愿也是高收益债分析中非常重要的方面,可以用NLP技术建立事件数据库,挖掘高收益债主体在债券到期前的一系列操作,包括设立新公司、资产转移、出租资产、出售资产、对外投资、对外担保、关联交易等,帮助投资者提前识别逃废债行为。母子公司之间的风险传导或支持也非常重要,可以通过知识图谱的加持来辅助分析。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值