A Document-level Chinese Financial Event Extraction System based on Automatically Labeled (2018)论文笔记

背景

在特定领域,如金融、医疗和司法领域,由于数据标签过程的高成本,没有足够的标签数据.而且,目前大多数方法都侧重于从一个句子中提取事件,但是一个事件通常在一个文档中由多个句子表示.

数据集

财务事件知识库是结构化数据,包括九种常见的财务事件类型,并以表格形式存储.
非结构化文本数据来自公司发布的官方公告,本文从搜狐证券网获取这些文本数据.
在这里插入图片描述

对于每种类型的金融事件,我们构建了一个事件触发器字典,例如在 Equity Freeze 事件中冻结和在 Equity Pledge 事件中质押。因此可以通过从公告中查询预定义的字典来自动标记触发词。通过这些预处理,结构化数据可以映射到公告中的事件参数。因此,我们可以自动识别事件提及,并标记事件触发器和其中包含的事件参数,以生成句子级数据,如图 3 底部所示。然后,事件提及被自动标记为正例将公告中的其余句子标记为反例,构成文档级数据,如图3右侧所示。文档级数据和句子级数据共同构成了本文所需的训练数据。 EE系统。

模型

在这里插入图片描述
SEE的具体模型实现
由一个Bi-LSTM神经网络和一个CRF层组成。 句子中的每个汉字都由一个向量表示,作为 Bi-LSTM 层的输入(Mikolov et al., 2013)。 BiLSTM 层的输出被投影为每个字符的得分。 并且使用 CRF 层来克服标签偏差问题。 SEE 最终返回文档中每个句子的句子级 EE 的结果。

文档级事件提取 (DEE)
DEE 由两部分组成:一个旨在发现文档中提及的事件的关键事件检测模型和一个旨在填充缺失事件参数的参数完成策略。关键事件检测:如图4右侧所示,事件检测的输入由两部分组成:一是事件参数和事件触发的表示来自SEE(蓝色)的输出,二是是当前句子的向量表示(红色)。这两部分连接起来作为卷积神经网络(CNN)层的输入特征。然后将当前句子分为两类:关键事件与否。 Arguments-completion strategy:我们通过DEE获得了包含大部分事件参数的关键事件,以及SEE对文档中每个句子的事件提取结果。为了获得完整的事件信息,我们使用参数完成策略,它可以自动填充周围句子中缺失的事件参数。如图 4 所示,一个集成的 Pledge 事件包含事件提及 Sn 中的事件参数和从

结论

在这里插入图片描述
ORG:抵押机构 NUM:质押股票数量 NAME:股东名称
BEG:抵押开始日期 END:抵押结束日期

小结

优缺点:适用于文档级单事件,对于多事件效果不明显

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值