- 任务描述: 本教程通过一个实例来介绍和实现一个简单的文本实体关系抽取的方法。关系抽取一般在实体抽取任务之后,用于抽取两个实体之间的语义关系。本教程通过一个英文文本实体关系抽取的实例来介绍关系抽取的整个流程,包括文本数据的加载以及预处理,之后通过特征工程提取文本的特征,构建机器学习模型并对模型进行训练,最后通过训练好的模型对测试数据进行预测。此实例的目标是通过文本来判断已知实体对的关系,实体对之间的关系分为10个类别,每个类别使用一个数字编码表示,类别的具体信息可以查看此处(关系抽取:SemEval2010 Task8数据集 数据科学社区-DataFountain )。类别和类别编码的对应关系如下表所示。
类别名 | Cause-Effect | Instrument-Agency | Product-Producer | Content-Container | Entity-Origin | Entity-Destination | Component-Whole | Member-Collection |
---|