知识图谱是什么
将内部、外部存在的客观存在的信息语料加工、提炼出相关知识
知识(对内部、外部客观规律的归纳和总结)
多以三元组形式存在
在电商行业中,商品选品的好坏对于电商平台的发展至关重要。而商品是选品的基础,商品知识图谱的建设可以帮助我们为选品业务提供更加丰富和准确的商品信息。通过知识图谱提供相似品识别、潜力品挖掘、替代品推荐等能力,助力算法选品、搜索、推荐、供需预估等业务。
1、分类
1)关系图谱
2)属性图谱
2、图谱前身
语义网络
一、知识抽取
非结构化数据——》结构化
主要将语料提取出对应关系
1、实体抽取(CRF、HMM)
Python 命名实体识别(NER) 库 使用指南_python ner_zjrn的博客-CSDN博客
1)基于规则和词典的方法 如国家这种
2)基于机器学习的模型(序列标注 CRF(条件随机场)) BIO
3)cnn.....
head - r - tail
2、关系抽取(判断实体之间的关联关系)
1)限定域关系抽取,从预设好的数关系中判断,看是否满足这个关系
F(实体1,实体2,文本) ——》关系
1、有监督分类任务(二分类问题)
2)开放领域关系抽取,基于序列标注
subject 实体1
predict 关系
object 实体2
如果出现predict 关系不统一,可以采用向量化后,对向量进行聚类的方式,将类别聚合完成后,人为去判定这个类别关系名称(较为困难)
3)相似关系
最难获取的在于相似关系,本项目中借助了自然语言处理第三方工具包gensim来计算实体相似度,然后根据相似度排名选取前五具有相似关系。
其中,文本相似度计算步骤如下:
(1)通过jieba分词处理所有文本数据,形成一个二维数组;
(2)二维数组生成词典;
(3)二维数组通过doc2bow稀疏向量生成语料库;
(4)使用TF模型算法计算TF-IDF值;
(5)获取词典token2id的特征数,即字典里面的键的个数;
(6)计算稀疏矩阵相似度,建立一个索引;
(7)将测试文本采用jieba分词处理;
(8)通过doc2bow计算测试文本的稀疏向量;
(9)求得测试文本与样本数据的相似度。
4)知识拓展(如果语料较少,缺乏数据)
远程监督:通过知识图谱的三元组回标语料
比如图谱中 姚明-身高-226cm
语料中:姚明凭借226cm优势取得了最佳中锋
远程监督主要用于训练,指定关系类别
3、属性抽取
可以借鉴关系抽取的方法
二、知识融合
数据清洗、提升数据质量(知识重复、关联不明确、来源广泛、质量参吃不齐)
噪声数据清理
test、测试、废弃等字样,因此直接按照关键字查询、筛选、删除即可。
实体对齐(实体链接)
将不同来源的知识认定为同一实体;
如在百度搜索长城,出现的是长城,在谷歌搜索出来为the Great Wall,但实际上,它们都是同一实体;
实体对齐的技术方案:多采用属性相似度计算,如果实体的属性相似度超过相似阈值,可视为同一实体(可采用编辑距离);
实体消歧
将同一名称但不是同一实体的给区分开;
如,苹果:可以是公司,可以使音乐,可以是水果,可以是电影
上下文语义,如果出现乔布斯,可能就是公司
如果出现水份充足,很甜,可能就是水果
如果出现主演,时长,可能就是电影
技术方案:可以采取属性的编辑距离的方法也进行消歧
属性对齐
不同的数据源,表示的数据属性名字不一样
姚明:生日
姚明:出生日期
姚明:出生年月
通过属性和属性值进行相似度计算
三、知识推理
推理相关实体间的关系,挖掘扩充或不全数据
四、知识表示
可采用向量化表示,neo4j、NL2SQL