在python中使用哈工大LTP进行自然语言处理(安装和结果分析)

一、LTP介绍

语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。

官方文档:

  1. 语言技术平台(LTP)使用文档
  2. pyltp文档
  1. 分词。和大部分西方语言不同,汉语书面语词语之间没有明显的空格标记,文本中的句子以字串的形式出现。因此汉语自然语言处理的首要工作就是要将输入的字串切分为单独的词语,然后在此基础上进行其他更高级的分析。
  2. 词性标注的目的是为每一个词性赋予一个类别,这个类别称为词性标记(Part-of-speech tag),比如,名词(Noun)、动词(Verb)、形容词(Adjective)等。一般来说,属于相同词性的词,在句法中承担类似的角色。
  3. 命名实体识别的任务是识别句子中的人名、地名、机构名等命名实体。每一个命名实体由一个或多个词语构成。根据标注规范的不同,命名实体可能存在嵌套的情况,但是目前大部分研究工作不考虑嵌套的情况。比如,“王义和老师”是人名,“哈尔滨南岗区”是地名,“哈尔滨工业大学”是机构名或地名。

——引用自:李正华. 汉语依存句法分析关键技术研究[D].哈尔滨工业大学,2013.

二、安装

环境:python3.6 win10

官方文档:

  • http://ltp.ai/ (有时打不开,隔段时间刷新试试)
  • https://ltp.readthedocs.io/zh_CN/latest/index.html
  • https://github.com/HIT-SCIR/pyltp

1. 安装pynlp

pip安装在win10下可能会报错,提示需要安装C++

解决方法:使用该文中的whl文件安装

下面两个文件针对不同的python版本下载一个即可, 这是我在自己的电脑(win10)上编译的,不知道你的系统是否能用,64bit的windows应该都可以,有问题在下面留言。注意: 这两个文件的区别是python版本号
python3.5:pyltp-0.2.1-cp35-cp35m-win_amd64.whl
python3.6:pyltp-0.2.1-cp36-cp36m-win_amd64.whl

2. 下载模型文件

下载地址:百度云

百度云下载慢的话点这里,选择对应的模型文件,我下载的是v3.4

注意
请确保下载的模型版本与当前版本的 pyltp 对应,否则会导致程序无法正确加载模型。
windows下需要另外下载SRL模型

在这里插入图片描述
下载后文件夹如图:
在这里插入图片描述

模型文件名 说明
cws.model 分句模型
ner.model 命名实体识别模型
parser.model 依存句法分析模型
pisrl.model 语义角色标注模型
pos.model 词性标注模型

注意:记住模型存放位置,后续python文件中需要调用。

三、python下的功能实现

分词、词性标注、句法分析一系列任务之间存在依赖关系。举例来讲,对于词性标注,必须在分词结果之上进行才有意义。

LTP中提供的5种分析之间的依赖关系如下所示:

  • 12
    点赞
  • 86
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值