pyhanlp vs. hanlp

Yae Yang

已于 2024-05-23 16:57:41 修改

阅读量640

点赞数 20

分类专栏： NLP 文章标签： python nlp

于 2024-05-20 10:54:40 首次发布

本文链接：https://blog.csdn.net/weixin_51143561/article/details/139058490

版权

NLP 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

想要找SDP的hanlp用法，死活找不到，花了很多时间。回归github之后发现实际上hanlp有两个版本，一个1.x，一个2.x。我目前使用成功的都是1.x的命令，是基于JAVA的。而2.x版本是升级版，有一些功能并没有更新到1.x里，所以无法运行，其中就包括SEP。

为什么会产生这种混淆呢？因为网上有很多教程，要么是1.x出来的时候写的，要么是无脑搬运的旧版本的，当时的安装应该也确实是hanlp（也就是说1.x以前的名字和2.x是相同的），导致网络教程和github版本有一些差错，对应不上。

那么说一下两者的区别吧，两个都是我通过anaconda pip install安装的，1.x版本名字叫pyhanlp，所有指令都是本地运行，调用命令参考GitHub - hankcs/HanLP at 1.x，python的调用我也会整理在下面。

2.x的名字就叫hanlp，调用命令参考GitHub - hankcs/HanLP: 中文分词词性标注命名实体识别依存句法分析成分句法分析语义依存分析语义角色标注指代消解风格转换语义相似度新词发现关键词短语提取自动摘要文本分类聚类拼音简繁转换自然语言处理中文分词词性标注命名实体识别依存句法分析成分句法分析语义依存分析语义角色标注指代消解风格转换语义相似度新词发现关键词短语提取自动摘要文本分类聚类拼音简繁转换自然语言处理 - hankcs/HanLPhttps://github.com/hankcs/HanLP/tree/doc-zh作者的教程写得很全，有本地调用和云端调用。

如果发现你安装的pyhanlp里有无法实现的功能，那就要看看是不是你安装的是1.x，而不是2.x了（两者是可以并存于conda中的）

pyhanlp（1.x的用法如下）

from pyhanlp import *

1. 分词+词性标注

sentence = ""
s_hanlp = HanLp.segment(sentence)
for term in s_hanlp:
    print(term.word, term.nature)

2. 依存句法分析

s_dep = HanLp.parseDependency(sentence)
print(s_dep)`

3. 关键词提取

doc_keyword = HanLp.extractKeyword(document, 3)
for word in doc_keyword:
    print(word)

4. 摘要提取

doc_keysentence =HanLP.extractSummary(document,3)
for key_sentence in doc_keysentence:
    print(key_sentence)

5. 中文命名实体标注（NER）

# 导入语料
sentences = ['sentence1', 'sentence2', ..., 'sentencen']

# 实体化一个词性标注对象
# 人名识别 实例化
ner_name = HanLP.newSegment().enableNameRecognize(True)
# 地名识别
ner_place = HanLP.newSegment().enablePlaceRecognize(True)
# 机构名识别
ner_organization = HanLP.newSegment().enableOrganizationRecognize(True)
name_list = get_ner_terms(sentences, ner_name, 'nr')
place_list = get_ner_terms(sentences, ner_place, 'ns')
organization_list = get_ner_terms(sentences, ner_organization, 'nt')

print(ner_name)
print(ner_place)
print(ner_organization)

6. 音译人名识别

sentence =''
person_ner = HanLP.newSegment().enableTranslatedNameRecognize(True)
p_name = person_ner.seg(sentence)
print(p_name)

7. 短语提取

phraseList = HanLp.extractPhrase(document,3)
print(phraseList)

8. 拼音转换

s='一句话'
pinyinList = HanLP.convertToPinyinList(s)
for pinyin in pinyinList:
    print(pinyin.getPinyinWithoutTone(),pinyin.getTone(),pinyin,pinyin.getPinyinWithToneMark())

# 声母、韵母
for pinyin in pinyinList:
    print(pinyin.getShengmu(),pinyin.getYunmu())

9. 繁体简体互相转换

Jianti = HanLP.convertToSimplifiedchinese("一句话")
Fanti = HanLP.convertToTraditionalChinese("一句话")
print(Jianti)
print(Fanti)

Yae Yang

关注

20
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
pyhanlp vs. hanlp

想要找SDP的hanlp用法，死活找不到，花了很多时间。回归github之后发现实际上hanlp有两个版本，一个1.x，一个2.x。而我目前使用成功的都是1.x的命令，是基于JAVA的。而2.x版本是升级版，有一些功能并没有更新到1.x里，所以无法运行，其中就包括SEP。为什么会产生这种混淆呢？因为网上有很多教程，要么是1.x出来的时候写的，要么是无脑搬运的旧版本的，当时的安装应该也确实是hanlp（也就是说1.x以前的名字和2.x是相同的），导致网络教程和github版本有一些差错，对应不上。那么说一下两
复制链接

扫一扫