NLP学习笔记3

  • 1 基于 TF-IDF 算法进行关键词提取

 

import jieba.analyse
sentence  = "人工智能(Artificial Intelligence),英文缩写为AI。\
它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。\
人工智能是计算机科学的一个分支,它企图了解智能的实质,\
并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人\
、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,\
应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。\
人工智能可以对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考、\
也可能超过人的智能。人工智能是一门极富挑战性的科学,从事这项工作的人必须懂得计算机知识,\
心理学和哲学。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,\
总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。\
但不同的时代、不同的人对这种“复杂工作”的理解是不同的。2017年12月,\
人工智能入选“2017年度中国媒体十大流行语”。"
keywords = "  ".join(jieba.analyse.extract_tags(sentence , topK=20,\
                                                withWeight=False, allowPOS=()))
print(keywords)
人工智能  智能  2017  机器  不同  人类  科学  模拟  一门  技术  计算机  研究  工作  Artificial  Intelligence  AI  图像识别  12  复杂  流行语
  • 2 基于 pyhanlp 进行关键词提取
    除了 jieba,也可以选择使用 HanLP 来完成关键字提取,内部采用 TextRankKeyword 实现,语料继续使用上例中的句子。
from pyhanlp import *
result = HanLP.extractKeyword(sentence, 20)
print(result)

参考文章:https://www.jianshu.com/p/a796ca559409

  • 3 动手实战文本可视化
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值