零基础学习NLP
文章平均质量分 93
零基础学习NLP
小刘要努力。
未来不担心,过去不后悔,现在不犹豫。
展开
-
完整的Ubuntu18.04深度学习GPU环境配置,英伟达显卡驱动安装、cuda9.0安装、cudnn的安装、anaconda安装
完整的Ubuntu18.04深度学习GPU环境配置,英伟达显卡驱动安装、cuda9.0安装、cudnn的安装、anaconda安装原创 2021-02-17 14:31:14 · 1327 阅读 · 1 评论 -
Stanford NLP
http://nlp.stanford.edu:8080/corenlp/Stanford NLP提供了一系列自然语言分析工具。它能够给出基本的 词形,词性,不管是公司名还是人名等,格式化的日期,时间,量词, 并且能够标记句子的结构,语法形式和字词依赖,指明那些名字指向同 样的实体,指明情绪,提取发言中的开放关系等。 1.一个集成的语言分析工具集; 2.进行快速,可靠的任意文本分析; 3.整体的...原创 2020-03-30 14:21:34 · 1142 阅读 · 0 评论 -
Gensim教程
什么是GensimGensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法,支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口补充一些概念:语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需...原创 2019-10-13 22:30:41 · 1232 阅读 · 0 评论 -
自然语言处理python进阶(二)
python字符串的简单使用namesList = ['Tuffy','Ali','Nysha','Tim' ]sentence = 'My dog sleeps on sofa'names = ';'.join(namesList)print(type(names), ':', names)wordList = sentence.split(' ')print((type(word...原创 2019-08-10 23:25:57 · 1552 阅读 · 0 评论 -
自然语言处理python进阶(一)
from nltk.corpus import reuters #加载路透语料库files = reuters.fileids()print(len(files)) # 10788words16097 = reuters.words(['test/16097'])print(words16097)什么是语料就是一个个txt,一个txt就是一个列表categories种类reute...原创 2019-08-10 23:10:34 · 1522 阅读 · 0 评论 -
聊天机器人
rule 规则最基础版本的rule-base机器人import random# 打招呼greetings = ['hola', 'hello', 'hi', 'Hi', 'hey!','hey']# 回复打招呼random_greeting = random.choice(greetings)# 对于“你怎么样?”这个问题的回复question = ['How are you?...原创 2019-06-13 18:23:57 · 1234 阅读 · 0 评论 -
使用jieba 提取 关键词
如何提取句子的关键词?以前用textrank4zhhttps://blog.csdn.net/weixin_44510615/article/details/89548486竟然不知道 jieba.analyse 也可以提取关键词,还封装了tfidf 的接口from jieba import analysetfidf = analyse.extract_tagsif __name__...原创 2019-06-03 21:52:36 · 2195 阅读 · 0 评论 -
pytorch 和nltk 结合训练的例子
对于任何一个深度学习的框架,都能够训练文本数据,当然NLTK在自然语言处理也占有一定的名声和权重任何东西都离不开你我来源 github# 导入torch的模块import torchimport torch.nn as nnfrom torch.autograd import Variableimport torch.optim as optimimport torch.nn.fu...原创 2019-06-02 17:23:52 · 1857 阅读 · 0 评论 -
NLTK
Python上著名的⾃然语⾔处理库 ⾃带语料库,词性分类库 ⾃带分类,分词,等等功能 强⼤的社区⽀持 还有N多的简单版wrapper安装语料库import nltknltk.download()功能⼀览表NLTK⾃带语料库⽂文本处理理流程Tokenize把长句⼦拆成有“意义”的⼩部件,,使用的是nltk.word_tokenizeimport nltk sentence...原创 2019-05-28 10:39:35 · 1283 阅读 · 0 评论 -
自然语言处理美国政客的社交媒体消息分类
数据简介: Disasters on social media美国政客的社交媒体消息分类内容:收集了来自美国参议员和其他美国政客的数千条社交媒体消息,可按内容分类为目标群众(国家或选民)、政治主张(中立/两党或偏见/党派)和实际内容(如攻击政敌等)社交媒体上有些讨论是关于灾难,疾病,暴乱的,有些只是开玩笑或者是电影情节,我们该如何让机器能分辨出这两种讨论呢?import kerasimp...原创 2019-05-05 12:50:50 · 2189 阅读 · 5 评论 -
jieba分词小案例
源数据集import jieba.possegif __name__ == "__main__": f = open('novel.txt', encoding='utf-8') str = f.read() f.close() seg = jieba.posseg.cut(str) for s in seg: print(s.word...原创 2019-05-04 11:20:41 · 1377 阅读 · 0 评论 -
gensim实例-------网易新闻语料
import numpy as npfrom gensim import corpora, modelsimport timeimport warningsdef load_stopword(): f_stop = open('stopword.txt') sw = [line.strip() for line in f_stop] f_stop.clos...原创 2019-05-04 09:12:52 · 1313 阅读 · 0 评论 -
NLP神器—Gensim
好文:https://blog.csdn.net/l7h9ja4/article/details/80220939https://www.cnblogs.com/iloveai/p/gensim_tutorial.html什么是GensimGensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。它支持包括TF-IDF,LSA,L...原创 2019-04-26 22:25:10 · 1384 阅读 · 0 评论 -
textrank4zh来处理句子的重要度
数据源:一篇大约1500字的文章对于人来说,不可能一篇文章全部精读,对于一些重要程度比较大,体现文章的主题的句子应该好好阅读,那么如何寻找重要的句子TextRank4Keyword, TextRank4Sentence这两个类就是问题的答案# !/usr/bin/python# -*- coding:utf-8 -*-from textrank4zh import TextRank...原创 2019-04-26 13:18:19 · 2076 阅读 · 0 评论 -
HMM实现中文分词
import numpy as npimport warningsfrom hmmlearn.hmm import MultinomialHMM as mhmmdata=[{ u"我要吃饭":"SSBE"},{u"天气不错" : "BEBE"},{u"谢天谢地" : "BMME"}]def prints(s): pass print(s)def get_star...原创 2019-04-21 21:42:54 · 1924 阅读 · 2 评论 -
一、NLTK工具包使用
Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。先安装NLTkpip install nltk注意你现在安装好一个框架而已,里面没有东西的新建一个ipython,输入import nltk #pip install nltknltk.download()所以要下载里面的包,我觉得下book 和popular下好就可...原创 2019-04-08 11:35:58 · 2231 阅读 · 1 评论 -
spaCy使用
官方文档https://spacy.io/usagespaCy是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLT...原创 2019-03-31 16:43:13 · 1419 阅读 · 0 评论 -
jieba的使用
jieba是一个在中文自然语言处理中用的最多的工具包之一,它以分词起家,目前已经能够实现包括分词、词性标注以及命名实体识别等多种功能。既然Jieba是以分词起家,我们自然要首先学习Jieba的中文分词功能。Jieba提供了三种分词模式:精确模式 : 在该模式下,Jieba会将句子进行最精确的切分全模式 : 把句子中所有可以成词的词语都扫描出来,优点在于该模式非常快,缺点也很明显,就是不...原创 2019-03-30 15:30:10 · 811 阅读 · 0 评论 -
被忽视的fuzzywuzzy库
fuzzywuzzy包一个可以对字符串进行模糊匹配的包from fuzzywuzzy import fuzzfrom fuzzywuzzy import process字符串的对比fuzz.ratio()对位置敏感,全匹配fuzz.partial_ratio()非完全匹配str1 = '毛利是个小菜比'str2 = '毛利是个小菜比,毛利是个小菜比'print("fuzz....原创 2019-04-26 21:20:05 · 11161 阅读 · 1 评论