python自然语言处理
yyq675886993
这个作者很懒,什么都没留下…
展开
-
python自然语言处理-----计算文本相似度
from gensim import corpora,models,similaritiesimport jiebafrom collections import defaultdictimport urllib.request#d1=open("C:/Users/yyq/Desktop/毕业论文/文档1.txt").read()#d2=open("C:/Users/yyq/Desktop/原创 2017-07-12 17:24:10 · 2166 阅读 · 0 评论 -
python机器学习----利用sklearn进行情感分析
import jiebafrom collections import defaultdictimport osfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.feature_extraction.text import CountVectorizerdef readfile(filename原创 2017-07-29 17:20:35 · 6315 阅读 · 1 评论 -
python自然语言处理---NLP基础技能
#去空格及特殊字符s=' hello,world!'print(s.strip())print(s.lstrip(' hello,'))print(s.rstrip('!'))#查找字符sstr1='strchr'sstr2='r'npos=sstr1.index(sstr2)print(npos)#字符串大小写转换sstr1='JSDvfgfgfd'sstr1=sstr1.原创 2017-07-09 14:27:52 · 386 阅读 · 0 评论 -
python案例---正则表达式:re模块
#Python通过re模块提供对正则表达式的支持。import re# 将正则表达式编译成Pattern对象pattern = re.compile(r'hello.*\!') # 使用Pattern匹配文本,获得匹配结果,无法匹配时将返回Nonematch = pattern.match('hello, mryang! How are you?') if match: # 使用原创 2017-07-09 17:27:38 · 437 阅读 · 0 评论 -
python自然语言处理---jieba中文处理
#关键词提取#基于 TF-IDF 算法的关键词抽取#sentence 为待提取的文本#topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20#withWeight 为是否一并返回关键词权重值,默认值为 False#allowPOS 仅包括指定词性的词,默认值为空,即不筛选import jieba.analyse as analyselines = open('NBA.txt原创 2017-07-09 20:46:42 · 957 阅读 · 0 评论