毕业论文相关
Am最温柔
每天都有觉得自己太菜的焦虑,解决方法也很简单,好好学习就行了,今天也要加油鸭~
展开
-
jieba结巴分词加入自定义词典
参考jieba官方文档分词返回generatorjieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用返回listjieba.lcut 以及 jieba.lcut_for_search 直接返回 list(采用这种方式更加方便)import jieb...原创 2020-02-15 20:18:37 · 34797 阅读 · 3 评论 -
文本分析——gensim库word2vec学习笔记
文章目录模型原理模型参数建立模型模型的建立模型的保存保存与继续训练模型还是保存模型问题再训练模型评估模型使用查看每一个词语对应的向量表示查看与某个词语相似度排名的其他词语找到不同类型的词语写在前面:word2vec模型最后生成的是一个词嵌入矩阵,每一列对应一个单词的词向量,这个词向量是从高维映射到低维中得到的。采用这个gensim库中的word2vec函数,输入是一个分词后的嵌套语料列表,输出一...原创 2020-02-15 17:57:48 · 579 阅读 · 0 评论 -
词典法小实验——简单文本分析个人博客汇总整理
写在前面:文档指的是一条记录,占一行。下文是对情感法进行简单情感分析的过程博客,并不涉及对词语的加权、对程度副词加权和对否定词取反的操作,仅仅对词典中的词语进行计数。输入:待计数文档,已有的六个情感词典。输出:对六个词典中出现的词语进行计数得到的六列数据。顺序见下:分词并去停用词返回嵌套列表并保存到本地https://blog.csdn.net/weixin_43919570/art...原创 2020-02-14 18:20:04 · 697 阅读 · 0 评论 -
文本分析——分词并去停用词返回嵌套列表并保存到本地
文章目录文本分析分词并去停用词返回嵌套列表读取文件并进行分词去停用词操作保存结果到本地从本地读取结果文本分析分词并去停用词返回嵌套列表此代码块用于分词并去停用词(从csv文件转成了txt分词结果),其实没保持格式一致是有点别扭,但是时间紧迫,能用就行,就不管了。毕业论文.csv文件示例(一个用excel打开的csv文件):读取文件并进行分词去停用词操作#将csv文件读到了data_df...原创 2020-02-14 18:06:48 · 2223 阅读 · 0 评论 -
词典法——词典法情感分析数词操作并输出结果到csv文件中
准备工作import jiebaimport numpy as npimport pandas as pd定义读取情感词典到列表中的函数#读取情感词典到列表中的函数def read_dic(dic_type): with open(dic_type+'_extended.txt',encoding="utf-8") as f: positive_exten...原创 2020-02-14 17:47:15 · 1042 阅读 · 0 评论 -
词典法——批量输出情感词计数结果到列表中
读入了已经分词并去停用词的文件with open('cutWords_list.txt',encoding="utf-8") as file: #读入了已经分词并去停用词的文件 cutWords_list = [k.split() for k in file.readlines()]cutWords_list示例如下:[['Outline'], ['交易', '概述', "'...原创 2020-02-14 16:53:24 · 278 阅读 · 0 评论 -
词典法情感分析——判断文档中的词语有多少在情感词典中并计数
函数的两个参数file和dictionary分别为已经分词并去停用词的文档和目标情感极性词典(本例中为消极情感词典)#判断文档中的词语有多少在情感词典中,并计数def count_words(file,dictionary): count = 0 for word in file: if word in dictionary: count...原创 2020-02-14 15:20:17 · 550 阅读 · 0 评论 -
词典法——python从母词及其扩充的情感词典txt文件读取到列表list中
情感词典的截图如下,从母词及其扩充的情感词典文件中中读取到列表中?代码如下,最终结果存储在pos_dic列表中://列表positive_extended中每一个元素为文件中的一行内容with open('positive_extended.txt',encoding="utf-8") as f: positive_extended = f.readlines()# print(...原创 2020-02-14 14:06:04 · 619 阅读 · 0 评论 -
分词并去停用词自定义函数:seg_word(sentence)
分词并去停用词自定义函数:seg_word(sentence)。import jiebadef seg_word(sentence): """使用jieba对文档分词""" seg_list = jieba.cut(sentence) # 读取停用词文件 stopword_list = [k.strip() for k in open('stopwords.tx...原创 2020-02-14 13:54:18 · 1649 阅读 · 0 评论 -
python从停用词txt文件中读取停用词到列表中
文章目录列表生成式语法文件读取readlinesstr.strip()字符串处理函数在读取停用此列表时遇到这行代码,记录理解过程:#读取停顿词列表stopword_list = [k.strip() for k in open('stopwords.txt', encoding='utf8').readlines() if k.strip() != '']这一行代码有点长,用到的pyth...原创 2020-02-13 21:19:09 · 6421 阅读 · 1 评论 -
pandas创建Series和Dataframe
import numpy as npimport pandas as pd创建Series1.最简单的方法In [9]: obj = pd.Series([4,7,-5,3])In [10]: objOut[10]: 0 41 72 -53 32.自定义IndexIn [11]: obj2 = Series([4, 7, -5, 3], index...原创 2020-02-13 12:45:44 · 186 阅读 · 0 评论 -
numpy理解轴符号
数组轴的个数,在python的世界中,轴的个数被称作秩,轴的个数与数组“[”或者"]"的个数相同,轴指向多维数组的单个维度:>>> arr = np.array([[1, 2, 3],... [10, 20, 30]])>>> arr.sum(axis=0)array([11, 22, 33])>>> ...原创 2020-02-13 11:31:01 · 310 阅读 · 0 评论 -
numpy切片索引和迭代
文章目录索引和切片一维索引和切片多维索引和切片当索引少于轴的数量时,缺失的索引被认为是完整的切片迭代一维的数组可以进行索引、切片和迭代操作的,就像 列表 和其他Python序列类型一样。索引和切片一维索引和切片也是与python列表索引相似的规则,例如,[a,b]就是第a个元素到第b个元素(包含a但是不包含b)。>>> a = np.arange(10)**3>...原创 2020-02-13 10:59:36 · 169 阅读 · 0 评论 -
numpy----创建数组(python)
文章目录numpy----创建数组(python)1.从其他Python结构(例如,列表,元组)2.转换 numpy原生数组的创建(例如,arange、ones、zeros等)(1)ones、zeros(2)使用arange---Python内置函数range的数组版3.从磁盘读取数组5.使用特殊库函数(random,eye)numpy----创建数组(python)创建数组有5种常规机制:...原创 2020-02-12 22:49:19 · 927 阅读 · 0 评论 -
将sklearn回归分析的预测值输出到CSV文件中
目录●´∀`●参考资料导入包从CSV文件读取数据向CSV文件写入数据将预测值输出到文件参考资料pandas和numpy官方中文说明文档:https://www.pypandas.cn/ ;https://www.numpy.org.cn/。知乎这篇文章讲述了对比pandas和numpy:https://zhuanlan.zhihu.com/p/30132591。并不全,还参考了一些博...原创 2020-02-10 18:59:06 · 9818 阅读 · 2 评论