日萌社
人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)
1.1 朴素贝叶斯算法简介
1.2 概率基础复习
1.概率定义
- 概率定义为一件事情发生的可能性
- 扔出一个硬币,结果头像朝上
- P(X) : 取值在[0, 1]
2.案例:判断女神对你的喜欢情况
在讲这两个概率之前我们通过一个例子,来计算一些结果:
问题如下:
- 女神喜欢的概率?
- 职业是程序员并且体型匀称的概率?
- 在女神喜欢的条件下,职业是程序员的概率?
- 在女神喜欢的条件下,职业是程序员、体重超重的概率?
计算结果为:
P(喜欢) = 4/7
P(程序员, 匀称) = 1/7(联合概率)
P(程序员|喜欢) = 2/4 = 1/2(条件概率)
P(程序员, 超重|喜欢) = 1/4
思考题:在小明是产品经理并且体重超重的情况下,如何计算小明被女神喜欢的概率?
即P(喜欢|产品, 超重) = ?
此时我们需要用到朴素贝叶斯进行求解,在讲解贝叶斯公式之前,首先复习一下联合概率、条件概率和相互独立的概念。
3.联合概率、条件概率与相互独立
- 联合概率:包含多个条件,且所有条件同时成立的概率
- 记作:P(A,B)
- 条件概率:就是事件A在另外一个事件B已经发生条件下的发生概率
- 记作:P(A|B)
- 相互独立:如果P(A, B) = P(A)P(B),则称事件A与事件B相互独立。
4.贝叶斯公式
4.1 公式介绍
4.2 案例计算
那么思考题就可以套用贝叶斯公式这样来解决:
P(喜欢|产品, 超重) = P(产品, 超重|喜欢)P(喜欢)/P(产品, 超重)
上式中,
- P(产品, 超重|喜欢)和P(产品, 超重)的结果均为0,导致无法计算结果。这是因为我们的样本量太少了,不具有代表性。
- 本来现实生活中,肯定是存在职业是产品经理并且体重超重的人的,P(产品, 超重)不可能为0;
- 而且事件“职业是产品经理”和事件“体重超重”通常被认为是相互独立的事件,但是,根据我们有限的7个样本计算“P(产品, 超重) = P(产品)P(超重)”不成立。
而朴素贝叶斯可以帮助我们解决这个问题。
-
朴素贝叶斯,简单理解,就是假定了特征与特征之间相互独立的贝叶斯公式。
-
也就是说,朴素贝叶斯,之所以朴素,就在于假定了特征与特征相互独立。
所以,思考题如果按照朴素贝叶斯的思路来解决,就可以是
P(产品, 超重) = P(产品) * P(超重) = 2/7 * 3/7 = 6/49
p(产品, 超重|喜欢) = P(产品|喜欢) * P(超重|喜欢) = 1/2 * 1/4 = 1/8
P(喜欢|产品, 超重) = P(产品, 超重|喜欢)P(喜欢)/P(产品, 超重) = 1/8 * 4/7 / 6/49 = 7/12
那么这个公式如果应用在文章分类的场景当中,我们可以这样看:
公式分为三个部分:
- P(C):每个文档类别的概率(某文档类别数/总文档数量)
- P(W│C):给定类别下特征(被预测文档中出现的词)的概率
- 计算方法:P(F1│C)=Ni/N (训练文档中去计算)
- Ni为该F1词在C类别所有文档中出现的次数
- N为所属类别C下的文档所有词出现的次数和
- 计算方法:P(F1│C)=Ni/N (训练文档中去计算)
- P(F1,F2,…) 预测文档中每个词的概率
如果计算两个类别概率比较:
所以我们只要比较前面的大小就可以,得出谁的概率大
4.3 文章分类计算
需求:通过前四个训练样本(文章),判断第五篇文章,是否属于China类
- 计算结果
P(C|Chinese, Chinese, Chinese, Tokyo, Japan) -->
P(Chinese, Chinese, Chinese, Tokyo, Japan|C) * P(C) / P(Chinese, Chinese, Chinese, Tokyo, Japan)
=
P(Chinese|C)^3 * P(Tokyo|C) * P(Japan|C) * P(C) / [P(Chinese)^3 * P(Tokyo) * P(Japan)]
# 这个文章是需要计算是不是China类,是或者不是最后的分母值都相同:
# 首先计算是China类的概率:
P(Chinese|C) = 5/8
P(Tokyo|C) = 0/8
P(Japan|C) = 0/8
# 接着计算不是China类的概率:
P(Chinese|C) = 1/3
P(Tokyo|C) = 1/3
P(Japan|C) = 1/3
5 小结
- 概率【了解】
- 一件事情发生的可能性
- 联合概率【知道】
- 包含多个条件,且所有条件同时成立的概率
- 条件概率【知道】
- 事件A在另外一个事件B已经发生条件下的发生概率
- 贝叶斯公式【掌握】
1.3 案例:商品评论情感分析
1.api介绍
- sklearn.naive_bayes.MultinomialNB(alpha = 1.0)
- 朴素贝叶斯分类
- alpha:拉普拉斯平滑系数
2.商品评论情感分析
2.1 步骤分析
- 1)获取数据
- 2)数据基本处理
- 2.1) 取出内容列,对数据进行分析
- 2.2) 判定评判标准
- 2.3) 选择停用词
- 2.4) 把内容处理,转化成标准格式
- 2.5) 统计词的个数
- 2.6)准备训练集和测试集
- 3)模型训练
- 4)模型评估
2.2 代码实现
import pandas as pd
import numpy as np
import jieba
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
- 1)获取数据
# 加载数据
data = pd.read_csv("./data/书籍评价.csv", encoding="gbk")
data
- 2)数据基本处理
# 2.1) 取出内容列,对数据进行分析
content = data["内容"]
content.head()
# 2.2) 判定评判标准 -- 1好评;0差评
data.loc[data.loc[:, '评价'] == "好评", "评论标号"] = 1 # 把好评修改为1
data.loc[data.loc[:, '评价'] == '差评', '评论标号'] = 0
# data.head()
good_or_bad = data['评价'].values # 获取数据
print(good_or_bad)
# ['好评' '好评' '好评' '好评' '差评' '差评' '差评' '差评' '差评' '好评' '差评' '差评' '差评']
# 2.3) 选择停用词
# 加载停用词
stopwords=[]
with open('./data/stopwords.txt','r',encoding='utf-8') as f:
lines=f.readlines()
print(lines)
for tmp in lines:
line=tmp.strip()
print(line)
stopwords.append(line)
# stopwords # 查看新产生列表
#对停用词表进行去重
stopwords=list(set(stopwords))#去重 列表形式
print(stopwords)
# 2.4) 把“内容”处理,转化成标准格式
comment_list = []
for tmp in content:
print(tmp)
# 对文本数据进行切割
# cut_all 参数默认为 False,所有使用 cut 方法时默认为精确模式
seg_list = jieba.cut(tmp, cut_all=False)
print(seg_list) # <generator object Tokenizer.cut at 0x0000000007CF7DB0>
seg_str = ','.join(seg_list) # 拼接字符串
print(seg_str)
comment_list.append(seg_str) # 目的是转化成列表形式
# print(comment_list) # 查看comment_list列表。
# 2.5) 统计词的个数
# 进行统计词个数
# 实例化对象
# CountVectorizer 类会将文本中的词语转换为词频矩阵
con = CountVectorizer(stop_words=stopwords)
# 进行词数统计
X = con.fit_transform(comment_list) # 它通过 fit_transform 函数计算各个词语出现的次数
name = con.get_feature_names() # 通过 get_feature_names()可获取词袋中所有文本的关键字
print(X.toarray()) # 通过 toarray()可看到词频矩阵的结果
print(name)
# 2.6)准备训练集和测试集
# 准备训练集 这里将文本前10行当做训练集 后3行当做测试集
x_train = X.toarray()[:10, :]
y_train = good_or_bad[:10]
# 准备测试集
x_text = X.toarray()[10:, :]
y_text = good_or_bad[10:]
- 3)模型训练
# 构建贝叶斯算法分类器
mb = MultinomialNB(alpha=1) # alpha 为可选项,默认 1.0,添加拉普拉修/Lidstone 平滑参数
# 训练数据
mb.fit(x_train, y_train)
# 预测数据
y_predict = mb.predict(x_text)
#预测值与真实值展示
print('预测值:',y_predict)
print('真实值:',y_text)
- 4)模型评估
mb.score(x_text, y_text)
3 总结
- API:sklearn.naive_bayes.MultinomialNB(alpha = 1.0)
- 朴素贝叶斯分类
- alpha:拉普拉斯平滑系数
- 朴素贝叶斯分类
1.4 朴素贝叶斯算法总结
1.朴素贝叶斯优缺点
- 优点:
- 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率
- 对缺失数据不太敏感,算法也比较简单,常用于文本分类
- 分类准确度高,速度快
- 缺点:
- 由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好
- 需要计算先验概率,而先验概率很多时候取决于假设,假设的模型可以有很多种,因此在某些时候会由于假设的先验模型的原因导致预测效果不佳;
2.朴素贝叶斯内容汇总
2.1 NB的原理
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
- 对于给定的待分类项x,通过学习到的模型计算后验概率分布,
- 即:在此项出现的条件下各个目标类别出现的概率,将后验概率最大的类作为xx所属的类别。
2.2 朴素贝叶斯朴素在哪里?
在计算条件概率分布P(X=x∣Y=c_k)时,NB引入了一个很强的条件独立假设,即,当Y确定时,X的各个特征分量取值之间相互独立。
2.3 为什么引入条件独立性假设?
为了避免贝叶斯定理求解时面临的组合爆炸、样本稀疏问题。
假设条件概率分为
2.4 在估计条件概率P(X∣Y)时出现概率为0的情况怎么办?
解决这一问题的方法是采用贝叶斯估计。
简单来说,引入λ,
- 当λ=0时,就是普通的极大似然估计;
- 当λ=1时称为拉普拉斯平滑。
2.5 为什么属性独立性假设在实际情况中很难成立,但朴素贝叶斯仍能取得较好的效果?
- 人们在使用分类器之前,首先做的第一步(也是最重要的一步)往往是特征选择,这个过程的目的就是为了排除特征之间的共线性、选择相对较为独立的特征;
- 对于分类任务来说,只要各类别的条件概率排序正确,无需精准概率值就可以得出正确分类;
- 如果属性间依赖对所有类别影响相同,或依赖关系的影响能相互抵消,则属性条件独立性假设在降低计算复杂度的同时不会对性能产生负面影响。
2.6 朴素贝叶斯与LR的区别?
1)简单来说:
-
区别一:
-
朴素贝叶斯是生成模型,
- 根据已有样本进行贝叶斯估计学习出先验概率P(Y)和条件概率P(X|Y),
- 进而求出联合分布概率P(XY),
- 最后利用贝叶斯定理求解P(Y|X),
-
而LR是判别模型,
- 根据极大化对数似然函数直接求出条件概率P(Y|X);
-
从概率框架的角度来理解机器学习;主要有两种策略:
第一种:给定 x, 可通过直接建模 P(c |x) 来预测 c,这样得到的是"判别式模型" (discriminative models);
第二种:也可先对联合概率分布 P(x,c) 建模,然后再由此获得 P(c |x), 这样得到的是"生成式模型" (generative models) ;
显然,前面介绍的逻辑回归、决策树、都可归入判别式模型的范畴,还有后面学到的BP神经网络
支持向量机等;
-
-
区别二:
- 朴素贝叶斯是基于很强的条件独立假设(在已知分类Y的条件下,各个特征变量取值是相互独立的),
- 而LR则对此没有要求;
-
区别三:
- 朴素贝叶斯适用于数据集少的情景,
- 而LR适用于大规模数据集。
2)进一步说明:
前者是生成式模型,后者是判别式模型,二者的区别就是生成式模型与判别式模型的区别。
- 首先,Navie Bayes通过已知样本求得先验概率P(Y), 及条件概率P(X|Y), 对于给定的实例,计算联合概率,进而求出后验概率。也就是说,它尝试去找到底这个数据是怎么生成的(产生的),然后再进行分类。哪个类别最有可能产生这个信号,就属于那个类别。
- 优点: 样本容量增加时,收敛更快;隐变量存在时也可适用。
- 缺点:时间长;需要样本多;浪费计算资源
- 相比之下,Logistic回归不关心样本中类别的比例及类别下出现特征的概率,它直接给出预测模型的式子。设每个特征都有一个权重,训练样本数据更新权重w,得出最终表达式。
- 优点:
- 直接预测往往准确率更高;
- 简化问题;
- 可以反应数据的分布情况,类别的差异特征;
- 适用于较多类别的识别。
- 缺点
- 收敛慢;
- 不适用于有隐变量的情况。
- 优点:
In [1]:
import pandas as pd
import numpy as np
import jieba
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
获取数据
In [2]:
data = pd.read_csv("./data/书籍评价.csv", encoding="gbk")
In [3]:
data
Out[3]:
Unnamed: 0 | 内容 | 评价 | |
---|---|---|---|
0 | 0 | 从编程小白的角度看,入门极佳。 | 好评 |
1 | 1 | 很好的入门书,简洁全面,适合小白。 | 好评 |
2 | 2 | 讲解全面,许多小细节都有顾及,三个小项目受益匪浅。 | 好评 |
3 | 3 | 前半部分讲概念深入浅出,要言不烦,很赞 | 好评 |
4 | 4 | 看了一遍还是不会写,有个概念而已 | 差评 |
5 | 5 | 中规中矩的教科书,零基础的看了依旧看不懂 | 差评 |
6 | 6 | 内容太浅显,个人认为不适合有其它语言编程基础的人 | 差评 |
7 | 7 | 破书一本 | 差评 |
8 | 8 | 适合完完全全的小白读,有其他语言经验的可以去看别的书 | 差评 |
9 | 9 | 基础知识写的挺好的! | 好评 |
10 | 10 | 太基础 | 差评 |
11 | 11 | 略_嗦。。适合完全没有编程经验的小白 | 差评 |
12 | 12 | 真的真的不建议买 | 差评 |
数据基本处理
取出内容列,用于后面分析
In [4]:
content = data["内容"]
content
Out[4]:
0 从编程小白的角度看,入门极佳。
1 很好的入门书,简洁全面,适合小白。
2 讲解全面,许多小细节都有顾及,三个小项目受益匪浅。
3 前半部分讲概念深入浅出,要言不烦,很赞
4 看了一遍还是不会写,有个概念而已
5 中规中矩的教科书,零基础的看了依旧看不懂
6 内容太浅显,个人认为不适合有其它语言编程基础的人
7 破书一本
8 适合完完全全的小白读,有其他语言经验的可以去看别的书
9 基础知识写的挺好的!
10 太基础
11 略_嗦。。适合完全没有编程经验的小白
12 真的真的不建议买
Name: 内容, dtype: object
把评价中的好评差评转换为数字
In [5]:
data.loc[:, "评价"]
Out[5]:
0 好评
1 好评
2 好评
3 好评
4 差评
5 差评
6 差评
7 差评
8 差评
9 好评
10 差评
11 差评
12 差评
Name: 评价, dtype: object
In [6]:
data.loc[data.loc[:, "评价"] == "好评", "评论编号"] = 1
In [7]:
data
Out[7]:
Unnamed: 0 | 内容 | 评价 | 评论编号 | |
---|---|---|---|---|
0 | 0 | 从编程小白的角度看,入门极佳。 | 好评 | 1.0 |
1 | 1 | 很好的入门书,简洁全面,适合小白。 | 好评 | 1.0 |
2 | 2 | 讲解全面,许多小细节都有顾及,三个小项目受益匪浅。 | 好评 | 1.0 |
3 | 3 | 前半部分讲概念深入浅出,要言不烦,很赞 | 好评 | 1.0 |
4 | 4 | 看了一遍还是不会写,有个概念而已 | 差评 | NaN |
5 | 5 | 中规中矩的教科书,零基础的看了依旧看不懂 | 差评 | NaN |
6 | 6 | 内容太浅显,个人认为不适合有其它语言编程基础的人 | 差评 | NaN |
7 | 7 | 破书一本 | 差评 | NaN |
8 | 8 | 适合完完全全的小白读,有其他语言经验的可以去看别的书 | 差评 | NaN |
9 | 9 | 基础知识写的挺好的! | 好评 | 1.0 |
10 | 10 | 太基础 | 差评 | NaN |
11 | 11 | 略_嗦。。适合完全没有编程经验的小白 | 差评 | NaN |
12 | 12 | 真的真的不建议买 | 差评 | NaN |
In [8]:
data.loc[data.loc[:, "评价"] == "差评", "评论编号"] = 0
In [9]:
data
Out[9]:
Unnamed: 0 | 内容 | 评价 | 评论编号 | |
---|---|---|---|---|
0 | 0 | 从编程小白的角度看,入门极佳。 | 好评 | 1.0 |
1 | 1 | 很好的入门书,简洁全面,适合小白。 | 好评 | 1.0 |
2 | 2 | 讲解全面,许多小细节都有顾及,三个小项目受益匪浅。 | 好评 | 1.0 |
3 | 3 | 前半部分讲概念深入浅出,要言不烦,很赞 | 好评 | 1.0 |
4 | 4 | 看了一遍还是不会写,有个概念而已 | 差评 | 0.0 |
5 | 5 | 中规中矩的教科书,零基础的看了依旧看不懂 | 差评 | 0.0 |
6 | 6 | 内容太浅显,个人认为不适合有其它语言编程基础的人 | 差评 | 0.0 |
7 | 7 | 破书一本 | 差评 | 0.0 |
8 | 8 | 适合完完全全的小白读,有其他语言经验的可以去看别的书 | 差评 | 0.0 |
9 | 9 | 基础知识写的挺好的! | 好评 | 1.0 |
10 | 10 | 太基础 | 差评 | 0.0 |
11 | 11 | 略_嗦。。适合完全没有编程经验的小白 | 差评 | 0.0 |
12 | 12 | 真的真的不建议买 | 差评 | 0.0 |
选择停用词
In [11]:
stopwords = []
with open("./data/stopwords.txt", "r", encoding="utf-8") as f:
lines = f.readlines()
print(lines)
['!\n', '"\n', '#\n', '$\n', '%\n', '&\n', "'\n", '(\n', ')\n', '*\n', '+\n', ',\n', '-\n', '--\n', '.\n', '..\n', '...\n', '......\n', '...................\n', './\n', '.一\n', '.数\n', '.日\n', '/\n', '//\n', '0\n', '1\n', '2\n', '3\n', '4\n', '5\n', '6\n', '7\n', '8\n', '9\n', ':\n', '://\n', '::\n', ';\n', '<\n', '=\n', '>\n', '>>\n', '?\n', '@\n', 'A\n', 'Lex\n', '[\n', '\\\n', ']\n', '^\n', '_\n', '`\n', 'exp\n', 'sub\n', 'sup\n', '|\n', '}\n', '~\n', '~~~~\n', '·\n', '×\n', '×××\n', 'Δ\n', 'Ψ\n', 'γ\n', 'μ\n', 'φ\n', 'φ.\n', 'В\n', '—\n', '——\n', '———\n', '‘\n', '’\n', '’‘\n', '“\n', '”\n', '”,\n', '…\n', '……\n', '…………………………………………………③\n', '′∈\n', '′|\n', '℃\n', 'Ⅲ\n', '↑\n', '→\n', '∈[\n', '∪φ∈\n', '≈\n', '①\n', '②\n', '②c\n', '③\n', '③]\n', '④\n', '⑤\n', '⑥\n', '⑦\n', '⑧\n', '⑨\n', '⑩\n', '──\n', '■\n', '▲\n', '\u3000\n', '、\n', '。\n', '〈\n', '〉\n', '《\n', '》\n', '》),\n', '」\n', '『\n', '』\n', '【\n', '】\n', '〔\n', '〕\n', '〕〔\n', '㈧\n', '一\n', '一.\n', '一一\n', '一下\n', '一个\n', '一些\n', '一何\n', '一切\n', '一则\n', '一则通过\n', '一天\n', '一定\n', '一方面\n', '一旦\n', '一时\n', '一来\n', '一样\n', '一次\n', '一片\n', '一番\n', '一直\n', '一致\n', '一般\n', '一起\n', '一转眼\n', '一边\n', '一面\n', '七\n', '万一\n', '三\n', '三天两头\n', '三番两次\n', '三番五次\n', '上\n', '上下\n', '上升\n', '上去\n', '上来\n', '上述\n', '上面\n', '下\n', '下列\n', '下去\n', '下来\n', '下面\n', '不\n', '不一\n', '不下\n', '不久\n', '不了\n', '不亦乐乎\n', '不仅\n', '不仅...而且\n', '不仅仅\n', '不仅仅是\n', '不会\n', '不但\n', '不但...而且\n', '不光\n', '不免\n', '不再\n', '不力\n', '不单\n', '不变\n', '不只\n', '不可\n', '不可开交\n', '不可抗拒\n', '不同\n', '不外\n', '不外乎\n', '不够\n', '不大\n', '不如\n', '不妨\n', '不定\n', '不对\n', '不少\n', '不尽\n', '不尽然\n', '不巧\n', '不已\n', '不常\n', '不得\n', '不得不\n', '不得了\n', '不得已\n', '不必\n', '不怎么\n', '不怕\n', '不惟\n', '不成\n', '不拘\n', '不择手段\n', '不敢\n', '不料\n', '不断\n', '不日\n', '不时\n', '不是\n', '不曾\n', '不止\n', '不止一次\n', '不比\n', '不消\n', '不满\n', '不然\n', '不然的话\n', '不特\n', '不独\n', '不由得\n', '不知不觉\n', '不管\n', '不管怎样\n', '不经意\n', '不胜\n', '不能\n', '不能不\n', '不至于\n', '不若\n', '不要\n', '不论\n', '不起\n', '不足\n', '不过\n', '不迭\n', '不问\n', '不限\n', '与\n', '与其\n', '与其说\n', '与否\n', '与此同时\n', '专门\n', '且\n', '且不说\n', '且说\n', '两者\n', '严格\n', '严重\n', '个\n', '个人\n', '个别\n', '中小\n', '中间\n', '丰富\n', '串行\n', '临\n', '临到\n', '为\n', '为主\n', '为了\n', '为什么\n', '为什麽\n', '为何\n', '为止\n', '为此\n', '为着\n', '主张\n', '主要\n', '举凡\n', '举行\n', '乃\n', '乃至\n', '乃至于\n', '么\n', '之\n', '之一\n', '之前\n', '之后\n', '之後\n', '之所以\n', '之类\n', '乌乎\n', '乎\n', '乒\n', '乘\n', '乘势\n', '乘机\n', '乘胜\n', '乘虚\n', '乘隙\n', '九\n', '也\n', '也好\n', '也就是说\n', '也是\n', '也罢\n', '了\n', '了解\n', '争取\n', '二\n', '二来\n', '二话不说\n', '二话没说\n', '于\n', '于是\n', '于是乎\n', '云云\n', '云尔\n', '互\n', '互相\n', '五\n', '些\n', '交口\n', '亦\n', '产生\n', '亲口\n', '亲手\n', '亲眼\n', '亲自\n', '亲身\n', '人\n', '人人\n', '人们\n', '人家\n', '人民\n', '什么\n', '什么样\n', '什麽\n', '仅\n', '仅仅\n', '今\n', '今后\n', '今天\n', '今年\n', '今後\n', '介于\n', '仍\n', '仍旧\n', '仍然\n', '从\n', '从不\n', '从严\n', '从中\n', '从事\n', '从今以后\n', '从优\n', '从古到今\n', '从古至今\n', '从头\n', '从宽\n', '从小\n', '从新\n', '从无到有\n', '从早到晚\n', '从未\n', '从来\n', '从此\n', '从此以后\n', '从而\n', '从轻\n', '从速\n', '从重\n', '他\n', '他人\n', '他们\n', '他是\n', '他的\n', '代替\n', '以\n', '以上\n', '以下\n', '以为\n', '以便\n', '以免\n', '以前\n', '以及\n', '以后\n', '以外\n', '以後\n', '以故\n', '以期\n', '以来\n', '以至\n', '以至于\n', '以致\n', '们\n', '任\n', '任何\n', '任凭\n', '任务\n', '企图\n', '伙同\n', '会\n', '伟大\n', '传\n', '传说\n', '传闻\n', '似乎\n', '似的\n', '但\n', '但凡\n', '但愿\n', '但是\n', '何\n', '何乐而不为\n', '何以\n', '何况\n', '何处\n', '何妨\n', '何尝\n', '何必\n', '何时\n', '何止\n', '何苦\n', '何须\n', '余外\n', '作为\n', '你\n', '你们\n', '你是\n', '你的\n', '使\n', '使得\n', '使用\n', '例如\n', '依\n', '依据\n', '依照\n', '依靠\n', '便\n', '便于\n', '促进\n', '保持\n', '保管\n', '保险\n', '俺\n', '俺们\n', '倍加\n', '倍感\n', '倒不如\n', '倒不如说\n', '倒是\n', '倘\n', '倘使\n', '倘或\n', '倘然\n', '倘若\n', '借\n', '借以\n', '借此\n', '假使\n', '假如\n', '假若\n', '偏偏\n', '做到\n', '偶尔\n', '偶而\n', '傥然\n', '像\n', '儿\n', '允许\n', '元/吨\n', '充其极\n', '充其量\n', '充分\n', '先不先\n', '先后\n', '先後\n', '先生\n', '光\n', '光是\n', '全体\n', '全力\n', '全年\n', '全然\n', '全身心\n', '全部\n', '全都\n', '全面\n', '八\n', '八成\n', '公然\n', '六\n', '兮\n', '共\n', '共同\n', '共总\n', '关于\n', '其\n', '其一\n', '其中\n', '其二\n', '其他\n', '其余\n', '其后\n', '其它\n', '其实\n', '其次\n', '具体\n', '具体地说\n', '具体来说\n', '具体说来\n', '具有\n', '兼之\n', '内\n', '再\n', '再其次\n', '再则\n', '再有\n', '再次\n', '再者\n', '再者说\n', '再说\n', '冒\n', '冲\n', '决不\n', '决定\n', '决非\n', '况且\n', '准备\n', '凑巧\n', '凝神\n', '几\n', '几乎\n', '几度\n', '几时\n', '几番\n', '几经\n', '凡\n', '凡是\n', '凭\n', '凭借\n', '出\n', '出于\n', '出去\n', '出来\n', '出现\n', '分别\n', '分头\n', '分期\n', '分期分批\n', '切\n', '切不可\n', '切切\n', '切勿\n', '切莫\n', '则\n', '则甚\n', '刚\n', '刚好\n', '刚巧\n', '刚才\n', '初\n', '别\n', '别人\n', '别处\n', '别是\n', '别的\n', '别管\n', '别说\n', '到\n', '到了儿\n', '到处\n', '到头\n', '到头来\n', '到底\n', '到目前为止\n', '前后\n', '前此\n', '前者\n', '前进\n', '前面\n', '加上\n', '加之\n', '加以\n', '加入\n', '加强\n', '动不动\n', '动辄\n', '勃然\n', '匆匆\n', '十分\n', '千\n', '千万\n', '千万千万\n', '半\n', '单\n', '单单\n', '单纯\n', '即\n', '即令\n', '即使\n', '即便\n', '即刻\n', '即如\n', '即将\n', '即或\n', '即是说\n', '即若\n', '却\n', '却不\n', '历\n', '原来\n', '去\n', '又\n', '又及\n', '及\n', '及其\n', '及时\n', '及至\n', '双方\n', '反之\n', '反之亦然\n', '反之则\n', '反倒\n', '反倒是\n', '反应\n', '反手\n', '反映\n', '反而\n', '反过来\n', '反过来说\n', '取得\n', '取道\n', '受到\n', '变成\n', '古来\n', '另\n', '另一个\n', '另一方面\n', '另外\n', '另悉\n', '另方面\n', '另行\n', '只\n', '只当\n', '只怕\n', '只是\n', '只有\n', '只消\n', '只要\n', '只限\n', '叫\n', '叫做\n', '召开\n', '叮咚\n', '叮当\n', '可\n', '可以\n', '可好\n', '可是\n', '可能\n', '可见\n', '各\n', '各个\n', '各人\n', '各位\n', '各地\n', '各式\n', '各种\n', '各级\n', '各自\n', '合理\n', '同\n', '同一\n', '同时\n', '同样\n', '后\n', '后来\n', '后者\n', '后面\n', '向\n', '向使\n', '向着\n', '吓\n', '吗\n', '否则\n', '吧\n', '吧哒\n', '吱\n', '呀\n', '呃\n', '呆呆地\n', '呐\n', '呕\n', '呗\n', '呜\n', '呜呼\n', '呢\n', '周围\n', '呵\n', '呵呵\n', '呸\n', '呼哧\n', '呼啦\n', '咋\n', '和\n', '咚\n', '咦\n', '咧\n', '咱\n', '咱们\n', '咳\n', '哇\n', '哈\n', '哈哈\n', '哉\n', '哎\n', '哎呀\n', '哎哟\n', '哗\n', '哗啦\n', '哟\n', '哦\n', '哩\n', '哪\n', '哪个\n', '哪些\n', '哪儿\n', '哪天\n', '哪年\n', '哪怕\n', '哪样\n', '哪边\n', '哪里\n', '哼\n', '哼唷\n', '唉\n', '唯有\n', '啊\n', '啊呀\n', '啊哈\n', '啊哟\n', '啐\n', '啥\n', '啦\n', '啪达\n', '啷当\n', '喀\n', '喂\n', '喏\n', '喔唷\n', '喽\n', '嗡\n', '嗡嗡\n', '嗬\n', '嗯\n', '嗳\n', '嘎\n', '嘎嘎\n', '嘎登\n', '嘘\n', '嘛\n', '嘻\n', '嘿\n', '嘿嘿\n', '四\n', '因\n', '因为\n', '因了\n', '因此\n', '因着\n', '因而\n', '固\n', '固然\n', '在\n', '在下\n', '在于\n', '地\n', '均\n', '坚决\n', '坚持\n', '基于\n', '基本\n', '基本上\n', '处在\n', '处处\n', '处理\n', '复杂\n', '多\n', '多么\n', '多亏\n', '多多\n', '多多少少\n', '多多益善\n', '多少\n', '多年前\n', '多年来\n', '多数\n', '多次\n', '够瞧的\n', '大\n', '大不了\n', '大举\n', '大事\n', '大体\n', '大体上\n', '大凡\n', '大力\n', '大多\n', '大多数\n', '大大\n', '大家\n', '大张旗鼓\n', '大批\n', '大抵\n', '大概\n', '大略\n', '大约\n', '大致\n', '大都\n', '大量\n', '大面儿上\n', '失去\n', '奇\n', '奈\n', '奋勇\n', '她\n', '她们\n', '她是\n', '她的\n', '好\n', '好在\n', '好的\n', '好象\n', '如\n', '如上\n', '如上所述\n', '如下\n', '如今\n', '如何\n', '如其\n', '如前所述\n', '如同\n', '如常\n', '如是\n', '如期\n', '如果\n', '如次\n', '如此\n', '如此等等\n', '如若\n', '始而\n', '姑且\n', '存在\n', '存心\n', '孰料\n', '孰知\n', '宁\n', '宁可\n', '宁愿\n', '宁肯\n', '它\n', '它们\n', '它们的\n', '它是\n', '它的\n', '安全\n', '完全\n', '完成\n', '定\n', '实现\n', '实际\n', '宣布\n', '容易\n', '密切\n', '对\n', '对于\n', '对应\n', '对待\n', '对方\n', '对比\n', '将\n', '将才\n', '将要\n', '将近\n', '小\n', '少数\n', '尔\n', '尔后\n', '尔尔\n', '尔等\n', '尚且\n', '尤其\n', '就\n', '就地\n', '就是\n', '就是了\n', '就是说\n', '就此\n', '就算\n', '就要\n', '尽\n', '尽可能\n', '尽如人意\n', '尽心尽力\n', '尽心竭力\n', '尽快\n', '尽早\n', '尽然\n', '尽管\n', '尽管如此\n', '尽量\n', '局外\n', '居然\n', '届时\n', '属于\n', '屡\n', '屡屡\n', '屡次\n', '屡次三番\n', '岂\n', '岂但\n', '岂止\n', '岂非\n', '川流不息\n', '左右\n', '巨大\n', '巩固\n', '差一点\n', '差不多\n', '己\n', '已\n', '已矣\n', '已经\n', '巴\n', '巴巴\n', '带\n', '帮助\n', '常\n', '常常\n', '常言说\n', '常言说得好\n', '常言道\n', '平素\n', '年复一年\n', '并\n', '并不\n', '并不是\n', '并且\n', '并排\n', '并无\n', '并没\n', '并没有\n', '并肩\n', '并非\n', '广大\n', '广泛\n', '应当\n', '应用\n', '应该\n', '庶乎\n', '庶几\n', '开外\n', '开始\n', '开展\n', '引起\n', '弗\n', '弹指之间\n', '强烈\n', '强调\n', '归\n', '归根到底\n', '归根结底\n', '归齐\n', '当\n', '当下\n', '当中\n', '当儿\n', '当前\n', '当即\n', '当口儿\n', '当地\n', '当场\n', '当头\n', '当庭\n', '当时\n', '当然\n', '当真\n', '当着\n', '形成\n', '彻夜\n', '彻底\n', '彼\n', '彼时\n', '彼此\n', '往\n', '往往\n', '待\n', '待到\n', '很\n', '很多\n', '很少\n', '後来\n', '後面\n', '得\n', '得了\n', '得出\n', '得到\n', '得天独厚\n', '得起\n', '心里\n', '必\n', '必定\n', '必将\n', '必然\n', '必要\n', '必须\n', '快\n', '快要\n', '忽地\n', '忽然\n', '怎\n', '怎么\n', '怎么办\n', '怎么样\n', '怎奈\n', '怎样\n', '怎麽\n', '怕\n', '急匆匆\n', '怪\n', '怪不得\n', '总之\n', '总是\n', '总的来看\n', '总的来说\n', '总的说来\n', '总结\n', '总而言之\n', '恍然\n', '恐怕\n', '恰似\n', '恰好\n', '恰如\n', '恰巧\n', '恰恰\n', '恰恰相反\n', '恰逢\n', '您\n', '您们\n', '您是\n', '惟其\n', '惯常\n', '意思\n', '愤然\n', '愿意\n', '慢说\n', '成为\n', '成年\n', '成年累月\n', '成心\n', '我\n', '我们\n', '我是\n', '我的\n', '或\n', '或则\n', '或多或少\n', '或是\n', '或曰\n', '或者\n', '或许\n', '战斗\n', '截然\n', '截至\n', '所\n', '所以\n', '所在\n', '所幸\n', '所有\n', '所谓\n', '才\n', '才能\n', '扑通\n', '打\n', '打从\n', '打开天窗说亮话\n', '扩大\n', '把\n', '抑或\n', '抽冷子\n', '拦腰\n', '拿\n', '按\n', '按时\n', '按期\n', '按照\n', '按理\n', '按说\n', '挨个\n', '挨家挨户\n', '挨次\n', '挨着\n', '挨门挨户\n', '挨门逐户\n', '换句话说\n', '换言之\n', '据\n', '据实\n', '据悉\n', '据我所知\n', '据此\n', '据称\n', '据说\n', '掌握\n', '接下来\n', '接着\n', '接著\n', '接连不断\n', '放量\n', '故\n', '故意\n', '故此\n', '故而\n', '敞开儿\n', '敢\n', '敢于\n', '敢情\n', '数/\n', '整个\n', '断然\n', '方\n', '方便\n', '方才\n', '方能\n', '方面\n', '旁人\n', '无\n', '无宁\n', '无法\n', '无论\n', '既\n', '既...又\n', '既往\n', '既是\n', '既然\n', '日复一日\n', '日渐\n', '日益\n', '日臻\n', '日见\n', '时候\n', '昂然\n', '明显\n', '明确\n', '是\n', '是不是\n', '是以\n', '是否\n', '是的\n', '显然\n', '显著\n', '普通\n', '普遍\n', '暗中\n', '暗地里\n', '暗自\n', '更\n', '更为\n', '更加\n', '更进一步\n', '曾\n', '曾经\n', '替\n', '替代\n', '最\n', '最后\n', '最大\n', '最好\n', '最後\n', '最近\n', '最高\n', '有\n', '有些\n', '有关\n', '有利\n', '有力\n', '有及\n', '有所\n', '有效\n', '有时\n', '有点\n', '有的\n', '有的是\n', '有着\n', '有著\n', '望\n', '朝\n', '朝着\n', '末##末\n', '本\n', '本人\n', '本地\n', '本着\n', '本身\n', '权时\n', '来\n', '来不及\n', '来得及\n', '来看\n', '来着\n', '来自\n', '来讲\n', '来说\n', '极\n', '极为\n', '极了\n', '极其\n', '极力\n', '极大\n', '极度\n', '极端\n', '构成\n', '果然\n', '果真\n', '某\n', '某个\n', '某些\n', '某某\n', '根据\n', '根本\n', '格外\n', '梆\n', '概\n', '次第\n', '欢迎\n', '欤\n', '正值\n', '正在\n', '正如\n', '正巧\n', '正常\n', '正是\n', '此\n', '此中\n', '此后\n', '此地\n', '此处\n', '此外\n', '此时\n', '此次\n', '此间\n', '殆\n', '毋宁\n', '每\n', '每个\n', '每天\n', '每年\n', '每当\n', '每时每刻\n', '每每\n', '每逢\n', '比\n', '比及\n', '比如\n', '比如说\n', '比方\n', '比照\n', '比起\n', '比较\n', '毕竟\n', '毫不\n', '毫无\n', '毫无例外\n', '毫无保留地\n', '汝\n', '沙沙\n', '没\n', '没奈何\n', '没有\n', '沿\n', '沿着\n', '注意\n', '活\n', '深入\n', '清楚\n', '满\n', '满足\n', '漫说\n', '焉\n', '然\n', '然则\n', '然后\n', '然後\n', '然而\n', '照\n', '照着\n', '牢牢\n', '特别是\n', '特殊\n', '特点\n', '犹且\n', '犹自\n', '独\n', '独自\n', '猛然\n', '猛然间\n', '率尔\n', '率然\n', '现代\n', '现在\n', '理应\n', '理当\n', '理该\n', '瑟瑟\n', '甚且\n', '甚么\n', '甚或\n', '甚而\n', '甚至\n', '甚至于\n', '用\n', '用来\n', '甫\n', '甭\n', '由\n', '由于\n', '由是\n', '由此\n', '由此可见\n', '略\n', '略为\n', '略加\n', '略微\n', '白\n', '白白\n', '的\n', '的确\n', '的话\n', '皆可\n', '目前\n', '直到\n', '直接\n', '相似\n', '相信\n', '相反\n', '相同\n', '相对\n', '相对而言\n', '相应\n', '相当\n', '相等\n', '省得\n', '看\n', '看上去\n', '看出\n', '看到\n', '看来\n', '看样子\n', '看看\n', '看见\n', '看起来\n', '真是\n', '真正\n', '眨眼\n', '着\n', '着呢\n', '矣\n', '矣乎\n', '矣哉\n', '知道\n', '砰\n', '确定\n', '碰巧\n', '社会主义\n', '离\n', '种\n', '积极\n', '移动\n', '究竟\n', '穷年累月\n', '突出\n', '突然\n', '窃\n', '立\n', '立刻\n', '立即\n', '立地\n', '立时\n', '立马\n', '竟\n', '竟然\n', '竟而\n', '第\n', '第二\n', '等\n', '等到\n', '等等\n', '策略地\n', '简直\n', '简而言之\n', '简言之\n', '管\n', '类如\n', '粗\n', '精光\n', '紧接着\n', '累年\n', '累次\n', '纯\n', '纯粹\n', '纵\n', '纵令\n', '纵使\n', '纵然\n', '练习\n', '组成\n', '经\n', '经常\n', '经过\n', '结合\n', '结果\n', '给\n', '绝\n', '绝不\n', '绝对\n', '绝非\n', '绝顶\n', '继之\n', '继后\n', '继续\n', '继而\n', '维持\n', '综上所述\n', '缕缕\n', '罢了\n', '老\n', '老大\n', '老是\n', '老老实实\n', '考虑\n', '者\n', '而\n', '而且\n', '而况\n', '而又\n', '而后\n', '而外\n', '而已\n', '而是\n', '而言\n', '而论\n', '联系\n', '联袂\n', '背地里\n', '背靠背\n', '能\n', '能否\n', '能够\n', '腾\n', '自\n', '自个儿\n', '自从\n', '自各儿\n', '自后\n', '自家\n', '自己\n', '自打\n', '自身\n', '臭\n', '至\n', '至于\n', '至今\n', '至若\n', '致\n', '般的\n', '良好\n', '若\n', '若夫\n', '若是\n', '若果\n', '若非\n', '范围\n', '莫\n', '莫不\n', '莫不然\n', '莫如\n', '莫若\n', '莫非\n', '获得\n', '藉以\n', '虽\n', '虽则\n', '虽然\n', '虽说\n', '蛮\n', '行为\n', '行动\n', '表明\n', '表示\n', '被\n', '要\n', '要不\n', '要不是\n', '要不然\n', '要么\n', '要是\n', '要求\n', '见\n', '规定\n', '觉得\n', '譬喻\n', '譬如\n', '认为\n', '认真\n', '认识\n', '让\n', '许多\n', '论\n', '论说\n', '设使\n', '设或\n', '设若\n', '诚如\n', '诚然\n', '话说\n', '该\n', '该当\n', '说明\n', '说来\n', '说说\n', '请勿\n', '诸\n', '诸位\n', '诸如\n', '谁\n', '谁人\n', '谁料\n', '谁知\n', '谨\n', '豁然\n', '贼死\n', '赖以\n', '赶\n', '赶快\n', '赶早不赶晚\n', '起\n', '起先\n', '起初\n', '起头\n', '起来\n', '起见\n', '起首\n', '趁\n', '趁便\n', '趁势\n', '趁早\n', '趁机\n', '趁热\n', '趁着\n', '越是\n', '距\n', '跟\n', '路经\n', '转动\n', '转变\n', '转贴\n', '轰然\n', '较\n', '较为\n', '较之\n', '较比\n', '边\n', '达到\n', '达旦\n', '迄\n', '迅速\n', '过\n', '过于\n', '过去\n', '过来\n', '运用\n', '近\n', '近几年来\n', '近年来\n', '近来\n', '还\n', '还是\n', '还有\n', '还要\n', '这\n', '这一来\n', '这个\n', '这么\n', '这么些\n', '这么样\n', '这么点儿\n', '这些\n', '这会儿\n', '这儿\n', '这就是说\n', '这时\n', '这样\n', '这次\n', '这点\n', '这种\n', '这般\n', '这边\n', '这里\n', '这麽\n', '进入\n', '进去\n', '进来\n', '进步\n', '进而\n', '进行\n', '连\n', '连同\n', '连声\n', '连日\n', '连日来\n', '连袂\n', '连连\n', '迟早\n', '迫于\n', '适应\n', '适当\n', '适用\n', '逐步\n', '逐渐\n', '通常\n', '通过\n', '造成\n', '逢\n', '遇到\n', '遭到\n', '遵循\n', '遵照\n', '避免\n', '那\n', '那个\n', '那么\n', '那么些\n', '那么样\n', '那些\n', '那会儿\n', '那儿\n', '那时\n', '那末\n', '那样\n', '那般\n', '那边\n', '那里\n', '那麽\n', '部分\n', '都\n', '鄙人\n', '采取\n', '里面\n', '重大\n', '重新\n', '重要\n', '鉴于\n', '针对\n', '长期以来\n', '长此下去\n', '长线\n', '长话短说\n', '问题\n', '间或\n', '防止\n', '阿\n', '附近\n', '陈年\n', '限制\n', '陡然\n', '除\n', '除了\n', '除却\n', '除去\n', '除外\n', '除开\n', '除此\n', '除此之外\n', '除此以外\n', '除此而外\n', '除非\n', '随\n', '随后\n', '随时\n', '随着\n', '随著\n', '隔夜\n', '隔日\n', '难得\n', '难怪\n', '难说\n', '难道\n', '难道说\n', '集中\n', '零\n', '需要\n', '非但\n', '非常\n', '非徒\n', '非得\n', '非特\n', '非独\n', '靠\n', '顶多\n', '顷\n', '顷刻\n', '顷刻之间\n', '顷刻间\n', '顺\n', '顺着\n', '顿时\n', '颇\n', '风雨无阻\n', '饱\n', '首先\n', '马上\n', '高低\n', '高兴\n', '默然\n', '默默地\n', '齐\n', '︿\n', '!\n', '#\n', '$\n', '%\n', '&\n', ''\n', '(\n', ')\n', ')÷(1-\n', ')、\n', '*\n', '+\n', '+ξ\n', '++\n', ',\n', ',也\n', '-\n', '-β\n', '--\n', '-[*]-\n', '.\n', '/\n', '0\n', '0:2\n', '1\n', '1.\n', '12%\n', '2\n', '2.3%\n', '3\n', '4\n', '5\n', '5:0\n', '6\n', '7\n', '8\n', '9\n', ':\n', ';\n', '<\n', '<±\n', '<Δ\n', '<λ\n', '<φ\n', '<<\n', '=\n', '=″\n', '=☆\n', '=(\n', '=-\n', '=[\n', '={\n', '>\n', '>λ\n', '?\n', '@\n', 'A\n', 'LI\n', 'R.L.\n', 'ZXFITL\n', '[\n', '[①①]\n', '[①②]\n', '[①③]\n', '[①④]\n', '[①⑤]\n', '[①⑥]\n', '[①⑦]\n', '[①⑧]\n', '[①⑨]\n', '[①A]\n', '[①B]\n', '[①C]\n', '[①D]\n', '[①E]\n', '[①]\n', '[①a]\n', '[①c]\n', '[①d]\n', '[①e]\n', '[①f]\n', '[①g]\n', '[①h]\n', '[①i]\n', '[①o]\n', '[②\n', '[②①]\n', '[②②]\n', '[②③]\n', '[②④\n', '[②⑤]\n', '[②⑥]\n', '[②⑦]\n', '[②⑧]\n', '[②⑩]\n', '[②B]\n', '[②G]\n', '[②]\n', '[②a]\n', '[②b]\n', '[②c]\n', '[②d]\n', '[②e]\n', '[②f]\n', '[②g]\n', '[②h]\n', '[②i]\n', '[②j]\n', '[③①]\n', '[③⑩]\n', '[③F]\n', '[③]\n', '[③a]\n', '[③b]\n', '[③c]\n', '[③d]\n', '[③e]\n', '[③g]\n', '[③h]\n', '[④]\n', '[④a]\n', '[④b]\n', '[④c]\n', '[④d]\n', '[④e]\n', '[⑤]\n', '[⑤]]\n', '[⑤a]\n', '[⑤b]\n', '[⑤d]\n', '[⑤e]\n', '[⑤f]\n', '[⑥]\n', '[⑦]\n', '[⑧]\n', '[⑨]\n', '[⑩]\n', '[*]\n', '[-\n', '[]\n', ']\n', ']∧′=[\n', '][\n', '_\n', 'a]\n', 'b]\n', 'c]\n', 'e]\n', 'f]\n', 'ng昉\n', '{\n', '{-\n', '|\n', '}\n', '}>\n', '~\n', '~±\n', '~+\n', '¥']
In [13]:
stopwords = []
with open("./data/stopwords.txt", "r", encoding="utf-8") as f:
lines = f.readlines()
# print(lines)
for tmp in lines:
line = tmp.strip()
# print(line)
stopwords.append(line)
In [14]:
stopwords
Out[14]:
['!',
'"',
'#',
'$',
'%',
'&',
"'",
'(',
')',
'*',
'+',
',',
'-',
'--',
'.',
'..',
'...',
'......',
'...................',
'./',
'.一',
'.数',
'.日',
'/',
'//',
'0',
'1',
'2',
'3',
'4',
'5',
'6',
'7',
'8',
'9',
':',
'://',
'::',
';',
'<',
'=',
'>',
'>>',
'?',
'@',
'A',
'Lex',
'[',
'\\',
']',
'^',
'_',
'`',
'exp',
'sub',
'sup',
'|',
'}',
'~',
'~~~~',
'·',
'×',
'×××',
'Δ',
'Ψ',
'γ',
'μ',
'φ',
'φ.',
'В',
'—',
'——',
'———',
'‘',
'’',
'’‘',
'“',
'”',
'”,',
'…',
'……',
'…………………………………………………③',
'′∈',
'′|',
'℃',
'Ⅲ',
'↑',
'→',
'∈[',
'∪φ∈',
'≈',
'①',
'②',
'②c',
'③',
'③]',
'④',
'⑤',
'⑥',
'⑦',
'⑧',
'⑨',
'⑩',
'──',
'■',
'▲',
'',
'、',
'。',
'〈',
'〉',
'《',
'》',
'》),',
'」',
'『',
'』',
'【',
'】',
'〔',
'〕',
'〕〔',
'㈧',
'一',
'一.',
'一一',
'一下',
'一个',
'一些',
'一何',
'一切',
'一则',
'一则通过',
'一天',
'一定',
'一方面',
'一旦',
'一时',
'一来',
'一样',
'一次',
'一片',
'一番',
'一直',
'一致',
'一般',
'一起',
'一转眼',
'一边',
'一面',
'七',
'万一',
'三',
'三天两头',
'三番两次',
'三番五次',
'上',
'上下',
'上升',
'上去',
'上来',
'上述',
'上面',
'下',
'下列',
'下去',
'下来',
'下面',
'不',
'不一',
'不下',
'不久',
'不了',
'不亦乐乎',
'不仅',
'不仅...而且',
'不仅仅',
'不仅仅是',
'不会',
'不但',
'不但...而且',
'不光',
'不免',
'不再',
'不力',
'不单',
'不变',
'不只',
'不可',
'不可开交',
'不可抗拒',
'不同',
'不外',
'不外乎',
'不够',
'不大',
'不如',
'不妨',
'不定',
'不对',
'不少',
'不尽',
'不尽然',
'不巧',
'不已',
'不常',
'不得',
'不得不',
'不得了',
'不得已',
'不必',
'不怎么',
'不怕',
'不惟',
'不成',
'不拘',
'不择手段',
'不敢',
'不料',
'不断',
'不日',
'不时',
'不是',
'不曾',
'不止',
'不止一次',
'不比',
'不消',
'不满',
'不然',
'不然的话',
'不特',
'不独',
'不由得',
'不知不觉',
'不管',
'不管怎样',
'不经意',
'不胜',
'不能',
'不能不',
'不至于',
'不若',
'不要',
'不论',
'不起',
'不足',
'不过',
'不迭',
'不问',
'不限',
'与',
'与其',
'与其说',
'与否',
'与此同时',
'专门',
'且',
'且不说',
'且说',
'两者',
'严格',
'严重',
'个',
'个人',
'个别',
'中小',
'中间',
'丰富',
'串行',
'临',
'临到',
'为',
'为主',
'为了',
'为什么',
'为什麽',
'为何',
'为止',
'为此',
'为着',
'主张',
'主要',
'举凡',
'举行',
'乃',
'乃至',
'乃至于',
'么',
'之',
'之一',
'之前',
'之后',
'之後',
'之所以',
'之类',
'乌乎',
'乎',
'乒',
'乘',
'乘势',
'乘机',
'乘胜',
'乘虚',
'乘隙',
'九',
'也',
'也好',
'也就是说',
'也是',
'也罢',
'了',
'了解',
'争取',
'二',
'二来',
'二话不说',
'二话没说',
'于',
'于是',
'于是乎',
'云云',
'云尔',
'互',
'互相',
'五',
'些',
'交口',
'亦',
'产生',
'亲口',
'亲手',
'亲眼',
'亲自',
'亲身',
'人',
'人人',
'人们',
'人家',
'人民',
'什么',
'什么样',
'什麽',
'仅',
'仅仅',
'今',
'今后',
'今天',
'今年',
'今後',
'介于',
'仍',
'仍旧',
'仍然',
'从',
'从不',
'从严',
'从中',
'从事',
'从今以后',
'从优',
'从古到今',
'从古至今',
'从头',
'从宽',
'从小',
'从新',
'从无到有',
'从早到晚',
'从未',
'从来',
'从此',
'从此以后',
'从而',
'从轻',
'从速',
'从重',
'他',
'他人',
'他们',
'他是',
'他的',
'代替',
'以',
'以上',
'以下',
'以为',
'以便',
'以免',
'以前',
'以及',
'以后',
'以外',
'以後',
'以故',
'以期',
'以来',
'以至',
'以至于',
'以致',
'们',
'任',
'任何',
'任凭',
'任务',
'企图',
'伙同',
'会',
'伟大',
'传',
'传说',
'传闻',
'似乎',
'似的',
'但',
'但凡',
'但愿',
'但是',
'何',
'何乐而不为',
'何以',
'何况',
'何处',
'何妨',
'何尝',
'何必',
'何时',
'何止',
'何苦',
'何须',
'余外',
'作为',
'你',
'你们',
'你是',
'你的',
'使',
'使得',
'使用',
'例如',
'依',
'依据',
'依照',
'依靠',
'便',
'便于',
'促进',
'保持',
'保管',
'保险',
'俺',
'俺们',
'倍加',
'倍感',
'倒不如',
'倒不如说',
'倒是',
'倘',
'倘使',
'倘或',
'倘然',
'倘若',
'借',
'借以',
'借此',
'假使',
'假如',
'假若',
'偏偏',
'做到',
'偶尔',
'偶而',
'傥然',
'像',
'儿',
'允许',
'元/吨',
'充其极',
'充其量',
'充分',
'先不先',
'先后',
'先後',
'先生',
'光',
'光是',
'全体',
'全力',
'全年',
'全然',
'全身心',
'全部',
'全都',
'全面',
'八',
'八成',
'公然',
'六',
'兮',
'共',
'共同',
'共总',
'关于',
'其',
'其一',
'其中',
'其二',
'其他',
'其余',
'其后',
'其它',
'其实',
'其次',
'具体',
'具体地说',
'具体来说',
'具体说来',
'具有',
'兼之',
'内',
'再',
'再其次',
'再则',
'再有',
'再次',
'再者',
'再者说',
'再说',
'冒',
'冲',
'决不',
'决定',
'决非',
'况且',
'准备',
'凑巧',
'凝神',
'几',
'几乎',
'几度',
'几时',
'几番',
'几经',
'凡',
'凡是',
'凭',
'凭借',
'出',
'出于',
'出去',
'出来',
'出现',
'分别',
'分头',
'分期',
'分期分批',
'切',
'切不可',
'切切',
'切勿',
'切莫',
'则',
'则甚',
'刚',
'刚好',
'刚巧',
'刚才',
'初',
'别',
'别人',
'别处',
'别是',
'别的',
'别管',
'别说',
'到',
'到了儿',
'到处',
'到头',
'到头来',
'到底',
'到目前为止',
'前后',
'前此',
'前者',
'前进',
'前面',
'加上',
'加之',
'加以',
'加入',
'加强',
'动不动',
'动辄',
'勃然',
'匆匆',
'十分',
'千',
'千万',
'千万千万',
'半',
'单',
'单单',
'单纯',
'即',
'即令',
'即使',
'即便',
'即刻',
'即如',
'即将',
'即或',
'即是说',
'即若',
'却',
'却不',
'历',
'原来',
'去',
'又',
'又及',
'及',
'及其',
'及时',
'及至',
'双方',
'反之',
'反之亦然',
'反之则',
'反倒',
'反倒是',
'反应',
'反手',
'反映',
'反而',
'反过来',
'反过来说',
'取得',
'取道',
'受到',
'变成',
'古来',
'另',
'另一个',
'另一方面',
'另外',
'另悉',
'另方面',
'另行',
'只',
'只当',
'只怕',
'只是',
'只有',
'只消',
'只要',
'只限',
'叫',
'叫做',
'召开',
'叮咚',
'叮当',
'可',
'可以',
'可好',
'可是',
'可能',
'可见',
'各',
'各个',
'各人',
'各位',
'各地',
'各式',
'各种',
'各级',
'各自',
'合理',
'同',
'同一',
'同时',
'同样',
'后',
'后来',
'后者',
'后面',
'向',
'向使',
'向着',
'吓',
'吗',
'否则',
'吧',
'吧哒',
'吱',
'呀',
'呃',
'呆呆地',
'呐',
'呕',
'呗',
'呜',
'呜呼',
'呢',
'周围',
'呵',
'呵呵',
'呸',
'呼哧',
'呼啦',
'咋',
'和',
'咚',
'咦',
'咧',
'咱',
'咱们',
'咳',
'哇',
'哈',
'哈哈',
'哉',
'哎',
'哎呀',
'哎哟',
'哗',
'哗啦',
'哟',
'哦',
'哩',
'哪',
'哪个',
'哪些',
'哪儿',
'哪天',
'哪年',
'哪怕',
'哪样',
'哪边',
'哪里',
'哼',
'哼唷',
'唉',
'唯有',
'啊',
'啊呀',
'啊哈',
'啊哟',
'啐',
'啥',
'啦',
'啪达',
'啷当',
'喀',
'喂',
'喏',
'喔唷',
'喽',
'嗡',
'嗡嗡',
'嗬',
'嗯',
'嗳',
'嘎',
'嘎嘎',
'嘎登',
'嘘',
'嘛',
'嘻',
'嘿',
'嘿嘿',
'四',
'因',
'因为',
'因了',
'因此',
'因着',
'因而',
'固',
'固然',
'在',
'在下',
'在于',
'地',
'均',
'坚决',
'坚持',
'基于',
'基本',
'基本上',
'处在',
'处处',
'处理',
'复杂',
'多',
'多么',
'多亏',
'多多',
'多多少少',
'多多益善',
'多少',
'多年前',
'多年来',
'多数',
'多次',
'够瞧的',
'大',
'大不了',
'大举',
'大事',
'大体',
'大体上',
'大凡',
'大力',
'大多',
'大多数',
'大大',
'大家',
'大张旗鼓',
'大批',
'大抵',
'大概',
'大略',
'大约',
'大致',
'大都',
'大量',
'大面儿上',
'失去',
'奇',
'奈',
'奋勇',
'她',
'她们',
'她是',
'她的',
'好',
'好在',
'好的',
'好象',
'如',
'如上',
'如上所述',
'如下',
'如今',
'如何',
'如其',
'如前所述',
'如同',
'如常',
'如是',
'如期',
'如果',
'如次',
'如此',
'如此等等',
'如若',
'始而',
'姑且',
'存在',
'存心',
'孰料',
'孰知',
'宁',
'宁可',
'宁愿',
'宁肯',
'它',
'它们',
'它们的',
'它是',
'它的',
'安全',
'完全',
'完成',
'定',
'实现',
'实际',
'宣布',
'容易',
'密切',
'对',
'对于',
'对应',
'对待',
'对方',
'对比',
'将',
'将才',
'将要',
'将近',
'小',
'少数',
'尔',
'尔后',
'尔尔',
'尔等',
'尚且',
'尤其',
'就',
'就地',
'就是',
'就是了',
'就是说',
'就此',
'就算',
'就要',
'尽',
'尽可能',
'尽如人意',
'尽心尽力',
'尽心竭力',
'尽快',
'尽早',
'尽然',
'尽管',
'尽管如此',
'尽量',
'局外',
'居然',
'届时',
'属于',
'屡',
'屡屡',
'屡次',
'屡次三番',
'岂',
'岂但',
'岂止',
'岂非',
'川流不息',
'左右',
'巨大',
'巩固',
'差一点',
'差不多',
'己',
'已',
'已矣',
'已经',
'巴',
'巴巴',
'带',
'帮助',
'常',
'常常',
'常言说',
'常言说得好',
'常言道',
'平素',
'年复一年',
'并',
'并不',
'并不是',
'并且',
'并排',
'并无',
'并没',
'并没有',
'并肩',
'并非',
'广大',
'广泛',
'应当',
'应用',
'应该',
'庶乎',
'庶几',
'开外',
'开始',
'开展',
'引起',
'弗',
'弹指之间',
'强烈',
'强调',
'归',
'归根到底',
'归根结底',
'归齐',
'当',
'当下',
'当中',
'当儿',
'当前',
'当即',
'当口儿',
'当地',
'当场',
'当头',
'当庭',
'当时',
'当然',
'当真',
'当着',
'形成',
'彻夜',
'彻底',
'彼',
'彼时',
...]
In [17]:
stopwords = list(set(stopwords))
In [18]:
stopwords
Out[18]:
['',
'但是',
'自己',
'惟其',
'九',
'归根到底',
'各级',
'——',
'¥',
'非特',
'过',
'累年',
'距',
'不必',
'A',
'数/',
'所有',
'甚么',
'呵呵',
'略',
'大面儿上',
'犹自',
'4',
'成年累月',
'路经',
'全部',
'我是',
'可',
'除此',
'各地',
'何况',
'不一',
'①',
'小',
'日臻',
'大大',
'方',
'据说',
'<',
'能',
'你们',
'接下来',
'前进',
'各种',
'一则',
'自家',
'来着',
'高兴',
'好',
'}>',
'而是',
'俺',
'矣哉',
'另行',
'那',
'倘使',
'[*]',
'然後',
'不下',
'变成',
'接著',
'不同',
'八成',
'、',
'乘胜',
'总而言之',
'率尔',
'後面',
'并不是',
'今',
'[⑤]',
'刚巧',
'一切',
'[②⑦]',
'倘或',
'从新',
'致',
'既',
'还要',
'曾经',
'{',
'大不了',
'日复一日',
'而后',
'以期',
'<<',
'主要',
'极端',
'f]',
'如是',
'这儿',
'充分',
'...',
'多年来',
'这种',
'趁热',
'仅',
'旁人',
'以至',
'其二',
'起先',
'尽然',
'”',
'里面',
'趁便',
'此处',
'所在',
')',
'不比',
'甚至于',
'不外乎',
'#',
'刚',
'2',
'而况',
'经',
'成为',
'故意',
'叮当',
'[⑤e]',
'自',
'凑巧',
'乃至',
'大举',
'零',
'概',
'<±',
'总结',
'连连',
'而又',
'不仅仅是',
'保管',
'进行',
'[②j]',
'常常',
'必',
'砰',
'产生',
'你的',
'即若',
'没',
'纵使',
'嗡嗡',
'略加',
'才能',
'-β',
'据',
'才',
'真正',
'"',
'巨大',
'故此',
'最后',
'离',
'对于',
'有的是',
'过于',
'现代',
'不胜',
'有效',
'但凡',
'哈',
'并肩',
'以来',
'分头',
'近来',
'不由得',
'这时',
'今后',
'非徒',
'不仅...而且',
'要么',
'人家',
'只当',
'呐',
'有关',
'连声',
'哪年',
'设若',
'绝对',
'归根结底',
'据此',
'次第',
'每逢',
'种',
'及至',
'γ',
'一片',
'不拘',
'应当',
'&',
'从古到今',
'强调',
'他人',
'或多或少',
'转变',
'不尽',
'往往',
'哩',
'现在',
'_',
'亲眼',
'当',
'遵循',
'呼哧',
'高低',
'之',
'正是',
'怪不得',
'此间',
'宁愿',
'绝不',
'快',
'我的',
'很少',
'其余',
'即使',
'意思',
'何妨',
'可是',
'一次',
'反手',
'是',
'广大',
'全都',
'就是',
'挨门挨户',
'可好',
']∧′=[',
'其',
'尽心尽力',
'还有',
'者',
'啥',
'’‘',
'似乎',
'问题',
'您们',
'依靠',
'照',
'[④e]',
')÷(1-',
'为止',
'乘',
'年复一年',
'目前',
'哪里',
'℃',
'藉以',
'这里',
'啦',
'以免',
'阿',
'沙沙',
'2.3%',
'某些',
'隔日',
'绝非',
'=-',
'会',
'“',
'或则',
'可能',
'光是',
')',
'切不可',
'从而',
'[',
'它的',
'多么',
'良好',
'咧',
'$',
'他的',
'那么',
',',
'均',
'将才',
'左右',
'不限',
'谁料',
'’',
'策略地',
'具体',
'至今',
'尽心竭力',
'连日',
'呕',
'窃',
'几',
'规定',
'譬如',
'啪达',
'比及',
'何苦',
'以前',
'老老实实',
'不只',
'川流不息',
'联系',
'%',
'向使',
'对应',
'或曰',
'实现',
'着',
'[②⑧]',
'迫于',
'什麽',
'0',
'兼之',
'避免',
'每时每刻',
'依',
'因此',
'么',
'尚且',
'人们',
'乘机',
'嘎登',
'怎么样',
'矣',
'[②⑥]',
'为何',
'/',
'不定',
'考虑',
'凝神',
'坚决',
'忽然',
'嘿',
'传闻',
'前后',
'下',
'→',
'专门',
'那末',
'跟',
'c]',
'且说',
'乒',
'极力',
'让',
'Ⅲ',
'屡次三番',
'=',
'哎哟',
'充其量',
'牢牢',
'谁人',
'至',
'根本',
'【',
'诸',
'′∈',
'”,',
'表明',
'这就是说',
'临到',
'[③]',
'宁可',
'常言道',
'从早到晚',
'双方',
'立即',
'呜',
'出于',
'因',
'此时',
'造成',
'当儿',
'臭',
'与否',
'千万千万',
'挨门逐户',
'看看',
'不知不觉',
'不择手段',
'与其',
'%',
'?',
'过来',
'直接',
'形成',
'相等',
'处理',
'古来',
'[①E]',
'从速',
'㈧',
'′|',
'所',
'任务',
'⑦',
'所幸',
'喔唷',
'本身',
'那样',
'实际',
'这么点儿',
'连袂',
'长此下去',
'就地',
'果真',
'儿',
'[②⑩]',
'单纯',
'适应',
'Δ',
'不迭',
'恰如',
'这么样',
'尔尔',
'即',
'并非',
'!',
'换句话说',
'不然',
'各位',
'虽然',
'此地',
'处处',
'地',
'———',
'宁肯',
'呜呼',
'按说',
'啊哟',
'够瞧的',
'关于',
'如何',
'从不',
'×',
'从严',
'啐',
'尽',
'︿',
'哪怕',
'://',
'几时',
'积极',
'从小',
'不日',
'e]',
'话说',
'二话没说',
'倒不如',
'嗳',
'每每',
'对方',
'哇',
'[⑩]',
'随著',
'以后',
'不得已',
'注意',
'及其',
'不但...而且',
'已',
'[-',
'A',
'②c',
'行为',
'失去',
'颇',
'[②⑤]',
'孰知',
'呸',
'得天独厚',
'极其',
'不要',
'[①a]',
'哪些',
'几度',
'逐步',
'为此',
'~±',
'一何',
'巴巴',
'您',
'构成',
'总的说来',
'没奈何',
'若',
'定',
'不至于',
'能够',
'巴',
'无宁',
'了',
'当地',
'.数',
'当场',
'沿着',
'少数',
'赶快',
'=″',
'可以',
'因而',
'对比',
'有所',
'举行',
'蛮',
'比如说',
'那儿',
'④',
'.',
'相对而言',
'从未',
'趁早',
'比照',
'当然',
'来讲',
'立地',
'半',
'得到',
'一下',
'差一点',
'大多',
'…………………………………………………③',
'彼此',
'赶早不赶晚',
'得出',
'传说',
'更加',
'看上去',
'大体',
'特别是',
'切勿',
'极度',
'亲自',
'强烈',
'那么些',
'二来',
'愤然',
'上去',
'三番两次',
'促进',
'暗地里',
'不可抗拒',
'上',
'这么些',
'倒不如说',
'将',
'另一方面',
'如同',
'不巧',
'准备',
'*',
'〈',
'省得',
'非常',
'复杂',
'自后',
'余外',
'[②g]',
'如上',
'尽量',
'〕〔',
'几乎',
'哪个',
'马上',
'哟',
'以便',
'怎',
'自个儿',
'乃',
'5',
'[⑤f]',
']',
'|',
'汝',
'凭借',
'不特',
'还是',
'共总',
'後来',
'适当',
'急匆匆',
',',
'[①①]',
'大家',
'[⑧]',
'别处',
'之後',
'在',
'并且',
'随后',
'一边',
'再者',
'单单',
'比较',
'呆呆地',
'由此可见',
'广泛',
'要是',
'不对',
'反之',
'往',
'正在',
'趁机',
'冲',
'始而',
'极为',
'用来',
'我',
':',
'尽管',
'只限',
'[③g]',
'难道',
'++',
'既然',
'......',
'下去',
'介于',
'屡次',
'与',
'重要',
'…',
'何处',
'!',
'嗬',
'刚才',
'对',
'奋勇',
'长话短说',
'[⑤]]',
'到了儿',
'哪边',
'格外',
'第',
'除外',
'近几年来',
'而言',
'凡',
'固然',
'保持',
'莫不然',
'竟然',
'严格',
'然',
'给',
'有点',
'按',
'为着',
'大抵',
'哎',
'_',
'不起',
'如下',
'要求',
'人民',
'见',
'大力',
'论说',
'放量',
''',
'集中',
'哼唷',
'呀',
'白白',
'当前',
'行动',
'[②a]',
'以至于',
'有些',
'很',
'//',
'多年前',
'连日来',
'分期',
'就此',
'⑩',
'如此',
'靠',
'然后',
'越是',
'来说',
'今後',
'内',
'怎麽',
'除却',
'传',
'从轻',
'陈年',
'到底',
'恰似',
'向',
'9',
'.',
'就是说',
'较之',
'常',
'移动',
'③',
'`',
'──',
'显然',
'个别',
'仅仅',
'顿时',
'比方',
'下来',
'前面',
'于是',
'又',
'继之',
'恰巧',
'以上',
'引起',
'这麽',
'结果',
'刚好',
'大',
'Ψ',
'昂然',
'迄',
'[⑨]',
'同时',
'对待',
'\\',
'不仅仅',
'达到',
'~~~~',
':',
'起见',
'他',
'—',
'运用',
'[②h]',
'即或',
'哪天',
'不敢',
'纯',
'正值',
'据实',
'反映',
'>λ',
'朝着',
'周围',
'5',
'全力',
'瑟瑟',
'理应',
'说明',
'帮助',
'咱们',
'具体地说',
'齐',
'不已',
'截然',
'理当',
'总的来看',
'更进一步',
'$',
'怕',
'即如',
'便',
'主张',
'[②f]',
'不曾',
'好的',
'个人',
'安全',
'突出',
'缕缕',
'莫',
'不会',
'[]',
'不可',
'于是乎',
'惯常',
'由此',
'-[*]-',
'必将',
'究竟',
'正常',
'好在',
'不若',
'另一个',
'用',
'独',
'从',
'既...又',
'啊哈',
'其他',
'不经意',
'任凭',
'日见',
'附近',
'[①f]',
'(',
'暗自',
'甚至',
'岂非',
'哪样',
'6',
'不尽然',
'许多',
'其次',
'呼啦',
'巩固',
'限制',
'[②]',
'召开',
'其一',
'莫不',
'动不动',
'边',
'咚',
'却',
'使',
'打',
'到',
'曾',
'进来',
'只是',
'+',
'[①⑨]',
'如',
'∪φ∈',
'上升',
'偏偏',
'据我所知',
'反过来',
'贼死',
'倍感',
'[①D]',
'以为',
'后',
'顷刻之间',
'明显',
'您是',
'的话',
'焉',
'要不是',
'而且',
'只要',
'除此之外',
'[②B]',
'当下',
'大张旗鼓',
'何乐而不为',
'不管',
'亦',
'偶尔',
'怎样',
'不常',
'倘若',
'敞开儿',
'立时',
'[②i]',
'开外',
'甭',
'哈哈',
'之后',
'决定',
'从头',
'获得',
'呢',
'宣布',
'也好',
'顺',
'别说',
'7',
'如此等等',
'等到',
'一旦',
'必须',
'充其极',
'据悉',
'叫',
'本',
'得了',
'一些',
'起',
'能否',
'恰逢',
';',
'按时',
'白',
'而外',
'ng昉',
'容易',
'自从',
'七',
'有着',
'&',
'总是',
'甚且',
'知道',
'个',
'={',
'呵',
'觉得',
'9',
'非但',
'[⑥]',
'逢',
'深入',
'是以',
'■',
'没有',
'故而',
'切',
'切莫',
'部分',
'这般',
'到头来',
'彼',
'长期以来',
'大事',
'难道说',
'不止一次',
'满',
'它',
'像',
'五',
'它们',
'譬喻',
'我们',
'应用',
'如果',
'兮',
'共',
'{-',
'与此同时',
'嗡',
'开始',
'毕竟',
'进入',
'尽早',
'得起',
'[①A]',
'千',
'果然',
'扩大',
'由是',
'相同',
'迅速',
'等等',
'仍然',
'猛然',
'某',
'‘',
'1.',
'允许',
'[③b]',
'各自',
'它是',
'不免',
'就',
'认为',
'从优',
'为',
'来自',
'管',
'全年',
'殆',
'长线',
'从此',
'[③h]',
'最大',
'的确',
'分期分批',
'完成',
'咳',
'虽说',
'然而',
'之一',
'极了',
')、',
'只',
'然则',
'反而',
'不止',
'[①⑦]',
'一一',
'匆匆',
'尔后',
'只怕',
'勃然',
'转贴',
'当即',
'其后',
'从中',
'一样',
'[②③]',
'乌乎',
'根据',
'论',
'大约',
'都',
'采取',
'>',
'和',
'今天',
'啷当',
'好象',
...]
把“内容”处理,转化成标准格式
In [24]:
comment_list = []
for tmp in content:
# print(tmp)
# 把一句句话变成一个个词
seg_list = jieba.cut(tmp, cut_all=False)
# print(seg_list)
seg_str = ",".join(seg_list)
# print(seg_str)
comment_list.append(seg_str)
In [25]:
comment_list
Out[25]:
[' ,从,编程,小白,的,角度看,,,入门,极佳,。',
'很,好,的,入门,书,,,简洁,全面,,,适合,小白,。',
'讲解,全面,,,许多,小,细节,都,有,顾及,,,三个,小,项目,受益匪浅,。',
'前半部,分讲,概念,深入浅出,,,要言不烦,,,很赞',
'看,了,一遍,还是,不会,写,,,有个,概念,而已',
'中规中矩,的,教科书,,,零,基础,的,看,了,依旧,看不懂',
'内容,太,浅显,,,个人,认为,不,适合,有,其它,语言,编程,基础,的,人',
'破书,一本',
'适合,完完全全,的,小白读,,,有,其他,语言,经验,的,可以,去,看,别的,书',
'基础知识,写,的,挺,好,的,!',
'太,基础',
'略,_,嗦,。,。,适合,完全,没有,编程,经验,的,小白',
'真的,真的,不,建议,买']
In [27]:
## 统计次个数
con = CountVectorizer(stop_words=stopwords)
X = con.fit_transform(comment_list)
In [29]:
X.toarray()
Out[29]:
array([[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0,
0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
[0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1],
[0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0,
1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0],
[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)
In [30]:
con.get_feature_names()
Out[30]:
['一本',
'一遍',
'三个',
'中规中矩',
'依旧',
'入门',
'内容',
'分讲',
'前半部',
'受益匪浅',
'基础',
'基础知识',
'完完全全',
'小白',
'小白读',
'建议',
'很赞',
'教科书',
'有个',
'极佳',
'概念',
'浅显',
'深入浅出',
'看不懂',
'真的',
'破书',
'简洁',
'细节',
'经验',
'编程',
'要言不烦',
'角度看',
'讲解',
'语言',
'适合',
'项目',
'顾及']
准备训练集和测试集
In [33]:
x_train = X.toarray()[:10, :]
y_train = data["评价"][:10]
In [34]:
x_train
Out[34]:
array([[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0,
0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
[0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1],
[0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0,
1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0],
[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0],
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int64)
In [35]:
y_train
Out[35]:
0 好评
1 好评
2 好评
3 好评
4 差评
5 差评
6 差评
7 差评
8 差评
9 好评
Name: 评价, dtype: object
In [36]:
x_test = X.toarray()[10:, :]
y_test = data["评价"][10:]
模型训练
In [39]:
mb = MultinomialNB(alpha=1)
mb.fit(x_train, y_train)
y_pre = mb.predict(x_test)
In [40]:
print("预测值:", y_pre)
print("真实值:", y_test)
预测值: ['差评' '差评' '差评']
真实值: 10 差评
11 差评
12 差评
Name: 评价, dtype: object
模型评估
In [41]:
mb.score(x_test, y_test)
Out[41]:
1.0