2020年01月_锵锵锵锵~蒋

02月 01月

原创基于TFIDF实现文本分类，并比较词集模型与词袋模型的分类效果

【方法原理】TF-IDF是一种统计方法，用以评估某一字词对于一个文件集或一个语料库的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。TF-IDF的主要思想是，如果某个词或短语在一篇文章中出现的频率TF(Term Frequency，词频)，词频高，并且...

2020-01-05 19:57:48 2483 1

原创 NLP--基于聚类的方法，对影评文本分类，并对几种聚类方法进行比较，以及与分类的方法的效果进行比较。

【方法原理】Sklearn的cluster提供了kmeans，Agglomerative（层级聚类中的聚合方法，另一个是分裂）和DBSCAN聚类函数（属密度聚类）。 KMeans均值算法表示以空间中k个点为中心进行聚类，对靠近的点归类。1、从数据集（或者数据空间范围内）D中随机取k（预先人为设定）个元素，作为k个类的各自的初始中心。2、分别计算剩下的元素到k个类中心的距离，依据距离大小，...

2020-01-05 18:34:49 1873 1

原创 NLP—比较各分类器在影评分类任务上的性能

题目：比较分类器在影评分类任务上的性能。训练集：1500，测试集：500。1、Naive Bayes（朴素贝叶斯）有三个常用模型：高斯、多项式、伯努利；2、KNN选择K（最好是交叉验证）；3、SVM选择核函数。4、决策树分类器5、最大熵分类器要求：在原理部分，对每种模型要简述原理，调整的每个参数要说明意义。最后部分简单概括，各分类器在影评分类任务上的性能。【方法原理】1、朴素贝叶...

2020-01-05 18:27:09 883

第七版《计算机网络》运输层.xmind

结合课程PPT与第七版计网书籍

2021-03-14

第七版《计算机网络》应用层.xmind

结合课程PPT与第七版计网书籍

2021-03-14

第七版《计算机网络》网络层.xmind

结合了课程PPT与计算机网络书本

2021-03-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 基于TFIDF实现文本分类，并比较词集模型与词袋模型的分类效果

原创 NLP--基于聚类的方法，对影评文本分类，并对几种聚类方法进行比较，以及与分类的方法的效果进行比较。

原创 NLP—比较各分类器在影评分类任务上的性能

第七版《计算机网络》运输层.xmind

第七版《计算机网络》应用层.xmind

第七版《计算机网络》网络层.xmind

空空如也

原创基于TFIDF实现文本分类，并比较词集模型与词袋模型的分类效果