- 博客(3)
- 资源 (3)
- 收藏
- 关注
原创 基于TFIDF实现文本分类,并比较词集模型与词袋模型的分类效果
【方法原理】TF-IDF是一种统计方法,用以评估某一字词对于一个文件集或一个语料库的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。TF-IDF的主要思想是,如果某个词或短语在一篇文章中出现的频率TF(Term Frequency,词频),词频高,并且...
2020-01-05 19:57:48 2483 1
原创 NLP--基于聚类的方法,对影评文本分类,并对几种聚类方法进行比较,以及与分类的方法的效果进行比较。
【方法原理】Sklearn的cluster提供了kmeans,Agglomerative(层级聚类中的聚合方法,另一个是分裂)和DBSCAN聚类函数(属密度聚类)。 KMeans均值算法表示以空间中k个点为中心进行聚类,对靠近的点归类。1、从数据集(或者数据空间范围内)D中随机取k(预先人为设定)个元素,作为k个类的各自的初始中心。2、分别计算剩下的元素到k个类中心的距离,依据距离大小,...
2020-01-05 18:34:49 1873 1
原创 NLP—比较各分类器在影评分类任务上的性能
题目:比较分类器在影评分类任务上的性能。训练集:1500,测试集:500。1、Naive Bayes(朴素贝叶斯)有三个常用模型:高斯、多项式、伯努利;2、KNN选择K(最好是交叉验证);3、SVM选择核函数。4、决策树分类器5、最大熵分类器要求:在原理部分,对每种模型要简述原理,调整的每个参数要说明意义。最后部分简单概括,各分类器在影评分类任务上的性能。【方法原理】1、朴素贝叶...
2020-01-05 18:27:09 883
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人