Tmsvm_基于SVM的文本挖掘系统

最新推荐文章于 2023-12-27 17:56:37 发布

zhzhl202

最新推荐文章于 2023-12-27 17:56:37 发布

阅读量9.6k

点赞数 3

分类专栏：数据挖掘文章标签： python semantic linux import 算法 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhzhl202/article/details/7068203

版权

TMSVM是一个开源文本挖掘系统，重点在于文本分类，它封装了libsvm和liblinear，支持特征选择、LSA特征抽取、模型参数选择等功能。系统提供Python和Java版本，能解决高维性、稀疏性、类别不平衡等挑战，适用于自动训练、预测、效果评估等任务。

摘要由CSDN通过智能技术生成

开源系统主页：http://code.google.com/p/tmsvm/

文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。而文本分类是文本挖掘中一个非常重要的手段与技术。现有的分类技术都已经非常成熟，SVM、KNN、Decision Tree、AN、NB在不同的应用中都展示出较好的效果，前人也在将这些分类算法应用于文本分类中做出许多出色的工作。但在实际的商业应用中，仍然有很多问题没有很好的解决，比如文本分类中的高维性和稀疏性、类别的不平衡、小样本的训练、Unlabeled样本的有效利用、如何选择最佳的训练样本等。这些问题都将导致curve of dimension、过拟合等问题。

这个开源系统的目的是集众人智慧，将文本挖掘、文本分类前沿领域效果非常好的算法实现并有效组织，形成一条完整系统将文本挖掘尤其是文本分类的过程自动化。该系统提供了Python和Java两种版本。

1.1 主要特征

该系统在封装libsvm、liblinear的基础上，增加了特征选择、LSA特征抽取、SVM模型参数选择、libsvm格式转化模块以及一些实用的工具。其主要特征如下：

1) 封装并完全兼容libsvm、liblinear。

2) 基于Chi的feature selection

3) 基于Latent Semantic Analysis 的feature extraction

4) 支持Binary,Tf,log(tf),Tf*Idf,t

最低0.47元/天解锁文章

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
8
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 8

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。