利用python,基于SVM实现文本分类

最新推荐文章于 2024-01-10 15:26:57 发布

指尖舞语千秋

最新推荐文章于 2024-01-10 15:26:57 发布

阅读量1.4w

点赞数 4

分类专栏：机器学习文章标签： python svm 机器学习文本分类

本文链接：https://blog.csdn.net/yangysc/article/details/51246622

版权

项目代码见Github：

算法介绍
具体内容详见本人文档，下载链接
代码所用数据
原网站

文件结构

├─doc_classification.py
├─stopwords.txt
├─vocabulary.txt
├─train.data
├─train.label
├─train.map
├─test.data
├─test.label
└─test.map
python代码
需要安装的库:
pandas, liblinearutil
注：Windows平台下 liblinearutil 安装包（32/64）

# doc_classification.py
import pandas as pd
import math
from liblinearutil import *
import time

# 读取数据
def loadOriginData(src='train'):
    # train.data
    dataSrc = r'%s.data' % src
    # train.label
    labelSrc = r'%s.label' % src
    label = pd.read_table(labelSrc, sep=' ', names=['label'])
    # train.map
    mapSrc = r'%s.map' % src

    # 每个文档拥有的terms
    doc2term = {}
    # 每个term出现在哪些文档
    term2doc = {}
    # 每个类别下有哪些docs
    cate2docs = {}
    # TF值
    TF = {}
    with open(dataSrc, 'r') as f:
        for line in f:
            str_docIdx, str_wordIdx, str_cnt = line.split()
            docIdx = int(str_docIdx)
            wordIdx = int(str_wordIdx)
            cnt = int(str_cnt)
            # update 数据结构
            doc2term.setdefault(docIdx, []).append(wordIdx)

最低0.47元/天解锁文章

指尖舞语千秋

关注

4
点赞
踩
65

收藏

觉得还不错? 一键收藏
13
评论
利用python,基于SVM实现文本分类

项目代码见Github：算法介绍具体内容详见本人文档，下载链接代码所用数据原网站文件结构├─doc_classification.py ├─stopwords.txt ├─vocabulary.txt ├─train.data ├─train.label ├─train.map ├─test.data ├─test.label └─test.mappython代码需
复制链接

扫一扫