利用Python进行文本分类

最新推荐文章于 2024-05-13 08:23:36 发布

weixin_BeefpasteC

最新推荐文章于 2024-05-13 08:23:36 发布

阅读量400

点赞数

本文链接：https://blog.csdn.net/weixin_51463905/article/details/118526822

版权

本文介绍了如何使用Python进行文本分类，包括样本建模、模型评估和新文本预测等关键步骤，适用于垃圾文本过滤。

摘要由CSDN通过智能技术生成

** 利用Python进行文本分类,
可用于过滤垃圾文本

抽样
人工标注样本文本中垃圾信息
样本建模
模型评估
新文本预测
参考:
http://scikit-learn.org/stable/user_guide.html
PYTHON自然语言处理中文翻译 NLTK Natural Language Processing with Python 中文版
主要步骤:
分词
特征词提取
生成词-文档矩阵
整合分类变量
建模
评估
**

** 7. 预测新文本 **

**
**

    #示例
    #!/usr/bin/env python
    # -*- coding:utf-8 -*-
    import MySQLdb
    import pandas as pd
    import numpy as np
    import jieba
    import nltk
    import jieba.posseg as pseg
    from sklearn import cross_validation
    
    #1. 读取数据,type为文本分类,0/1变量
    df = pd.read_csv('F:\csv_test.csv',names=['id','cont','type'])
    
    #2. 关键抽取
    cont = df['cont']
    tagall=[]
    for t in cont:
            tags = jieba.analyse.extract_tags(t,kn)
            tagall.append(tag

最低0.47元/天解锁文章

weixin_BeefpasteC

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
利用Python进行文本分类

** 利用Python进行文本分类,可用于过滤垃圾文本抽样人工标注样本文本中垃圾信息样本建模模型评估新文本预测参考:http://scikit-learn.org/stable/user_guide.htmlPYTHON自然语言处理中文翻译 NLTK Natural Language Processing with Python 中文版主要步骤:分词特征词提取生成词-文档矩阵整合分类变量建模评估**** 7. 预测新文本 ****** #示例
复制链接

扫一扫