自然语言处理+文本分类

最新推荐文章于 2024-09-10 06:58:53 发布

zczczcc

最新推荐文章于 2024-09-10 06:58:53 发布

阅读量1.2k

点赞数

分类专栏：自然语言处理文章标签： python 自然语言处理

本文链接：https://blog.csdn.net/zczczcc/article/details/109693796

版权

自然语言处理专栏收录该内容

4 篇文章 3 订阅

订阅专栏

自然语言处理结巴分词+文本分类TF-IDF表达

1.自然语言处理简介
2.自然语言处理-结巴分词
3.文本分类TF-IDF表示
- 基本介绍
- 文本分类实例

1.自然语言处理简介

基本概念

自然语言(Natural language)通常是指一种自然地随文化演化的语言：汉语、英语等。
人造语言是一种为某些特定目的而创造的语言：Python、C、R等。

研究内容

自然语言理解：让电脑懂人类语言
自然语言生成：把计算机数据转化为自然语言

应用领域

1.文本方面
搜索引擎与智能检索、智能机器翻译、自动摘要与文本综合、信息过滤与垃圾邮件处理、语法校对、自动阅卷、文本挖掘与智能决策
2.语音方面
机器同声传译、智能客户服务、聊天机器人、多媒体信息提取与文本转化、残疾人智能帮助系统

2.自然语言处理-结巴分词

安装jieba库

在这里插入图片描述

常用方法介绍

jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型

jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能无法预料地错误解码成 UTF-8

jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不同词典。jieba.dt 为默认分词器，所有全局分词相关函数都是该分词器的映射。

jieba.load_userdict(path)：添加用户字典

小示例

import jieba
string = '大家好，我是ZC，我正在学习NLP课程。'
res = jieba.lcut(string)
print(list(res))

jieba.add_word('大家好')   # 添加一个词语进入词典
jieba.load_userdict('def_word.txt')  # 批量添加词语进词典

res = jieba.lcut(string)
print(list(res))

结果：
在这里插入图片描述

import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

seg_list = jieba.cut("李小福是创新办主任也是云计算方面的专家。")
print("Origin: " + "/".join(seg_list))

在这里插入图片描述

3.文本分类TF-IDF表示

基本介绍

在这里插入图片描述

文本1：My dog ate my homework.
文本2：My cat ate my sandwich.
文本3：A dolphin ate the homework.
如何体现生成词袋中的词频信息？
a(1), ate(3), cat(1), dolphin(1), dog(1), homework(2), my(3), sandwich(1), the(2)
词袋收集了所有文档当中的词，所以词袋的统计基数是文档数。
词条的文档频率：
a(1/3), ate(3/3), cat(1/3), dolphin(1/3), dog(1/3), homework(2/3), my(3/3), sandwich(1/3), the(2/3)
词袋的IDF权重如下：
a log(3/1), ate log(3/3), cat log(3/1), dolphin log(3/1), dog log(3/1), homework log(3/2), my log(3/2), sandwich log(3/1), the log(3/1)

文本分类实例

步骤：

分词；去除停用词；
转换成词频向量
转换成TF-IDF权重矩阵
模型训练与测试

sklearn.feature_extraction.text #文本特征提取模块
CountVectorizer #转化词频向量类
TfidfTransformer #转化tf-idf权重向量类
fit_transform() #转化词频向量方法

Python代码实现：

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.naive_bayes import GaussianNB
vectorizer = CountVectorizer()
transformer = TfidfTransformer()

text_tr = [
    'My dog has flea problems, help please.',
    'Maybe not take him to dog park is stupid.',
    'My dalmation is so cute. I love him my.',
    'Stop posting stupid worthless garbage.'
]#训练集
text_te = [
    'Mr licks ate mu steak, what can I do?.',
    'Quit buying worthless dog food stupid'
]#测试集
y_tr = [0, 1, 0, 1]#文档标签 ，积极消极情感
y_te = [0, 1]

count_tr = vectorizer.fit_transform(text_tr).toarray()       # 转成词向量，即词频
tfidf_tr = transformer.fit_transform(count_tr).toarray()     # 转成tf-idf权值

count_te = CountVectorizer(vocabulary=vectorizer.vocabulary_).fit_transform(text_te).toarray()   # 转成词向量，训练集和测试集词向量长度不同
tfidf_te = transformer.fit_transform(count_te).toarray()  # 转成tf-idf权值

model = GaussianNB()
model.fit(tfidf_tr, y_tr)    # 模型训练
model.predict(tfidf_te)      # 模型预测