文本分类，垃圾邮件分类数据处理

最新推荐文章于 2024-01-24 10:00:00 发布

析杴

最新推荐文章于 2024-01-24 10:00:00 发布

阅读量556

点赞数 9

文章标签：分类数据挖掘人工智能

本文链接：https://blog.csdn.net/weixin_67485772/article/details/135258012

版权

文本分类，垃圾邮件分类数据处理

文章目录

文本分类，垃圾邮件分类数据处理

import pandas as pd
df = pd.read_csv("spam.csv",encoding="ISO-8859-1")
df.head()

在这里插入图片描述

df.drop(["Unnamed: 2","Unnamed: 3","Unnamed: 4"],axis=1,inplace=True)  #删除无用的三列

在这里插入图片描述

df.isna().sum() #查看每一列各有多少空值
df.duplicated().sum()  #有多少重复列
df.drop_duplicates(keep="first",inplace=True) #删除重复值，只保留第一个
df.duplicated().sum()  #有多少重复列

在这里插入图片描述

df.rename(columns={'v1':'label','v2':'text'},inplace=True) #修改列名

在这里插入图片描述

from sklearn.preprocessing import LabelEncoder    #导入标签编码化
Encoder = LabelEncoder()
df["label"] = Encoder.fit_transform(df["label"])  
df.head()

在这里插入图片描述

from sklearn.feature_extraction.text import TfidfVectorizer  #导入文本向量化
tfidf_vectorizer = TfidfVectorizer(stop_words='english')
X_tfidf = tfidf_vectorizer.fit_transform(df["text"])
print(X_tfidf)

这段代码是使用Python的scikit-learn库中的TfidfVectorizer来对文本数据进行处理。具体地，它将文本数据转换为TF-IDF特征向量。下面是代码的逐行解释：

tfidf_vectorizer = TfidfVectorizer(stop_words=‘english’)
这行代码创建了一个TfidfVectorizer对象，并设置了其参数stop_words为’english’。这意味着在文本处理过程中，英语中的常用停用词（如"the", “and”, "is"等）会被自动忽略。

X_tfidf = tfidf_vectorizer.fit_transform(df[“text”])

fit: 它学习文本数据中的词汇。具体地说，它会查看df["text"]中的所有文本，并构建一个词汇表，其中的每个单词都会被分配一个独特的整数ID。停用词（在此为英语停用词）会被忽略。
transform: 它将文本数据转换为TF-IDF特征向量。TF-IDF是Term Frequency-Inverse Document Frequency的缩写，它是一种用于信息检索和文本挖掘的常用加权技术。TF-IDF值旨在反映一个词在特定文档中的重要性。结果X_tfidf是一个稀疏矩阵，其中每一行代表df["text"]中的一个文本，每一列代表词汇表中的一个单词。矩阵中的每个值都是对应单词在对应文本中的TF-IDF值。

X,y = X_tfidf,df['label']
from sklearn.model_selection import train_test_split                 #数据分割
X = X_tfidf
y = df["label"]
# 将数据集分割为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("训练集特征形状:", X_train.shape)
print("测试集特征形状:", X_test.shape)
print("训练集标签形状:", y_train.shape)
print("测试集标签形状:", y_test.shape)