贝叶斯算法（3）新闻分类任务实战：jieba中文分词、tfidf特征词提取、wordcloud词云展示、LDA主题建模、朴素贝叶斯算法分析预测

本文链接：https://blog.csdn.net/weixin_43595476/article/details/106658090

该博客介绍了如何利用jieba进行中文分词，去除停用词，通过TFIDF提取关键词，并使用LDA进行主题建模。接着，使用朴素贝叶斯算法进行新闻分类任务，比较了CountVectorizer和TfidfVectorizer在构建词频矩阵的效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 加载数据

import pandas as pd
import jieba
# 数据源：http://www.sogou.com/labs/resource/ca.php

val_path = '/Users/haiwangluo/Downloads/人工智能全套/自然语言处理(Python版)/第六章：贝叶斯算法-新闻分类任务/贝叶斯Python文本分析/Python文本分析/data/val.txt'
df_news = pd.read_table(val_path,names=['category','theme','URL','content'],encoding='utf-8')
df_news = df_news.dropna()
df_news.head()

	category	theme	URL	content
0	汽车	新辉腾　４．２　Ｖ８　４座加长Ｉｎｄｉｖｉｄｕａｌ版２０１１款　最新报价	http://auto.data.people.com.cn/model_15782/	经销商　电话　试驾／订车Ｕ憬杭州滨江区江陵路１７８０号４００８－１１２２３３转５８６４＃保常...
1	汽车	９１８　Ｓｐｙｄｅｒ概念车	http://auto.data.people.com.cn/prdview_165423....	呼叫热线　４００８－１００－３００　服务邮箱　ｋｆ＠ｐｅｏｐｌｅｄａｉｌｙ．ｃｏｍ．ｃｎ
2	汽车	日内瓦亮相　ＭＩＮＩ性能版／概念车－１．６Ｔ引擎	http://auto.data.people.com.cn/news/story_5249...	ＭＩＮＩ品牌在二月曾经公布了最新的ＭＩＮＩ新概念车Ｃｌｕｂｖａｎ效果图，不过现在在日内瓦车展...
3	汽车	清仓大甩卖一汽夏利Ｎ５威志Ｖ２低至３．３９万	http://auto.data.people.com.cn/news/story_6144...	清仓大甩卖！一汽夏利Ｎ５、威志Ｖ２低至３．３９万＝日，启新中国一汽强势推出一汽夏利Ｎ５、威志...
4	汽车	大众敞篷家族新成员　高尔夫敞篷版实拍	http://auto.data.people.com.cn/news/story_5686...	在今年３月的日内瓦车展上，我们见到了高尔夫家族的新成员，高尔夫敞篷版，这款全新敞篷车受到了众...

df_news.shape

(5000, 4)

2 数据预处理

2.1 使用jieba分词器

content = df_news.content.values.tolist()  # 把dataframe 的’content‘列的内容，转成一个list格式
print(content[1000])

阿里巴巴集团昨日宣布，将在集团管理层面设立首席数据官岗位（Ｃｈｉｅｆ　Ｄａｔａ　Ｏｆｆｉｃｅｒ），阿里巴巴Ｂ２Ｂ公司ＣＥＯ陆兆禧将会出任上述职务，向集团ＣＥＯ马云直接汇报。＞菹ぃ和６月初的首席风险官职务任命相同，首席数据官亦为阿里巴巴集团在完成与雅虎股权谈判，推进“ｏｎｅ　ｃｏｍｐａｎｙ”目标后，在集团决策层面新增的管理岗位。０⒗锛团昨日表示，“变成一家真正意义上的数据公司”已是战略共识。记者刘夏

content_S = []
for line in content:
    current_segment = jieba.lcut(line)
    if len(current_segment) > 1 and current_segment != '\r\n': #换行符
        content_S.append(current_segment)
content_S[1000][:10]  # 第1000行的数据，中的分出来的前10个词

['阿里巴巴', '集团', '昨日', '宣布', '，', '将', '在', '集团', '管理', '层面']

#  把 content_S 转成一个dataframe格式
df_content=pd.DataFrame({
   'content_S':content_S})
df_content.head()

	content_S
0	[经销商, 　, 电话, 　, 试驾, ／, 订车, Ｕ, 憬, 杭州, 滨江区, 江陵, ...
1	[呼叫, 热线, 　, ４, ０, ０, ８, －, １, ０, ０, －, ３, ０, ０...
2	[Ｍ, Ｉ, Ｎ, Ｉ, 品牌, 在, 二月, 曾经, 公布, 了, 最新, 的, Ｍ, Ｉ...
3	[清仓, 大, 甩卖, ！, 一汽, 夏利, Ｎ, ５, 、, 威志, Ｖ, ２, 低至, ...
4	[在, 今年, ３, 月, 的, 日内瓦, 车展, 上, ，, 我们, 见到, 了, 高尔夫...

2.2 去掉停用词

stopwords_path = '/Users/haiwangluo/Downloads/人工智能全套/自然语言处理(Python版)/第六章：贝叶斯算法-新闻分类任务/贝叶斯Python文本分析/Python文本分析/stopwords.txt'
stopwords = pd.read_csv(stopwords_path,index_col=False,sep="\t",quoting=3,names=['stopword'], encoding='utf-8')

def drop_stopwords(