主题内容挖掘（潜在狄利克雷分配）

最新推荐文章于 2024-03-27 12:14:36 发布

Hi~ unclexia

最新推荐文章于 2024-03-27 12:14:36 发布

阅读量456

点赞数

文章标签： python 数据挖掘机器学习

本文链接：https://blog.csdn.net/weixin_51701683/article/details/118002915

版权

说明：文章主要对主题内容挖掘的部分问题的提出，并提供自己的意见，仅供参考

案例来源：宋天龙 - 《python数据分析与数据化运营》
案例背景：从一堆文件中建立相应主题模型，然后得到不同模型的主题特点，通过对新文本数据集的预测得到其可能的主题分类。

主要应用技术：中文分词，TF-IDF向量空间模型转换，字符串全角转半角，XML文件内容解析，潜在狄利克雷分配模型。
主要库：tarfile，os，jieba，gensim，bs4

文件内容格式：

<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>

附上分析代码

import os
import tarfile
import jieba.posseg as pseg
import joblib
from bs4 import BeautifulSoup
from gensim import corpora, models


# 中文分词
def jieba_cut(text):
    '''
    词性标注分词
    :param text:文本
    :return: 分词结果
    '''
    # print('{:*^60}'.format('正在分词'))
    rule_words = ['z', 'vn', 't', 'v', 'nz', 'nr', 'ns', 'n', 'l', 'i'

最低0.47元/天解锁文章

Hi~ unclexia

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
主题内容挖掘（潜在狄利克雷分配）

说明：文章主要对主题内容挖掘的部分问题的提出，并提供自己的意见，仅供参考案例来源：宋天龙 - 《python数据分析与数据化运营》案例背景：从一堆文件中建立相应主题模型，然后得到不同模型的主题特点，通过对新文本数据集的预测得到其可能的主题分类。主要应用技术：中文分词，TF-IDF向量空间模型转换，字符串全角转半角，XML文件内容解析，潜在狄利克雷分配模型。主要库：tarfile，os，jieba，gensim，bs4文件内容格式：<doc><url>页面URL&lt
复制链接

扫一扫