主题建模
文章平均质量分 63
高考坐后排的边牧
主要利用这个平台学习、记录成长,评论、点赞很少关注,如确需交流还请私信
展开
-
python报错decoding to str: need a bytes-like object, float found
我这里是因为.csv数据表中有空值,所以可以选择丢弃空值数据。原创 2022-10-08 11:48:43 · 976 阅读 · 1 评论 -
中餐馆过程vs中餐馆特许经营
中餐馆过程写在前面:关于中餐馆过程到底是什么,网上说法太多了,搞不清楚(我是入门级),在此仅记录我所搜集各种论文和资料中觉得比较靠谱的说法。中餐馆过程简单来说是对狄利克雷过程Dirichlet Processs(DP)的一种比较形象化的表示,除此以外,常见方法还有 Pólya urn和Stick-Breaking Construction等。中餐馆过程可以较好地表明,从DP中提取的数据都是离散的,并表现出聚类特性。中餐馆特许经营中餐馆特许经营简单来说是对层次狄利克雷过程(Hierarchical原创 2022-05-07 18:54:39 · 902 阅读 · 0 评论 -
贝叶斯定理
一、简介贝叶斯定理由英国数学家贝叶斯 ( Thomas Bayes 1702-1761 ) 发展,用来描述两个条件概率之间的关系。(百度百科)二、引入事例隔壁老王要去10公里外的一个地方办事,他可以选择走路,骑自行车或者开车,并花费了一定时间到达目的地。在这个事件中,可以把交通方式(走路、骑车或开车)认为是原因,花费的时间认为是结果。若老王花了一个小时的时间完成了10公里的距离,那么很大可能是骑车过去的,当然也有较小可能老王是个健身达人跑步过去的,或者开车过去但是堵车很严重。若老王一共用了两个小时原创 2022-04-16 15:27:42 · 735 阅读 · 0 评论 -
LDA主题建模过程及参数详解
平台及工具语言:python平台:anaconda+jupyter notebook语料库:近三百篇英文文献的摘要主要代码首先,# pandas处理csv数据import pandas as pddf = pd.read_csv("abs_all.csv",error_bad_lines=False,encoding='gb18030')df.head()输出:文本预处理def lemmatize_stemming (text): # 词形归并 wordnet_le原创 2022-03-27 11:26:02 · 8841 阅读 · 4 评论 -
常用主题建模方法简单对比LSA&PLSA&LDA&HDP
几种常用的主题建模方法潜在语义分析(LSA/I)概率潜在语义分析(PLSA)潜在狄利克雷分布(LDA)层次狄利克雷过程(HDP)LSA/I存在的主要问题SVD计算非常耗时,尤其文本处理,词和文本数都是非常大的,对于这样的高维度矩阵做奇异值分解是非常难的;主题个数值的选取对结果的影响非常大,很难选择合适的k值;LSI是基于矩阵分解的,得到的不是一个概率模型,缺乏统计基础,结果难以直观的解释。几种方法间的关系最近也是刚接触主题建模,根据在网上以及书籍和文献搜集资料,我个人作如原创 2022-03-26 21:29:26 · 2526 阅读 · 0 评论 -
读取csv文件时报错‘xxx‘ codec can‘t decode byte 0xd3 in position xx ...
问题简介语言:python平台:jupyter notebook在使用pandas读取csv文件时报'gb18030' codec can't decode byte 0xd3 in position xx ...报错语句:df = pd.read_csv("datascience.csv", encoding='gb18030')问题分析根据报错内容可知大致就是文件编码问题,所采用的编码没办法解码目标文件。解决方法网上大致有以下几种方法:法一:修改编码方式为更广范围编码,如‘gb18原创 2022-03-17 20:14:33 · 1539 阅读 · 1 评论 -
LSI(潜在语义索引)主题建模简介
一、潜在语义索引(Latent Semantic Indexing,以下简称LSI)(一)简介有的文章也叫Latent Semantic Analysis(LSA)。在这里我称做LSI,它是一种简单实用的主题模型,也是最早出现的主题模型了,它的算法原理很简单,是基于奇异值分解(SVD)的方法来得到文本的主题的。一次奇异值分解就可以得到主题模型,同时解决词义的问题,非常漂亮。但是LSI有很多不足,导致它在当前实际的主题模型中已基本不再使用。(二)应用得出文本的主题模型;通过LSI得到的文本主题矩阵原创 2022-02-22 17:03:55 · 1549 阅读 · 0 评论