Cachel wood
这个作者很懒,什么都没留下…
展开
-
调用阿里云API接口实现电商领域命名实体识别NER
阿里云是全球领先的云计算及人工智能科技公司,成立于2009年,为200多个国家和地区的企业、开发者和政府机构提供服务。阿里云提供了一系列的云计算服务,包括服务器租赁、云数据库、云存储、人工智能等,帮助企业和个人更高效地管理和运行他们的在线业务。阿里云是一个PaaS平台,提供IaaS和SaaS服务。原创 2024-04-06 16:26:48 · 566 阅读 · 0 评论 -
科大讯飞开放平台-python语音转文字教程
科大讯飞的语音转写()——基于深度全序列卷积神经网络,将长段音频(5小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础。转写的是已录制音频(非实时),音频文件上传成功后进入等待队列,待转写成功后用户即可获取结果,返回结果时间受音频时长以及排队任务量的影响。如遇转写耗时比平时延长,大概率表示当前时间段出现转写高峰,请耐心等待即可,我们承诺有效任务耗时最大不超过5小时,详情请参考SLA协议。原创 2024-03-21 23:22:51 · 838 阅读 · 0 评论 -
Python实现视频转音频、音频转文本加文本实体识别
直接提取视频帧,之后实现逐帧的字幕识别,最后合并为视频文案。优点:准确性高;缺点:首先不是所有视频都有字幕,另外对计算资源要求很高,逐帧识别非常耗时。tips:有的视频会对重点字幕使用另外的颜色,或者放大字体等方式。视频先转为音频文件,音频文件使用接口再转为中文文本。优点:速度快,成本低。缺点:准确性较差,首先依赖于语音转文字的准确率,对于特有名词等,以及方言口音的识别较差,很难完全准确识别。可以在理论上考虑两者方法的合并。原创 2024-03-15 23:48:44 · 226 阅读 · 0 评论 -
基于BERTopic模型的英文20新闻数据集主题聚类及可视化
BERTopic是基于深度学习的一种主题建模方法。BERT是一种用于NLP的预训练策略,它成功地利用了句子的深层语义信息。原创 2024-03-10 17:39:29 · 355 阅读 · 0 评论 -
基于BERTopic模型的中文文本主题聚类及可视化
BERTopic是一种结合了预训练模型BERT和主题建模的强大工具。它允许我们将大规模文本数据集中的文档映射到主题空间,并自动识别潜在的主题。它背后的核心思想是通过BERT模型来捕获文档的语义信息,并然后使用主题建模技术来对这些语义信息进行聚类,从而得出主题。BERTopic是一种强大的主题分析工具,它能够自动识别文本数据中的主题,而无需预先定义主题数。通过结合BERT的语义表示和传统主题建模技术,BERTopic为主题分析任务提供了一个高效而精确的解决方案。原创 2024-03-02 23:00:19 · 1609 阅读 · 1 评论 -
BERTopic安装最全教程及报错处理
等第三方库的版本冲突问题导致安装失败,建议创建虚拟环境之后安装。BERTopic的安装比较复杂,直接安装会报错。4. 正式开始下载BERTopic。下载对应版本的BERTopic。文件到本地,之后再进行安装。的问题,可以使用更高版本的。包的版本问题,降低版本至。原生环境中安装可能因为。原创 2024-03-02 20:37:01 · 557 阅读 · 0 评论 -
Python模糊匹配搜索fuzzywuzzy和difflib
利用pythonfuzzywuzzy及difflib,两个库均可实现词粒度的模糊匹配,同时可设定模糊阈值,实现关键词的提取、地址匹配、语法检查等。原创 2024-02-29 16:45:32 · 307 阅读 · 0 评论 -
jieba安装和使用教程
add_word方法加载:向自定义字典中添加词语# 添加自定义词典text = "我喜欢C++语言编程很有趣"jieba.add_word("C++语言")# 打印分词结果方法加载sent = "你认为人工智能、机器学习和深度学习的关系是什么?print("添加前:",jieba.lcut(sent))print("添加后:",jieba.lcut(sent))原创 2024-02-19 15:29:31 · 467 阅读 · 0 评论 -
pyhanlp最全安装和使用教程
HanLP是一个由中国开发者何晗(hankcs)于 2014 年开发的自然语言处理库,自发布之后,HanLP不断更新迭代,进行了许多新功能和性能的优化,Github上Star数量已超过 3w,其在主流自然语言工具包中非常受欢迎。HanLP具有丰富的功能,可以进行一系列文本分析任务,比如词法分析(分词、词性标注、命名实体识别)、句法分析、文本分类/聚类、信息抽取、语义分析等等。发展至今,HanLP已经衍生出了1.x和2.x两大版本。本文pyhanlp0.1.84。原创 2024-02-18 00:09:50 · 679 阅读 · 0 评论 -
LTP/pyltp安装和使用教程
语言技术平台():是哈工大社会计算与信息检索研究中心历时十年研制的一整套开放中文自然语言处理系统。提供了一整套自底向上的丰富、高效、高精度的中文自然语言处理模块 (包括词法、句法、语义等5项中文处理核心技术)。本文使用的LTP版本是pyltp版本是0.4.0。原创 2024-02-17 20:20:40 · 1353 阅读 · 0 评论 -
主题模型LDA教程:主题数选取 困惑度perplexing
比如,i这个句子位置上的概率分布的信息熵可能是190,或者说,i这个句子位置上出现的句子平均要用190 bits去编码,那么这个位置上的概率分布的困惑度就是2(190)。(译者:不是说算出来就一定是0.4%,而是说这样算本身是错的)因为直接预测下一个词是”the“的话,我们是在使用一元语法,而247是来源于三元语法的。(但当我们考虑k面骰子上的均匀分布时,困惑度是k,困惑度的倒数是1/k,正好是预测正确的概率)因此一个随机变量X的困惑度是定义在X的概率分布上的(X所有"可能"取值为x的部分)。原创 2023-11-11 18:07:55 · 3069 阅读 · 0 评论 -
主题模型LDA教程:一致性得分coherence score方法对比(umass、c_v、uci)
基本上,这意味着我们希望每篇文档的文章数越少越好,每个词属于的主题数越少越好。它是一种主题建模,其中单词被表示为主题,而文档则被表示为这些单词主题的集合。这将在我们的得分中引入单词的语义。这种方法背后的理念是,我们要选择一个点,在这个点之后,一致性得分的递减增长不再值得额外增加主题数。毕竟,手动验证结果是很重要的,因为一般来说,无监督机器学习系统的验证工作都是由人工完成的。我们用描述主题的前 N 个词的平均成对一致性得分来计算主题的全局一致性。然后,我们计算每个主题的主题内相似度,即该主题中每对可能的前。原创 2023-11-11 13:25:13 · 5250 阅读 · 1 评论 -
主题模型LDA教程:n-gram N元模型和nltk应用
对于n元语法模型,使用的训练语料的规模一般要有几百万个词。语料库的选取也十分重要,如果训练语料和模型应用的领域相脱节,那么模型的效果通常要大打折扣。的第一个特点是某个词的出现依赖于其他若干个词,第二个特点是我们获得的信息越多,预测越准确。nltk还提供了bigrams和trigrams等常见的n-gram模型的实现方式。内部是通过迭代器的方式实现的,防止整个词汇字典过大时内存不足。):一个词的出现仅与它之前的若干个词有关。模型也是一种语言模型,是一种生成式模型。,对应的语言模型称为N元模型。原创 2023-11-11 11:55:23 · 220 阅读 · 0 评论 -
自然语言处理NLP:LTP、SnowNLP、HanLP 常用NLP工具和库对比
语音识别的挑战性在于人们的说话方式 — 语速快,含糊不清,各种重音、语调和口音,以及语法常常不正确。最常见的例子是确定某个代词所指的人或物体(例如,"她"指玛丽),但也可能涉及识别文本中的隐喻或习语(例如,"熊"有时并不表示动物,而是指体型魁梧、体毛较多的人)。的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和。的许多功能,它为任务提供了一个易于理解的界面,包括情感分析、词性标注和名词短语提取等。,所有的算法都是自己实现的,并且自带了一些训练好的字典。原创 2023-09-30 13:33:52 · 1023 阅读 · 0 评论 -
自然语言处理nlp:SnowNLP自主训练情感分析模型
分别提取100条正负样本用于验证,首先用初始的SnowNLP进行情感分析。,该数据集已标注好每条评论的正负情感属性值,共119989条评论。可以看到有些评论出现分类错误的情况,e.g.,将sentiment情感分析的路径作为更改。初始分类结果图,对正面评论的分类效果较差。snownlp中支持情感分析的模块在。训练耗时19min,比较耗时。下面使用新文本进行训练。文件夹中,其核心代码为。下载weibo数据集。原创 2023-02-07 17:01:19 · 3715 阅读 · 2 评论 -
文本建模:主题模型和LDA(Latent Dirichlet Allocation)
文章目录LDA概念原理The ProblemLDA原理评估与解释LDA概念原理The Problem有许多事先未知主题的文本,我们想要根据主题对文本进行筛选,使用LDA.两个基本假设:Each topic is a mixture of an underlying set of words. 每个主题都由一组词构成Each document is a mixture of a set of topics. 每个文本含有几个主题(但不会特别多)狄利克雷分布Dirichlet Distribu原创 2022-03-03 23:19:43 · 1095 阅读 · 0 评论 -
词袋模型(Bag-of-words) 和TF-IDF
文章目录TF-IDF(Term Frequency-Inverse Document Frequency),词频-逆文件概率,一种用于资讯检索与资讯探寻的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个文件语料库中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就是, **一个词语在一篇文章中出现次数越多, 同时在所有文档中出现次数越少, 越能够代表该文章。**这也就是TF-IDF的含义。**T原创 2022-03-05 20:29:02 · 804 阅读 · 0 评论 -
自然语言处理nlp:文本处理库SnowNLP介绍及应用
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。简而言之就是:SnowNLP是一个Python写的类库,而且是针对中文的自然语言处理库。原创 2023-02-06 22:06:38 · 2047 阅读 · 0 评论