![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
狗庄欺人太甚
目前方向为文本处理,之前有过两年的目标检测实习经历
展开
-
python识别图像中的文字
python识别图像中的文字原创 2022-09-20 18:13:35 · 955 阅读 · 0 评论 -
提取文章中关键词综述
提取文章中关键词综述原创 2022-08-19 18:16:48 · 696 阅读 · 0 评论 -
TextRank提取句子的关键词
TextRank提取句子的关键词原创 2022-08-18 16:43:52 · 426 阅读 · 0 评论 -
zero shot classification提取主题词
基于 NLI 的零镜头文本分类。zero shot classification提出了一种使用预训练的 NLI 模型作为现成的零样本序列分类器的方法。该方法的工作原理是将要分类的序列设置为 NLI 前提,并从每个候选标签构建一个假设。例如,如果我们想评估一个序列是否属于“政治”类,我们可以构建一个“本文是关于政治”的假设。然后将蕴涵和矛盾的概率转换为标签概率。...原创 2022-08-17 12:09:58 · 1064 阅读 · 0 评论 -
如何让huggingface模型运行速度起飞
首先调用接口的时候不要调用一次就加载一下模型,直接一开始就加载好。大家需要把pytorch换成GPU版本。其次能用GPU就不要cpu。原创 2022-08-10 18:29:43 · 2026 阅读 · 2 评论 -
textrank算法提取文本摘要
TextRank算法的基本思想是将文档看作一个词的网络(一种基于图的排序方法,用于提取相关句子或查找关键字),该网络中的链接表示词与词之间的语义关系。TextRank算法主要包括:关键词抽取、关键短语抽取、关键句抽取。...原创 2022-08-10 11:53:43 · 1275 阅读 · 0 评论 -
利用huggingface模型翻译英文
利用huggingface模型翻译英文原创 2022-07-22 14:17:15 · 1163 阅读 · 1 评论 -
深度聚类:将深度表示学习和聚类联合优化
经典聚类即数据通过各种表示学习技术以矢量化形式表示为特征。随着数据变得越来越复杂和复杂,浅层(传统)聚类方法已经无法处理高维数据类型。结合深度学习优势的一种直接方法是首先学习深度表示,然后再将其输入浅层聚类方法。但是这有两个缺点:i)表示不是直接学习聚类,这限制了聚类性能; ii) 聚类依赖于复杂而不是线性的实例之间的关系; iii)聚类和表示学习相互依赖,应该相互增强。...原创 2022-07-06 16:26:34 · 4128 阅读 · 0 评论 -
利用tsne可视化结果,点击出现对应的句子
利用tsne可视化结果,点击出现对应的句子原创 2022-06-30 23:02:52 · 256 阅读 · 0 评论 -
利用tsne将不同句子关于相似度可视化出来
TSNE目的:将高维数据降维并进行可视化原创 2022-06-27 12:10:21 · 765 阅读 · 0 评论 -
利用huggingface进行文本分类
在 Hub 中,您可以找到 AI 社区共享的 27,000 多个模型,这些模型在情感分析、对象检测、文本生成、语音识别等任务上具有最先进的性能。from transformers import pipeline#sentiment_pipeline = pipeline("sentiment-analysis")data = [ "This is wonderful and easy to put together. My cats love it.","This cat tree i原创 2022-06-25 21:42:04 · 1666 阅读 · 0 评论 -
spacy.load(“en_core_web_sm“)###OSError: [E050] Can‘t find model ‘en_core_web_sm‘.
spacy.load("en_core_web_sm")###OSError: [E050] Can't find model 'en_core_web_sm'.原创 2022-06-19 09:53:19 · 307 阅读 · 0 评论 -
过滤敏感词
from collections import defaultdictimport reunicode = strclass DFAFilter(): '''Filter Messages from keywords Use DFA to keep algorithm perform constantly ''' def __init__(self): self.keyword_chains = {} self.delimit = '.原创 2022-05-17 09:06:02 · 175 阅读 · 0 评论 -
LDA 用于将文档中的文本分类为特定主题
数据集:LDA 用于将文档中的文本分类为特定主题。 它构建每个文档模型的主题和每个主题模型的单词,建模为 Dirichlet 分布。每个文档被建模为主题的多项分布,每个主题被建模为单词的多项分布。LDA 假设我们输入的每一块文本都将包含某种相关的单词。 因此,选择正确的数据语料库至关重要。它还假设文档是从混合主题中产生的。 然后这些主题根据它们的概率分布生成单词。code:from sklearn.datasets import fetch_20newsgroupsnews.原创 2022-05-15 17:51:35 · 1343 阅读 · 0 评论 -
NLTK 入门
NLTK 模块是一个巨大的工具包,目的是在整个自然语言处理(NLP)方法上帮助你。 NLTK 将为你提供一切,从将段落拆分为句子,拆分词语,识别这些词语的词性,高亮主题,甚至帮助你的机器了解文本关于什么。分词 - 将文本正文分割为句子和单词。 词性标注 机器学习与朴素贝叶斯分类器 如何一起使用 Scikit Learn(sklearn)与 NLTK 用数据集训练分类器 用 Twitter 进行实时的流式情感分析。 #Loading the data set - training dat原创 2022-05-15 11:38:35 · 317 阅读 · 0 评论 -
doccano(NLP标签)使用
doccano 是面向机器学习从业者的开源数据标记工具。可以使用多种数据格式执行不同类型的标记任务。原创 2022-04-26 18:51:27 · 4011 阅读 · 0 评论