![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 73
@@@龙猫
君子可内敛不可懦弱,面不公可起而论之
展开
-
RNN模型与NLP应用(4)LSTM模型
这篇主要讲述LSTM的基本过程以及实现代码,LSTM是一种RNN模型,是对Simple RNN的改进如下图,LSTM有四个参数矩阵LSTM避免梯度消失问题,可以有更长的记忆。原创 2022-10-27 20:06:35 · 689 阅读 · 0 评论 -
RNN模型与NLP应用(3):Simple RNN
代码实现'数据集读取与预处理' # 此处使用Keras库自带函数进行简洁实现(从零开始实现请看上一节) # 使用keras的embedding层处理文字数据(同样使用imdb数据集) from keras . datasets import imdb from keras import preprocessing。原创 2022-10-26 13:56:00 · 736 阅读 · 0 评论 -
RNN模型与NLP应用(2):文本处理与词嵌入
假定w=7,一个句子如果超过了7,将前面的截断,保留后面w个词,同时也可以保留前面词,截断后面的词,如果这个句子比w还短,则在前面pad it with zeros,这样都可以存储在一个矩阵里面。利用word Embedding层将每个单词映射到低维向量,所以每个长度为20的电影评论都可以被Flatten成160维向量,最后用线形分类回归器分成0和1的数,0代表负类评论,1代表正类评论。我们的任务是学习训练出来的词向量会带有感情色彩,就比如好的感情色彩的词应该在一块,则它们的词向量应该相似。原创 2022-10-22 19:05:27 · 656 阅读 · 0 评论 -
RNN模型与NLP应用(1):数据处理基础
这章主要介绍RNN原理以及在NLP的应用,在看了几个RNN的视频之后,对RNN基础知识有了了解,作为深度学习的小白来说,还是从基础到应用来做一个记录,,可以用哈希表,如果在哈希表出现过,将表里的该词频数加1,如果没有在哈希表出现过,将该词加入哈希表,并将词频置为1,再排序从大到小,,在字典找不到的词,有可能是新词,也可能是拼写错误的词,在做one-hot Enconding 编码是可以忽略,也可以编码为0。如下图所示,假设用索引编号,美国加中国等于印度,这是不可能的。把文本变成单词的列表,原创 2022-10-22 15:07:59 · 350 阅读 · 0 评论 -
经典论文《Efficient Estimation of Word Representations in Vector Space》学习笔记
下一个词的出现仅依赖于前面的一个词或几个词语言模型评价指标:困惑度语言模型是无监督的任务。和上面过程类似,得到v个概率,再通过反向传播,进行梯度下降,得到词向量矩阵,有一些词或词组在语料中没有出现过,但是这不能代表它不可能存在。平滑操作就是给那些没有出现过的词或者词组也给一个比较小的概率。● batch问题,批次,补pad位,rnn可变长输入。,指数操作,让数为正数,使它成为0到1之间。,通过索引知该词的概率,目标是要。,再与周围词向量矩阵相乘,得到。,与词向量矩阵相乘,得到。● 统计语言模型中的。原创 2022-10-21 21:22:33 · 488 阅读 · 0 评论 -
【吴恩达深度学习】——NLP和Word Embedding
这种表征方式使得词与词之间的相似性很容易表征出来,这样对于不同的单词,模型的泛化性能会好很多,下面使用t-SNE算法将高维的词向量映射到2维空间,进而对词向量进行可视化,很明显可以看出对于相似的词总是聚集在一块。原创 2022-10-02 18:39:36 · 1195 阅读 · 0 评论 -
ML学习笔记--Word Embedding
机器通过阅读大量的文章来学习单词的意思,通过上下文来理解一个单词原创 2022-10-01 20:46:28 · 548 阅读 · 0 评论 -
文本相似度之编辑距离算法
编辑距离1.基本思想:将一个字符转化为另外一个字符所需的最少操作次数,可以是替换字符,插入字符,删除字符,可用与计算两个文本的相似度2.算法的基本原理:对于字符串a[1:i]和字符串b[1:j]来说,用edit[i][j]表示它们间的编辑距离。如果a[i]和b[j]相同,则edit[i][j]=edit[i-1][j-1]。如果a[i]和b[j]不相同,则有如下情况:1)a[1:i]经过多次操作转化为b[1:j-1],然后再在结尾插入字符b[j]即可,edit[i][j]=edit[i][j-1]原创 2022-03-30 17:48:35 · 1100 阅读 · 7 评论 -
初识simrank
simrank1. simrank的基本思想基于图结构的相似度计算方法,如果两个实体相似,那么跟它们相关的实体应该也相似。就如下图,如果a和c相似,那么A和B应该也相似,因为A和a相关,而B和c相关。基本公式:直接使用上面的迭代公式很难展开并行计算,数量稍微大一些(比如上十万)时在单机上跑时间和空间开销非常大。所以给出矩阵形式例1.计算图1中节点SimRank相似度,其中c=0.6根据定义,每个节点跟自己相似度为1,由于节点1没有入边,因此节点1与任何节点相似度为0s(2,3)=c1∗原创 2022-03-21 18:39:28 · 3069 阅读 · 3 评论 -
NLP学习笔记----正则表达式与Numpy的应用
1.匹配字符串1.1获取包含关键字的句子查找哪些句子包含"爬虫"这个关键字import retext_string='文本最重要的来源无疑是网络,我们要把网络中的文本获取形成一个文本数据库。利用一个爬虫抓取到网络中的信息。爬取的策略有广度爬取和深度爬取。根据用户的需求,爬虫可以有主题爬虫和通用爬虫之分。'regex='爬虫'p_string=text_string.split('。')for line in p_string: if re.search(regex,line) is n原创 2021-11-07 14:40:42 · 419 阅读 · 0 评论