NLP学习
文章平均质量分 62
学习
不知道叫啥的喵
写的自我学习笔记东西如果有问题,欢迎大家告诉我昂~。
展开
-
【论文阅读】StereoRel Relational Triple Extraction from a Stereoscopic Perspective
原创 2022-02-28 13:14:09 · 407 阅读 · 0 评论 -
复杂NER问题
原创 2021-12-11 21:10:19 · 415 阅读 · 0 评论 -
Word2Vec 怎么将得到的词向量变成句子向量,以及怎么衡量得到词向量的好坏
1.Word2Vec 怎么将得到的词向量变成句子向量1)平均词向量:平均词向量就是将句子中所有词的word embedding相加取平均,得到的向量就当做最终的sentence embedding。这种方法的缺点是认为句子中的所有词对于表达句子含义同样重要。2)TF-IDF加权平均词向量:TFIDF加权平均词向量就是对每个词按照 TF-IDF 进行打分,然后进行加权平均,得到最终的句子表示。3)SIF加权平均词向量:在2016年的论文 A simple but tough-to-beat bas转载 2021-09-24 20:57:39 · 914 阅读 · 0 评论 -
gensim提供的word2vec主要功能
在gensim中,word2vec 相关的API都在包gensim.models.word2vec中。和算法有关的参数都在类gensim.models.word2vec.Word2Vec中。算法需要注意的参数有:sentences: 我们要分析的语料,可以是一个列表,或者从文件中遍历读出。后面我们会有从文件读出的例子。size:词向量的维度,默认值是100。这个维度的取值一般与我们的语料的大小相关,如果是不大的语料,比如小于100M的文本语料,则使用默认值一般就可以了。如果是超大的语料,建议增大维度.转载 2021-09-23 14:19:56 · 300 阅读 · 0 评论 -
ELMo学习
转载 2021-08-08 22:31:50 · 90 阅读 · 0 评论 -
中文NLP笔记
1.中文自然语言处理的一般流程图片发自简书App中文NLP一般流程1. 获取语料语料,是NLP任务所研究的内容通常用一个文本集合作为语料库(Corpus)来源:已有语料积累的文档下载语料搜狗语料、人民日报语料抓取语料2. 语料预处理1.语料清洗留下有用的,删掉噪音数据常见的数据清洗方式 :人工去重、对齐、删除和标注等,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。2.分词将文本分成词语常见的分词算法 :原创 2021-07-16 02:13:04 · 623 阅读 · 1 评论 -
文本数据如何转换成计算机能够计算的数据
文本数据如何转换成计算机能够计算的数据图片发自简书App词袋模型(Bag of Words Model)把文本(段落或者文档)看作无序的集合,忽略语法和单词的顺序,计算每个单词出现的次数实战步骤:例如有三句话语料["机器学习带动人工智能飞速的发展。", "深度学习带动人工智能飞速的发展。", "机器学习和深度学习带动人工智能飞速的发展。" ] 1.引入 jieba 分词器、语料和停用词集合2.对语料进行分词操作,用原创 2021-07-16 01:24:43 · 969 阅读 · 0 评论 -
5、注意力机制和Transformer模型
1、人类的视觉注意力从注意力模型的命名方式看,很明显其借鉴了人类的注意力机制,因此,我们首先简单介绍人类视觉的选择性注意力机制。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。简单来说,就和我在上一段官方文章中进行的加粗有着异曲同工之妙。人们会把更多的注意力放在ta认为重要需要注意的地方。这样我们更专注于更加重要的细节,减少信原创 2021-06-25 02:28:48 · 3986 阅读 · 5 评论 -
4、迁移学习和预训练模型
王五: 我很好,谢谢!Note right of 王五: 李四想了很长时间, 文字太长了不适合放在一行.李四–>>张三: 打量着王五…张三->>王五: 很好… 王五, 你怎么样?这将产生一个流程图。:```mermaidgraph LRA[长方形] -- 链接 --> B((圆))A --> C(圆角长方形)导出与导入### 导出如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 **文章导出*转载 2021-06-25 00:27:23 · 4404 阅读 · 0 评论 -
3、Seq2Seq语言生成模型
1.前言:机器怎么理解句子一直是一个难题,以前有人尝试将用句子中出现的词语频率来表达这个句子的含义(TF-IDF)。 也有人想把句子中的词语先向量化,然后再叠加句子中所有向量化的词语来表达一句话。 这些在的确都是一种计算机表达句子含义的方式,但是不一定会非常准确。因为他们都只是一种对词语理解的简单加工方式,有的忽略了词语的表达顺序, 有的忽略了词语的组合模式。这往往导致计算机不能非常准确的理解句子。2.什么是Encoder和Decoder在深度学习中,万物都可向量化,其中有两个问题:1、怎么样从原原创 2021-06-05 18:47:06 · 438 阅读 · 0 评论 -
2、word2vec ----- CBOW和skip-gram理解
一、什么是word2vecword2vec,即词向量,就是一个词用一个向量来表示。Word2Vec是用来生成词向量的工具,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。是2013年Google提出的。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,简称CBOW),以及两种高效训练的方法:负采样(negative sampling)和层序softmax(hierarchical softmax)。原创 2021-06-05 15:03:22 · 919 阅读 · 0 评论 -
1、TF-IDF算法学习
说明:文章中的学习内容和图片取自莫烦python的视频。1、何为TF-IDF?TF—词频(Term Frequency):表示词条在文章中出现的次数(频率);例如下图:IDF—逆文件频率指数(Inverse Document Frequency):所有的词在这个系统中的区分力的大小;例如下图:如果这个系统中每一篇文章中都有重复出现“我”这个字的时候,那么“我”这个字在任意一篇文档中的区分力就不强。如果搜索的时候关键字用的是“莫烦”,然鹅整个系统中叫莫烦的人又能有多少呢?所以“莫烦”这个词的区分力.原创 2021-06-03 18:34:35 · 366 阅读 · 0 评论