自然语言处理
酸辣螺丝粉
这个作者很懒,什么都没留下…
展开
-
基于gensim包的潜在语义索引(LSI) 模型的相似度查询
首先下载mycorpus.txt文件,地址:https://radimrehurek.com/gensim/mycorpus.txt引入必须的函数from gensim import corpora, similarities,modelsfrom pprint import pprint接着生成词库并保存#停用词表,本次使用的txt文件只有9个文档,比较小。当文档数目多时可...原创 2018-07-24 20:11:20 · 901 阅读 · 0 评论 -
Variable rnn/multi_rnn_cell/cell_0/basic_lstm_cell/kernel already exists问题解决方法
问题出现背景:博主在同一个tf.name_scope(name)下同时处理音频和文本的序列特征时,使用两次tf.nn.dynamic_rnn()函数时出现该错误:ValueError: Variable rnn/multi_rnn_cell/cell_0/basic_lstm_cell/kernel already exists, disallowed. Did you mean to set...原创 2019-05-08 11:07:49 · 3919 阅读 · 7 评论 -
LSTM情感分析
相关npy文件见https://pan.baidu.com/s/1SctPmfFlq6ilY2bxcXHIFA。代码及注释如下,亲测有效。import tensorflow as tfimport numpy as npfrom random import randintimport timeimport refrom os import listdirfrom os.path ...原创 2018-09-13 20:54:14 · 1987 阅读 · 1 评论 -
LSTM中tf.nn.dynamic_rnn处理过程详解
在唐宇迪之tensorflow学习笔记项目实战(LSTM情感分析)一文中,链接地址如下https://blog.csdn.net/liushao123456789/article/details/78991581。对于tf.nn.dynamic_rnn处理过程的代码如下,但是每一步缺少细致的解释,本博客旨在帮助小伙伴们详细了解每一的步骤以及为什么要这样做。lstmCell = tf.cont...原创 2018-09-11 21:20:59 · 18933 阅读 · 2 评论 -
Tencent_AILab_ChineseEmbedding使用
腾讯AI Lab近日宣布开源大规模、高质量的中文词向量数据集,该数据包含800万中文词汇。此次公布的中文词向量数据在覆盖率、新鲜度和准确性上有大幅提高,具体的训练及方法在这里不在赘述。下载地址为https://ai.tencent.com/ailab/nlp/embedding.html,压缩包为6.3G,解压后有15.5G中文词向量保存在txt文件中,第一行为词汇的总数和词向量维度。...原创 2018-10-25 15:43:05 · 9979 阅读 · 0 评论 -
tf.nn.bidirectional_dynamic_rnn()函数详解
最近在做一些文本分类问题过程中,频繁使用Bilstm,对于tf.nn.bidirectional_dynamic_rnn()函数使用较多,笔者在之前介绍过tf.nn.dynamic_rnn()函数,在此基础上,参考https://blog.csdn.net/wuzqChom/article/details/75453327和https://blog.csdn.net/taolusi/article...原创 2019-01-12 17:32:37 · 7289 阅读 · 2 评论 -
使用BERT获取中文词向量
BERT其中的一个重要作用是可以生成词向量,它可以解决word2vec中无法解决的一词多义问题。然而BERT获取词向量的门槛要比word2vec要高得多。笔者在这里介绍一下如何获取BERT的词向量。笔者在获取BERT词向量的时候用到了肖涵博士的bert-as-service,具体使用方式如下。环境要求:python版本>=3.5,tensorflow版本>=1.10(笔者使...原创 2019-02-18 13:55:16 · 45359 阅读 · 61 评论 -
百度云语言处理技术基础端口调用
作者在学习自然语言处理过程中,经常会涉及到对语句进行分词、命名实体识别、训练词向量模型。可是因为语料库比较旧且有限,使用的模型可能存在缺陷等,往往使得得到的结果不是很好。在师兄的介绍下,接触到百度云会提供一些自然语言处理的接口,辅助你完成一些基本的任务。本文就以百度云提供的词法分析接口为例,介绍一下百度云端口是如何调用的。该端口提供分词、词性标注、命名实体识别三大功能,支撑自然语言的准确理解。...原创 2018-10-31 22:11:33 · 735 阅读 · 0 评论 -
Anconda3使用gensim训练中文维基百科语料库
首先需要下载中文语料,下载地址为:http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2下载完中文语料后,需要将XML文件转化为TEXT文件,用python3.x版本可能会出现bytes与str的问题,笔者用以下代码亲测有效# -*- coding:utf-8 -*-# Autho...原创 2018-07-31 15:16:51 · 966 阅读 · 0 评论 -
BERT微调做中文文本分类
BERT模型在NLP各项任务中大杀四方,那么我们如何使用这一利器来为我们日常的NLP任务来服务呢?我们首先介绍使用BERT做文本分类任务。重写读取数据的类需要根据文件格式重写读取数据的类,只要能够正常读取数据即可class StatutesProcessor(DataProcessor): def _read_txt_(self, data_dir, x_file_name, y_...原创 2019-11-14 11:06:51 · 2701 阅读 · 0 评论 -
文本分类任务中几种attention机制的介绍
文本分类任务的一大核心就是获得文本的准确语义表示,笔者之前在文本分类任务中只是简单地调用LSTM或GRU来获得文本的词向量表示。在阅读论文和github项目时,会发现顶会论文在获得文本的语义向量时会使用Attention机制。下面,博主就介绍几种文本分类任务中在获得文本语义向量表示的过程中Attention机制的运用(后续随着论文的阅读会不断更新)。adversarialLSTM的attenti...原创 2019-07-20 21:08:28 · 4982 阅读 · 0 评论 -
Encoder-Decoder两大Attention机制解释
前面的博客,博主主要集中在讲解文本分类方面,后续会多写一点序列生成以及智能问答方面的博客,供大家交流。今天博主主要来介绍Seq2Seq模型中的比较著名的两大attention机制:Bahdanau 和 Luong。Seq2seq在介绍Attention机制之前,首先简单地介绍下Seq2Seq的模型框架。Seq2Seq可以解决文本序列生成的任务:机器翻译和自动摘要生成等。Seq2Seq由Enco...原创 2019-07-13 21:34:01 · 2971 阅读 · 0 评论