wendaoliutou-CSDN博客

转载 task1

C语言实现数组增删改查操作可执行代码加注解【数组】实现一个支持动态扩容的数组实现一个大小固定的有序数组，支持动态增删改操作- 实现两个有序数组合并为一个有序数组#include <stdio.h>//输入输出相关#include <stdlib.h>//c 标准库#include <string.h>//字符串操作s...

2019-08-04 21:20:55 108 1

原创 python def init(self, name等多参数), def init(self)

__init__(self)初始化，__new__实例化方法,两者执行的顺序，先有实例，才能初始化。之前一直对__init__(self)里面的参数很迷茫，一会这个地方看到别人这么写，一会看到别人那么写，自己也不知道，到底怎么回事，有哪些区别，今天对这个内容进行了学习。进行系统的分析了解，主要从他的实例化的区别，含义的区别进行区分两者之间的关系！常见的两种类的定义方式如下：cl...

2019-08-04 20:49:28 1033

原创 Bert原理

模型的结构模型主要由Embedding，多个Transform-Encoders模块，功能输出层组成。EmbeddingsBERT的输入将会编码成三种Embedding的单位和。如图所示：图中的两个特殊符号[CLS]和[SEP]，其中[CLS]表示该特征用于分类模型，对非分类模型，该符合可以省去。[SEP]表示分句符号，用于断开输入语料中的两个句子。Position Em...

2019-07-19 10:13:52 701

原创 RNN的文本分类模型

基于LSTM（Long-ShortTermMemory，长短时记忆人工神经网络，RNN的一种）搭建一个文本意图分类的深度学习模型（基于Python3和Tensorflow1.2），其结构图如下：如图1所示，整个模型包括两部分第一部分：句子特征提取Step1读取数据（这里是经过结巴分词后的句子），按比例划分训练集和验证集，这里每个句子都生成了相应的mask向量，用以标记每...

2019-07-12 16:18:47 3587

原创 TextRNN

这篇是RNN类结构和其用于文本分类的学习总结；一、单向RNN结构：，权重矩阵U、V、W共享。二、双向RNN结构：，，仿照单向的写法也就是。从公式里也可以看出来，正向计算和反向计算不共享权值。三、长短时记忆网络LSTM结构：RNN神经元中只有这一计算，隐藏层的状态对短期的输入非常敏感，存在梯度消失和梯度爆炸的问题。有科学家提出LSTM解决了这个问题，原始的RNN神经元中...

2019-07-07 09:12:52 410

原创 TextCnn原理及实践

原理paper地址：https://arxiv.org/pdf/1408.5882.pdf对于文本分类问题，常见的方法无非就是抽取文本的特征，比如使用doc2evc或者LDA模型将文本转换成一个固定维度的特征向量，然后在基于抽取的特征训练一个分类器。然而研究证明，TextCnn在文本分类问题上有着更加卓越的表现。TextCnn的结构1. 嵌入层(embedding layer)...

2019-07-07 09:01:26 490

原创 FastText：快速的文本分类器

一、简介fasttext是facebook开源的一个词向量与文本分类工具，在2016年开源，典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法，性能比肩深度学习而且速度更快。fastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句，还有使用子字(subword)信息，并通过隐藏表征在类别间共享信息。我们另外采用了...

2019-07-06 11:10:31 311

在word2vec原理中，我们讲到了使用神经网络的方法来得到词向量语言模型的原理和一些问题，现在我们开始关注word2vec的语言模型如何改进传统的神经网络的方法。由于word2vec有两种改进方法，一种是基于Hierarchical Softmax的，另一种是基于Negative Sampling的。本文关注于基于Hierarchical Softmax的改进方法，在下一篇讨论基于Negativ...

2019-07-03 21:43:40 836

原创 word2vec原理

word2vec是google在2013年推出的一个NLP工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。虽然源码是开源的，但是谷歌的代码库国内无法访问，因此本文的讲解word2vec原理以Github上的word2vec代码为准。本文关注于word2vec的基础知识。1. 词向量基础　　　　用词向量来表示词并不是word2vec的首创，...

2019-07-03 21:13:45 217

原创 scikit-learn LDA主题模型

　从应用的角度来使用scikit-learn来学习LDA主题模型。除了scikit-learn, 还有spark MLlib和gensim库也有LDA主题模型的类库，使用的原理基本类似，本文关注于scikit-learn中LDA主题模型的使用。1.scikit-learn LDA主题模型概述　　　　在scikit-learn中,LDA主题模型的类在sklearn.decompositi...

2019-06-30 16:52:10 568

原创英文文本挖掘预处理流程总结

在中文文本挖掘预处理流程总结中，我们总结了中文文本挖掘的预处理流程，这里我们再对英文文本挖掘的预处理流程做一个总结。1. 英文文本挖掘预处理特点英文文本的预处理方法和中文的有部分区别。首先，英文文本挖掘预处理一般可以不做分词（特殊需求除外），而中文预处理分词是必不可少的一步。第二点，大部分英文文本都是uft-8的编码，这样在大多数时候处理的时候不用考虑编码转换的问题，而中...

2019-06-25 17:23:18 568

原创中文文本挖掘预处理流程总结

在对文本做数据分析时，我们一大半的时间都会花在文本预处理上，而中文和英文的预处理流程稍有不同，本文就对中文文本挖掘的预处理流程做一个总结。1. 中文文本挖掘预处理特点首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。首先，中文文本是没有像英文的单词空格那样隔开的，因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词。第二，中...

2019-06-25 17:22:01 560

原创文本挖掘预处理之TF-IDF

1. 文本向量化特征的不足在将文本分词并向量化后，我们可以得到词汇表中每个词在各个文本中形成的词向量，比如在文本挖掘预处理之向量化与Hash Trick这篇文章中，我们将下面4个短文本做了词频统计：corpus=["I come to China to travel", "This is a car polupar in China", "I love t...

2019-06-25 17:20:58 306

原创文本预处理之向量化与Hash Trick

文本预处理之向量化与Hash Trick1. 词袋模型2. 词袋模型之向量化3. Hash Trick4.向量化与Hash Trick小结1. 词袋模型在讲向量化与Hash Trick之前，我们先说说词袋模型(Bag of Words,简称BoW)。词袋模型假设我们不考虑文本中词与词之间的上下文关系，仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。词袋模型首先会进行分词，在分词之...

2019-06-25 17:18:53 211

原创文本挖掘的分词原理

在做文本挖掘的时候，首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词，但是也有时候需要把多个单词做为一个分词，比如一些名词如“New York”，需要做为一个词看待。而中文由于没有空格，分词就是一个需要专门去解决的问题了。无论是英文还是中文，分词的原理都是类似的，本文就对文本挖掘时的分词原理做一个总结。1. 分词的基本原理　　　　现代分词都是基于统计的分词，而统计的样本内容...

2019-06-22 21:46:46 372

原创 ROC和PR曲线

ROC曲线和PR（Precision - Recall）曲线皆为类别不平衡问题中常用的评估方法，二者既有相同也有不同点。本篇文章先给出ROC曲线的概述、实现方法、优缺点，再阐述PR曲线的各项特点，最后给出两种方法各自的使用场景。ROC曲线ROC曲线常用于二分类问题中的模型比较，主要表现为一种真正例率 (TPR) 和假正例率 (FPR) 的权衡。具体方法是在不同的分类阈值 (thr...

2019-06-21 19:39:28 3762

转载 THUCNews新闻文本分类

转https://github.com/gaussic/text-classification-cnn-rnn数据集本文采用了清华NLP组提供的THUCNews新闻文本分类数据集的一个子集（原始的数据集大约74万篇文档，训练起来需要花较长的时间）。数据集请自行到THUCTC：一个高效的中文文本分类工具包下载，请遵循数据提供方的开源协议。本次训练使用了其中的10个分类，每个分类6500条...

2019-06-21 16:38:48 14513 1

原创 IMDB影评文本分类

IMDB 数据集TensorFlow 中包含 IMDB 数据集。我们已对该数据集进行了预处理，将影评（字词序列）转换为整数序列，其中每个整数表示字典中的一个特定字词。以下代码会将 IMDB 数据集下载到您的计算机上（如果您已下载该数据集，则会使用缓存副本）：import tensorflow as tffrom tensorflow import kerasfrom keras...

2019-06-20 16:27:35 1551

原创 TensorFlow基础

1）Tensors TensorFlow的数据中央控制单元是tensor(张量)，一个tensor由一系列的原始值组成，这些值被形成一个任意维数的数组。一个tensor的列就是它的维度。2）import tensorflow as tf上面的是TensorFlow 程序典型的导入语句，作用是：赋予Python访问TensorFlow类(classes)，方法（methods），...

2019-06-20 11:25:33 173

转载 windows环境下，如何在Pycharm下安装TensorFlow环境

1.安装Anaconda选择相应的Anaconda进行安装，下载地址点击这里，下载对应系统版本的Anaconda就和安装普通的软件一样，全部选择默认即可，注意勾选将python3.6添加进环境变量。这样Anaconda就安装好了，我们可以通过下面的命令来查看Anaconda已经安装了哪些包。运行开始菜单->Anaconda3—>Anaconda Prompt...

2019-06-19 22:13:39 1800 1

wendaoliutou的博客