NLP学习笔记
文章平均质量分 82
小鱼儿的博客
每天付出一点点,让自己变得更强壮!终身学习者,遇见更多优秀的人
展开
-
使用python语言安装stanfornlp 和hanlp安装包
安装stanfornlp准备条件 win10 + jdk8(java安装包) + anaconda3• 1)安装stanford nlp自然语言处理包: pip install stanfordcorenlp• 2)下载Stanford CoreNLP文件https://stanfordnlp.github.io/CoreNLP/download.html下载的文件件为:stanf...原创 2018-09-23 14:29:09 · 965 阅读 · 0 评论 -
深度学习之——word2vec
1. 文本表示:从one-hot到word2vec文本表示的意思是把字词处理成向量或矩阵,以便计算机能进行处理。文本表示是自然语言处理的开始环节。文本表示按照细粒度划分,一般可分为字级别、词语级别和句子级别的文本表示。文本表示分为离散表示和分布式表示。离散表示的代表就是词袋模型,one-hot(也叫独热编码)、TF-IDF、n-gram都可以看作是词袋模型。分布式表示也叫做词嵌入(w...原创 2019-04-23 21:37:16 · 682 阅读 · 0 评论 -
深度学习之----循环神经网络(RNN) 基础
目录1.RNN的背景设计RNNs的目的,就是处理序列数据。2.RNN的价值3. RNN的基本结构4. RNN的高级形式4.1 双向RNN (Bidirectional RNN )4.2 LSTM(Long Short-term Memory)4.3 GRU(Gated Recurrent Unit)5. RNN的训练5.1 普通的RNN(simple RNN...原创 2019-04-28 09:55:20 · 279 阅读 · 0 评论 -
svm文本分类
1.SVM应用场景文本分类、图像识别、主要二分类领域2.SVM的优缺点SVM优点1、解决小样本下机器学习问题。2、解决非线性问题。3、无局部极小值问题。(相对于神经网络等算法)4、可以很好的处理高维数据集。5、泛化能力比较强。SVM缺点1、对于核函数的高维映射解释力不强,尤其是径向基函数。2、对缺失数据敏感3.SVM sklearn 参数学习首先介绍下与核函数...原创 2019-04-17 21:46:17 · 3925 阅读 · 2 评论 -
深度学习之--神经网络基础
一、前馈神经网络概念:前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数前馈神经网络:前馈神经网络是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层的输出,并输出给下一层.各层间没有反馈。网络层数:一般是指设置或者搭建的模型有多少层。以上图为例,网络层为3。注:一般不包括输入层。输入层:一般指数据输入模型的一层,如图中 Lay...原创 2019-04-21 21:57:08 · 1106 阅读 · 0 评论 -
深度学习之----TextCNN文本分类
1.卷积神经网络英文名称:(Convolutional Neural Network),简称CNN。由输入层、卷积层、激活函数、池化层、全连接层组成,即INPUT-CONV-RELU-POOL-FC。是深度学习技术中极具代表的网络结构之一,最早应用在图像处理当中,现在在自然语言处理应用也非常多。卷积神经网络示意图2.构成部分主要由5个部分组成:输入层,卷积层,激活层,池化层...原创 2019-04-25 21:31:29 · 3636 阅读 · 0 评论 -
TF-IDF特征值
1.TF-IDF简介内容参考百度百科TFIDF实际上是:TF * IDF词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目。这边的例子以上述的数学公式来计算。词频 (TF) 是一...原创 2019-04-13 22:04:59 · 1511 阅读 · 0 评论 -
召回率、准确率、ROC曲线、AUC、PR曲线
1 数据集下载THUCNews中文文本分类数据集 部分数据下载链接为https://pan.baidu.com/s/1hugrfRu 密码:qfud。完整数据下载方式为:访问 http://thuctc.thunlp.org/message, 需要提交个人信息、尊重THUNLP资源使用协议,从而获取正确下载地址。IMDB英文情感分类数据集 下载地址为 http://59....原创 2019-04-09 20:49:42 · 711 阅读 · 0 评论 -
朴素贝叶斯模型结合 Tf-idf 算法进行文本分类
一、朴素贝叶斯的原理基于朴素贝叶斯公式,比较出后验概率的最大值来进行分类,后验概率的计算是由先验概率与类条件概率的乘积得出,先验概率和类条件概率要通过训练数据集得出,即为朴素贝叶斯分类模型,将其保存为中间结果,测试文档进行分类时调用这个中间结果得出后验概率。二、朴素贝叶斯应用场景需要一个比较容易解释,而且不同维度之间相关性较小的模型的时候。可以高效处理高维数据,虽然结果可能不尽如...原创 2019-04-15 21:45:22 · 3520 阅读 · 0 评论 -
Win10环境+ Anaconda3.6+CUDA9.0 +CUDNN7.0+TensorFlow1.10安装过程全解
Anaconda介绍、安装我之前写的一篇博客https://blog.csdn.net/zaishijizhidian/article/details/81663387Jupyter Notebook安装了Anaconda可以直接在首页登录Jupter Notebookpycharm的安装参考http://www.runoob.com/w3cnote/pychar...原创 2019-04-06 18:20:54 · 315 阅读 · 0 评论 -
Hanlp词性标注列表
a 形容词 f 方位词 mq 数量词 nn 工作相关名词 ad 副形词 g 学术词汇 n ...原创 2018-09-24 11:49:46 · 4330 阅读 · 0 评论 -
在Hanlp词典和jieba词典中手动添加未登录词
在使用Hanlp词典或者jieba词典进行分词的时候,会出现分词不准的情况,原因是内置词典中并没有收录当前这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作呢,下面我们来看一下:一,在Hanlp词典中添加未登录词1.找到hanlp内置词典目录位于D:\hnlp\hanlp_code\hanlp\data\dictionary\custom...原创 2018-09-23 16:12:03 · 881 阅读 · 0 评论 -
LDA文本分类
PLSA与LDA对⽐pLSA跟LDA的本质区别就在于它们去估计未知参数所采⽤的思想不 同,前者⽤的是频率派思想,后者⽤的是⻉叶斯派思想。pLSApLSA 模型是有向图模型,将主题作为隐变量,构建了一个简单的贝叶斯网,采用EM算法估计模型参数。相比于 LSA 略显“随意”的SVD,pLSA 的统计基础更为牢固。相比于 LDA 模型里涉及先验分布,pLSA 模型相对简单:观测变量为文档...原创 2019-04-19 21:29:00 · 5647 阅读 · 1 评论