理解卷及神经网络应用在自然语言处理的学习笔记

博客地址:http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/ 首先申明本人的英语很搓,看英文非常吃力,只能用这种笨办法来方便下次阅读。有理解错误的地方,请别喷我。CNN怎么应用到NLP...

2016-05-13 16:07:59

阅读数 6708

评论数 0

ubuntu下安装anaconda

1、 到官网http://continuum.io/downloads下载anaconda。 选择linux64-bit-python2.7 2、 安装anaconda,在终端输入:cd ~/Downloads;bash Anaconda-2.2.0-linux-x86_64...

2015-06-15 13:12:14

阅读数 55571

评论数 3

HMM模型之前向算法

1、介绍 向前算法是用于HMM模型的评估问题。评估问题:对于一个观察序列和通过不同系统得到的HMM模型,怎么判断哪一个HMM模型是最有可能产生这个观察序列。 HMM模型三元组(π\pi,A,B),其中π\pi表示初始向量,A表示状态转移矩阵,B表示混合矩阵,实例...

2015-06-04 15:58:08

阅读数 937

评论数 0

HMM模型之viterbi算法

1、前言 viterbi算法是HMM模型的三大算法之一。HMM模型解决三大问题:评估、解码和学习。viterbi用于解决解码问题,在自然语言处理中用于解决划分问题,分词是对于句子的划分,viterbi是很好的分词算法。推荐参看的是《HMM学习最佳范例》。这里的术语将参照《HMM最...

2015-06-01 13:40:07

阅读数 1769

评论数 0

结巴分词源代码解析(二)

本篇分两部分,一、补充说明动态规划求最大概率路径的过程;二、使用viterbi算法处理未登录词。 一、动态规划求最大概率路径补充 从全模式中看出一句话有多种划分方式,那么哪一种是好的划分方式,最大概率路径认为,如果某个路径下词的联合概率最大,那么这个路径为最好的划分方式。 (个人认为这种思想是...

2015-05-31 17:22:43

阅读数 1807

评论数 0

结巴分词1.8.2版本源代码解析(一)

概要说明:结巴分词是基于python的开源分词工具。在其根目录下的结构为 . |--analyse |--finalseg |--posseg |--__init__.py |--__main__.py |--_compat.py |--dict.txt 其中analyse是对分词结果进行分析的文...

2015-05-27 15:27:26

阅读数 1992

评论数 0

人民日报语料库抓取python实现(二)--多线程

由于有大量的IO,多线程可以提高爬取的效率。出于不同队列存储不同url和对于爬虫进行分工的初衷,这里实现了两个队列shareMonthQueue和shareReportQueue。其中shareMonthQueue存储所有月份初始url和包含的其他页面(一个月份有很多page,例:1946年5月包...

2015-05-22 16:11:11

阅读数 1868

评论数 0

python 提高效率的几个小技巧

1.1. 最常见 一个最常见的速度陷坑(至少是俺在没看到网上这篇介绍时陷进去 过好些次的) 是: 许多短字串并成长字串时, 大家通常会用: Toggle line numbers    1 shortStrs = [ str0, str1, ..., strN]    2 #N+1个字串所组成的数...

2015-05-21 10:37:25

阅读数 742

评论数 0

人民日报语料库抓取python实现

最近需要抓取语料库,在一个NLP的论坛上看到有人民日报的1946到2003的所有资料。准备把这些资料抓取下来(虽然有点老了,但是聊胜于无,哪位高人知道更好的来源请告知)。程序是用python写的,主要用到bs4解析模块。由于是新手没有使用多线程,事实证明效率果然不快,因为有大量的数据IO。等看完多...

2015-05-20 10:54:01

阅读数 5142

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭