重回成都-CSDN博客

原创理解卷及神经网络应用在自然语言处理的学习笔记

博客地址：http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/首先申明本人的英语很搓，看英文非常吃力，只能用这种笨办法来方便下次阅读。有理解错误的地方，请别喷我。CNN怎么应用到NLP什么是卷积和什么是卷积神经网络就不讲了，自行google。从在自然语言处理的应用开始(SO, HOW D

2016-05-13 16:07:59 8022

原创 ubuntu下安装anaconda

1、到官网http://continuum.io/downloads下载anaconda。选择linux64-bit-python2.7 2、安装anaconda，在终端输入:cd ~/Downloads;bash Anaconda-2.2.0-linux-x86_64.sh 回车后，是许可文件，接收许可，anaconda将安装在~/anaconda下：

2015-06-15 13:12:14 60419 3

原创 HMM模型之前向算法

1、介绍向前算法是用于HMM模型的评估问题。评估问题：对于一个观察序列和通过不同系统得到的HMM模型，怎么判断哪一个HMM模型是最有可能产生这个观察序列。 HMM模型三元组(π\pi,A,B),其中π\pi表示初始向量，A表示状态转移矩阵，B表示混合矩阵，实例可以参看《HMM模型之viterbi算法》。 2、实现要得到对于观察序列在当前HMM模型下

2015-06-04 15:58:08 1263

原创 HMM模型之viterbi算法

1、前言 viterbi算法是HMM模型的三大算法之一。HMM模型解决三大问题：评估、解码和学习。viterbi用于解决解码问题，在自然语言处理中用于解决划分问题，分词是对于句子的划分，viterbi是很好的分词算法。推荐参看的是《HMM学习最佳范例》。这里的术语将参照《HMM最佳学习范例》。关于HMM模型中的数值引用于结巴分词中的源代码。2、初始向量这里sta

2015-06-01 13:40:07 2626

原创结巴分词源代码解析（二）

本篇分两部分，一、补充说明动态规划求最大概率路径的过程；二、使用viterbi算法处理未登录词。一、动态规划求最大概率路径补充从全模式中看出一句话有多种划分方式，那么哪一种是好的划分方式，最大概率路径认为，如果某个路径下词的联合概率最大，那么这个路径为最好的划分方式。（个人认为这种思想是有缺陷的，我们知道每一个词的出现频率是一个较小的小数，小数相乘结果会受到小数的个数较大影响，

2015-05-31 17:22:43 2290

原创结巴分词1.8.2版本源代码解析(一)

2015-05-27 15:27:26 2523

原创人民日报语料库抓取python实现（二）--多线程

由于有大量的IO，多线程可以提高爬取的效率。出于不同队列存储不同url和对于爬虫进行分工的初衷，这里实现了两个队列shareMonthQueue和shareReportQueue。其中shareMonthQueue存储所有月份初始url和包含的其他页面（一个月份有很多page，例：1946年5月包含30个page）。shareReportQueue存储所有新闻的url。两个队列有其专用的爬虫mon

2015-05-22 16:11:11 2487

转载 python 提高效率的几个小技巧

1.1. 最常见一个最常见的速度陷坑(至少是俺在没看到网上这篇介绍时陷进去过好些次的) 是: 许多短字串并成长字串时, 大家通常会用:Toggle line numbers 1 shortStrs = [ str0, str1, ..., strN] 2 #N+1个字串所组成的数列 3 longStr = ” 4 for s in shortStrs:

2015-05-21 10:37:25 895

原创人民日报语料库抓取python实现

最近需要抓取语料库，在一个NLP的论坛上看到有人民日报的1946到2003的所有资料。准备把这些资料抓取下来(虽然有点老了，但是聊胜于无，哪位高人知道更好的来源请告知)。程序是用python写的，主要用到bs4解析模块。由于是新手没有使用多线程，事实证明效率果然不快，因为有大量的数据IO。等看完多线程爬虫再实现一个多线程版本的。先将就用吧。在windows下运行的同学，请把程序中文件夹和文件名

2015-05-20 10:54:01 8420 1

zhdgk19871218的专栏