自然语言处理
专注成就专业_
专注成就专业!!!
展开
-
算法分析与设计的作业:“基于FMM的分词系统”
准备要截课了,于是乎按老师的要求做了一个简单的分词程序,程序主要是针对中文分词的。断断续续做了几天,感觉做得很一般,仅仅是完成了一些基本的功能。 采用机械分词中全切分的方法将句子进行切分,具体的描述看下边的文档: 本程序分为两个部分来实现:一、从海量数据中生成我们的数原创 2011-05-02 17:21:00 · 1764 阅读 · 0 评论 -
调研:开源搜索引擎
本文档是对现有的开源的搜索引擎的一个简单介绍1. LuceneLucene的开发语言是java, 也是java家族中最为出名的一个开源搜索引擎, 在java世界中已经是标准的全文检索程序, 它提供了完整的查询引擎和索引引擎, 没有中文分词引擎, 需要自己去实现, 因此用Lucene去做一个搜素引擎需要自己去架构.另外它不支持实时搜索, 但linkedin和twitter有分别对Luc原创 2013-03-30 14:44:20 · 5147 阅读 · 0 评论 -
搜索引擎:第一章布尔查询学习笔记
第一章布尔查询学习笔记 倒排序记录 提取词 文档ID 对词排序 去重New 1 Forcasts ForcastsHome 1原创 2013-04-07 19:35:52 · 1233 阅读 · 0 评论 -
基于隐马尔可夫模型的有监督词性标注
词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每个词都指派一个合适的词性,也就是要确定每个词是名词、动词、形容词或其他词性的过程,又称词类标注或者简称标注。词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的许多领域都发挥着重要的作用。 词性标注本质上是一个分类问题,对于句子中的每一个单词W,转载 2014-07-31 00:42:51 · 2236 阅读 · 0 评论 -
学习KNN算法体会和总结
k-d树(k-dimensional树的简称),是一种分割k维数据空间的数据结构。主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。索引结构中相似性查询有两种基本的方式:一种是范围查询(range searches),另一种是K近邻查询(K-neighbor searches)。范围查询就是给定查询点和查询距离的阈值,从数据集中找出所有与查询点距离小于阈值的数据;K近邻查询原创 2015-03-15 10:17:55 · 5064 阅读 · 0 评论 -
HMM的学习笔记1:前向算法
HMM的学习笔记 HMM是关于时序的概率模型,描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测的随机过程。HMM由两个状态和三个集合构成。他们分别是观测状态序列,隐藏状态序列,转移概率,初始概率和混淆矩阵(观察值概率矩阵)。HMM的三个假设:1、有限历史性假设,p(si|si-1,si-2,..原创 2015-03-12 20:49:11 · 1061 阅读 · 0 评论 -
HMM MEMM CRF 区别 联系
声明:本文主要是基于网上的材料做了文字编辑,原创部分甚少。参考资料见最后。隐马尔可夫模型(Hidden Markov Model,HMM),最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional Random Field,CRF)是序列标注中最常用也是最基本的三个模型。HMM首先出现,MEMM其次,CRF最后。三个算法原创 2015-07-20 15:45:14 · 5156 阅读 · 0 评论 -
随机森林(random forest)可以解决样本分布不均匀维度大且特征缺失的问题
随机森林的定义:上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感原创 2015-09-20 17:02:59 · 38607 阅读 · 4 评论 -
论文笔记《Convolutional Neural Networks for Sentence Classification》
CNN+word2vec原创 2016-02-12 19:53:05 · 4196 阅读 · 1 评论