中文分词(分词/人名识别(命名实体识别)/词性标注)
文章平均质量分 73
beck_zhou
互联网搜索引擎技术研发(自然语言处理、机器学习、数据挖掘、个性化推荐、大数据等算法方向);
移动互联网产品经理
展开
-
LibSVM学习(三)——LibSVM使用规范
转自:http://blog.csdn.net/flydreamgg/article/details/4468995 其实,这部分写也是多余,google一下“libsvm使用”,就会N多的资源,但是,为了让你少费点心,在这里就简单的介绍一下,有不清楚的只有动动你的mouse了。需要说明的是,2.89版本以前,都是svmscale、svmtrain和svmpredict,最新的是s原创 2012-05-25 11:31:29 · 1542 阅读 · 0 评论 -
CRF++使用小结(转)
1. 简述 最近要应用CRF模型,进行序列识别。选用了CRF++工具包,具体来说是在VS2008的C#环境下,使用CRF++的windows版本。本文总结一下了解到的和CRF++工具包相关的信息。 参考资料是CRF++的官方网站:CRF++: Yet Another CRF toolkit,网上的很多关于CRF++的博文就是这篇文章的全部或者部分的翻译,本文也翻译了一些。2原创 2012-07-25 19:44:12 · 1635 阅读 · 0 评论 -
随机场(Random field)
一、随机场定义http://zh.wikipedia.org/zh-cn/随机场 随机场(Random field)定义如下:在概率论中, 由样本空间Ω = {0, 1, …, G − 1}n取样构成的随机变量Xi所组成的S = {X1, …, Xn}。若对所有的ω∈Ω下式均成立,则称π为一个随机场。π(ω) > 0.一些已有的随机场如:马尔可夫随机场(MRF), 吉布斯随机场原创 2012-07-25 20:38:21 · 44849 阅读 · 2 评论 -
分类算法之朴素贝叶斯分类(Naive Bayesian classification)
0、写在前面的话 我个人一直很喜欢算法一类的东西,在我看来算法是人类智慧的精华,其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中,并解决了实际问题后,那种快感更是我在其它地方体会不到的。 一直想写关于算法的博文,也曾写过零散的两篇,但也许是相比于工程性文章来说太小众,并没有引起大家的兴趣。最近面临毕业找工作,为了能给自己增加筹码,决定再次复习算法方面的知识,我决原创 2012-07-26 15:04:50 · 6402 阅读 · 1 评论 -
特征选择算法之开方检验
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在这捣原创 2012-07-26 15:48:15 · 1494 阅读 · 0 评论 -
特征选择方法之信息增益
前文提到过,除了开方检验(CHI)以外,信息增益(IG,Information Gain)也是很有效的特征选择方法。但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。在信息增益中,重要性的衡量标准就是看特征能够为分类系统带来多少信息,带原创 2012-07-26 15:48:49 · 1714 阅读 · 2 评论 -
标注偏置问题(Label Bias Problem)和HMM、MEMM、CRF模型比较
路径1-1-1-1的概率:0.4*0.45*0.5=0.09路径2-2-2-2的概率:0.018路径1-2-1-2:0.06路径1-1-2-2:0.066由此可得最优路径为1-1-1-1而实际上,在上图中,状态1偏向于转移到状态2,而状态2总倾向于停留在状态2,这就是所谓的标注偏置问题,由于分支数不同,概率的分布不均衡,导致状态的转移存在不公平的情况。原创 2012-07-26 10:08:29 · 13733 阅读 · 13 评论 -
N-gram模型
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串原创 2012-07-26 15:45:57 · 2685 阅读 · 0 评论 -
文本分类算法的效果
基于统计的分类算法是主流,主要包括以下几种分类模型:相似度模型(Rocchio、K-近邻)、 概率模型(贝叶斯)、 线性模型(LLSF、SVM)、 非线性模型(决策树、神经网络)、 组合模型。对于这些分类算法, 国内外很多研究者进行了客观评测(Yang,1999;Joachims,1998;He,2000;Tsay,2000;庞剑锋,2001;王灏,2003;李保利,2003;周雪忠,原创 2012-07-27 15:21:41 · 10661 阅读 · 0 评论 -
语言模型的基本概念
http://blog.csdn.net/mspinyin/article/details/6137815------------------------------------------------------------------大家好,我是Bright,微软拼音的开发工程师。这里简单介绍下语言模型的基本概念。----------------------------原创 2012-07-18 22:04:19 · 1918 阅读 · 0 评论 -
N元语言模型的解码算法
------------------------------------------------------------------大家好,我是Bright,微软拼音的软件开发工程师。我之前介绍了N元语言模型的训练方法,本文继续介绍N元语言模型的解码算法。------------------------------------------------------------------原创 2012-07-18 22:01:50 · 1876 阅读 · 0 评论 -
基于CRF的中文分词
CRF简介Conditional Random Field:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词的词性,例如:名词,动词,助词)命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)原创 2012-05-25 16:44:01 · 2152 阅读 · 0 评论 -
解析百度搜索结果页面的python脚本(Linux/Win都可以运行)
# -*- coding:utf-8 -*- # To change this template, choose Tools | Templates # and open the template in the editor. __author__="suzhouwei" __date__ ="$2010-9-13 13:45:36$" import sys i原创 2012-07-04 15:08:29 · 6973 阅读 · 0 评论 -
盛大创新院和搜狗研究员:自然语言处理的应用
【TechWeb报道】6月26日消息,盛大创新院搜索主题院研究员贾文杰和搜狗自然语言处理助理研究员张帆今天做客第165期IT龙门阵,分享了关于自然语言处理的应用和难点。盛大创新院搜索主题院研究员贾文杰:面向搜索的中文分词系统盛大创新院搜索主题院研究员贾文杰做了《面向搜索的中文分词系统》的主题演讲。他认为“无论是搜索还是推荐,做中文的互联网智能化处理,分词就是一个必不可少的步骤。”分词应原创 2012-07-02 09:03:19 · 2378 阅读 · 0 评论 -
基于大规模语料的新词发现算法
对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未/结婚/的”呢?这就是所谓的分词歧义难题。不过,现在很多语言模型都已能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西——未登录词。中文没有首字母原创 2012-07-12 14:50:27 · 8527 阅读 · 2 评论 -
语言模型训练工具SRILM
SRILM是著名的约翰霍普金斯夏季研讨会(Johns Hopkins Summer Workshop)的产物,诞生于1995年,由SRI实验室的Andreas Stolcke负责开发维护。 关于SRILM的安装,我已经在前面关于moses平台搭建的文章(参见:《Moses相关介绍》和《Ubuntu8-10下moses测试平台搭建全记录》)中介绍过了,这里就不再重复。准确的说,SRILM并原创 2012-07-18 14:22:06 · 11706 阅读 · 1 评论 -
自然语言处理相关词条
NLP领域 自然语言处理 计算语言学 自然语言理解 自然语言生成 机器翻译 文本分类 语音识别 语音合成 中文分词 信息检索 信息抽取 句法分析 问答系统 自动摘要 拼写检查 统计机器翻译[编辑]NLP专题 隐马尔科夫模型 最大熵模型 条件随机场 数学之美 支持向量机 机器学习 SRILM Moses 知网原创 2012-07-18 15:30:57 · 2217 阅读 · 0 评论 -
N元语言模型的训练方法
------------------------------------------------------------------大家好,我是Bright,微软拼音的开发工程师。我之前介绍了语言模型的基本概念,本文介绍一下N-gram语言模型的训练方法。------------------------------------------------------------------原创 2012-07-18 09:30:49 · 2427 阅读 · 0 评论 -
使用vc编译srilm库
Srilm的全称是Stanford Research Institute Language Modeling Toolkit 他被用来构建和应用统计语言模型,主要用于语音识别,统计标注和切分,以及机器翻译等工作由于需要我要在win32下编译她可是在网上找到很多都是基于cygwin的交叉式编译使用起来总是有点问题不过还好找到了一个使用srilm的vc解决方案在这里:htt原创 2012-07-18 15:29:38 · 2035 阅读 · 1 评论 -
N元语言模型
N元模型设wi是文本中的任意一个词,如果已知它在该文本中的前两个词 wi-2w-1,便可以用条件概率P(wi|wi-2w-1)来预测wi出现的概率。这就是统计语言模型的概念。一般来说,如果用变量W代表文本中一个任意的词序列,它由顺序排列的n个词组成,即W=w1w2...wn,则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式,P(W)可展开为:原创 2012-07-19 22:13:56 · 3409 阅读 · 0 评论 -
DeepLearning学习随记(一)稀疏自编码器
主要参考资料是Stanford 教授 Andrew Ng 的 Deep Learning 教程讲义:http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial。这个讲义已经有人翻译了(赞一个),可以参见邓侃的新浪博客http://blog.sina.com.cn/s/blog_46d0a3930101h6nf.html。另外,博客园原创 2014-04-30 16:35:03 · 30162 阅读 · 0 评论 -
DeepLearning学习随记(二)Vectorized、PCA和Whitening
接着上次的记,前面看了稀疏自编码。按照讲义,接下来是Vectorized, 翻译成向量化?暂且这么认为吧。Vectorized:这节是老师教我们编程技巧了,这个向量化的意思说白了就是利用已经被优化了的数值运算来编程,矩阵的操作尽量少用for循环,用已有的矩阵运算符来操作。这里只是粗略的看了下,有些小技巧还是不错的。 PCA:PCA这个以前都接触过了,原创 2014-04-30 16:35:57 · 5446 阅读 · 0 评论 -
Deep Learning in NLP (一)词向量和语言模型
这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果。关于这个原因,引一条我比较赞同的微博。@王威廉:Steve Renals算了一下icassp录取文章题目中包原创 2014-04-22 16:29:30 · 5791 阅读 · 1 评论 -
DeepLearning tutorial(6)易用的深度学习框架Keras简介
之前我一直在使用Theano,前面五篇Deeplearning相关的文章也是学习Theano的一些笔记,当时已经觉得Theano用起来略显麻烦,有时想实现一个新的结构,就要花很多时间去编程,所以想过将代码模块化,方便重复使用,但因为实在太忙没有时间去做。最近发现了一个叫做Keras的框架,跟我的想法不谋而合,用起来特别简单,适合快速开发。(其实还有很多其他的深度学习框架都是比较容易用的。)1. K原创 2015-05-07 13:40:06 · 28831 阅读 · 11 评论 -
深度学习(卷积神经网络)一些问题总结
深度卷积网络 涉及问题:1.每个图如何卷积: (1)一个图如何变成几个? (2)卷积核如何选择?2.节点之间如何连接?3.S2-C3如何进行分配?4.16-120全连接如何连接?5.最后output输出什么形式?①各个层解释: 我们先要明确一点:每个层有多个Feature Map,每个Feature Map通过一种卷积滤波器提取输入的一种特征,然后每个Feature Map有多个神经元。原创 2015-05-07 14:18:20 · 5661 阅读 · 1 评论 -
深度学习,神经网络为人工智能展示了新希望
深度学习,神经网络为人工智能展示了新希望2013年09月05日 ⁄ 计算机视觉 ⁄ 共 7655字 ⁄ 暂无评论 ⁄ 被围观 114 views+摘要:深度学习带来了机器学习的新浪潮,推动“大数据+深度模型”时代的来临,以及人工智能和人机交互大踏步前进。如果我们能在理论、建模和工程方面突破深度学习面临的一系列难题,人工智能的梦想不再遥远。2012年6月,《纽约时报》披露了Google Brain项原创 2015-05-07 14:20:17 · 20155 阅读 · 2 评论 -
Tensorflow 官方版教程中文版
2015年11月9日,Google发布人工智能系统TensorFlow并宣布开源,同日,极客学院组织在线TensorFlow中文文档翻译。一个月后,30章文档全部翻译校对完成,上线并提供电子书下载,该文档的上线为国内外使用中文学习TensorFlow的工程及研究人员提供了更快的访问速度和更好的阅读体验,助力中国AI技术与世界同步。在线阅读地址为:http://wiki.jikexueyuan.co转载 2016-02-18 11:47:01 · 3759 阅读 · 0 评论 -
MLlib算法简介
之前Mahout或者自己写的MR来解决复杂的机器学习,导致效率低,spark特别适合迭代式的计算,这正是机器学习算法训练所需要的,MLlib是基于spark之上算法组件,基于spark平台来实现。主要的机器学习的算法目前在MLlib中都已经提供了,分类回归、聚类、关联规则、推荐、降维、优化、特征抽取筛选、用于特征预处理的数理统计方法、以及算法的评测。以上是目前spark1.3支持的算法包,相比较之转载 2016-02-19 19:47:44 · 2724 阅读 · 0 评论 -
【机器学习】迭代决策树GBRT(渐进梯度回归树)
一、决策树模型组合 单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策树,比较典型的就是迭代决策树GBRT和随机森林RF。 在最近几年的paper上,如iccv这种重量级会议,iccv 09年的里面有不少文章都是与Boosting和随机森林相关的。模型组合+决策树相关算法有两种比较基本的形式:转载 2016-02-25 20:09:47 · 8158 阅读 · 0 评论 -
【机器学习】随机森林RF
随机森林(RF, RandomForest)包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。通过自助法(boot-strap)重采样技术,不断生成训练样本和测试样本,由训练样本生成多个分类树组成的随机森林,测试数据的分类结果按分类树投票多少形成的分数而定。 随机森林以随机的方式建立一个森林,森林里有很多决策树,且每棵树之间无关联,当有一个新样本进入后,让森林中转载 2016-02-25 20:11:20 · 7153 阅读 · 0 评论 -
文本深度表示模型Word2Vec
简介Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。如果换个思路, 把词当做特征,那么Word2vec就可转载 2016-02-27 17:04:56 · 4609 阅读 · 0 评论 -
基于深度学习的大规模多标签文本分类任务总结
自然语言处理方向的论文仿真到现在,有以下想法: 1. 很多模型都为启发式算法,从直观上很好理解,但是对于大多数人来说,就是一个黑盒,70%时间都在处理数据和调参。 2. 在数据竞赛中,常用的模型就是CNN和RNN,先调出baseline,然后再进行模型融合(model ensemble)。在以上步骤的约束下,数据竞赛比的就是设备的计算能力和个人的调参能力。 3. 在自然语言处理与NLP实战的一系列...转载 2018-05-04 15:06:44 · 6154 阅读 · 2 评论 -
word2vec使用指导
word2vec是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。一、理论概述(主要来源于http://licstar.net/archives/328这篇博客)1.词向量是什么自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。 NLP 中最直观,也是到目前转载 2014-04-22 16:34:16 · 182698 阅读 · 60 评论 -
word2vec中关于霍夫曼树的应用原理
看了word2vec中虽然对霍夫曼原理有所了解。但是没有找到使用霍夫曼编码的原理。在google上搜到这篇文章,感觉写的很不错,果断转了http://xiaoquanzi.net/?p=1562013年末,Google发布的word2vec引起了一帮人的热捧,各种兴奋。时至今日,各地讨论的也不似如此频繁,也是时候写一下个人对它的理解,亦可避免被真正的有识之士鄙视。原创 2014-04-22 17:38:00 · 18168 阅读 · 2 评论 -
word2vec阅读笔记
1一个输入层 ; 1 个隐含层; 1个输出层syn0 input -> hidden 的 weights 在code中是一个1维数组,但是应该按照二维数组来理解。 访问时实际上可以看成 syn0[i, j] i为第i个单词,j为第j个隐含单元。 大小: 词典大小 * 隐含层原创 2014-04-22 17:31:58 · 7958 阅读 · 3 评论 -
用word2vec 跑搜狗SogouCS语料 - 大小4G | 6.8 亿词长 | 57万词汇
[分词]单机跑,耗时: 68分钟[ 训练 ]$ time ./word2vec -train /data/sogou/sohunews_segmented_1line.txt -output /data/sogou/vectors_sohunews.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -samp原创 2014-04-22 17:32:24 · 10432 阅读 · 0 评论 -
word2vec核心代码注释
建议对照word2vec.c看注释,标红部分为中文注释以及相应代码,added by lijiawei// Copyright 2013 Google Inc. All Rights Reserved.//// Licensed under the Apache License, Version 2.0 (the "License");// you may原创 2014-04-22 17:39:56 · 6630 阅读 · 5 评论 -
word2vec中k-means学习笔记
一、k-means算法算法描述输入:簇的数目k;包含n个对象的数据集D。输出:k个簇的集合。方法:从D中任意选择k个对象作为初始簇中心;repeat;根据簇中对象的均值,将每个对象指派到最相似的簇;更新簇均值,即计算每个簇中对象的均值;计算准则函数;until准则函数不在发生变化二、Machine Learning(Ng)算法笔记原创 2014-04-22 17:49:12 · 8339 阅读 · 2 评论 -
word2vec学习参考
最近看NLP的东西比较多。就拿现在google 基于神经网络做的 word2vec 作为博客的开始吧,今后会陆陆续续补充内容。 基本是分4块内容: 1.神经网络语言模型 (http://machinelearning.wustl.edu/mlpapers/paper_files/BengioDVJ03.pdf) 2.语言模型分层优化(http://www.i原创 2014-04-22 17:57:49 · 3788 阅读 · 0 评论 -
word2vec学习
谷歌已经使用Deep Learning技术开发了许多新方法来解析语言,目前,谷歌开源了一款基于Deep Learning的学习工具——word2vec,这是首款面向大众的Deep Learning学习工具利用word2vec对关键词进行聚类http://blog.csdn.net/zhaoxinfan/article/details/11069485原创 2014-04-09 14:48:15 · 2444 阅读 · 0 评论