中文分词
KerryMo
在路上...
展开
-
简单实现中文分词中的常用字过滤
首先感谢兽族的荣耀朋友的文章简单编写的中文分词程序 ,我开始接触搜索引擎这个领域以及写这篇随笔都离不开他的精彩文章的帮助:) 下面切入正题。 名词:分析器(Analyzer),词单元(Tokens),高亮(Highlight)。 实现背景: 当在搜索引擎文本框中写入源词时,分析器(Analyzer)会将源词拆分成多组词单元(Tokens)。之后搜索引擎转载 2009-06-22 11:20:00 · 1118 阅读 · 0 评论 -
baidu分词算法分析之一
查询处理以及分词技术随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费转载 2009-06-22 14:24:00 · 543 阅读 · 0 评论 -
baidu分词算法分析之三
之三:对百度分词算法的进一步分析 上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误. 那么以前的分析有什么漏洞呢?我们推导百度分词有反向最大匹配的依据是百度将"北京华烟云"分词为,从这里看好像采用了反向最大匹配,因为正向最大匹配的结果应该是,但是由此就推论说转载 2009-06-22 14:29:00 · 614 阅读 · 0 评论 -
逆向最长匹配算法的实现
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 逆向最长匹配法是基于字符串匹配的一种分词算法,即按从右至左的顺序对句子循环扫描字符串,并与所提供的关键词表进行比较,如存在则提取出该串作转载 2009-06-22 10:59:00 · 1926 阅读 · 0 评论 -
怎样过滤汉字里的标点符号
如 “去符号标号!!当然。” 过滤后变为“去符号标号当然”java code:public class Test { public static void main(String... args) { String str = "去符号标号!!当然。"; str = str.replaceAll("//pP", ""); Syst转载 2009-06-22 11:23:00 · 1175 阅读 · 0 评论 -
最大子序列算法的JAVA实现
import java.util.Arrays; /** * 最大子序列的算法实现。 * 最大子序列,就是一段数字数列中,总和最大的一段。 * * @author 赵学庆,Java世纪网(java2000.net) * */ public class T { int[] a = { -2, 11, -4, 13, -5, 2, -5, -3, 12, -9 };转载 2009-06-22 11:28:00 · 579 阅读 · 0 评论 -
经典算法——求最大子序列和
比较经典的算法问题,能够很好的体现动态规划的实现,以一点“画龙点睛” 大大精简了算法复杂度,且实现简单。本文中实现了4种:一般 maxSubSequenceSum0 O(n^3)简单优化过的算法 maxSubSequenceSum1 O(n^2)分治法优化的算法 maxSubSequenceSum2 O(n*log(n))动态规划的算法 maxSubSequenceSum3转载 2009-06-22 11:37:00 · 807 阅读 · 0 评论 -
构建一个好的HashMap
Java 理论与实践: 构建一个更好的 HashMapConcurrentHashMap 如何在不损失线程安全的同时提供更高的并发性 级别: 初级转载 2009-06-22 12:01:00 · 546 阅读 · 0 评论 -
中文分词技术(一)
一、什么是分词: 分词就是将连续的字(词)序列按照一定的规范重新组合成词序列的过程。《信息处理用现代汉语分词规范》中对分词的定义是:从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程。对于英文分词,只要简单地以空格为分界符就能很好地把句子分析出来。这是由于英文是以词为单位的。不同于英文,计算机对中文分词时,由于中文句子中词与词之间是没有空格的,而且,两个字组合起来看似是一转载 2009-06-22 13:20:00 · 1253 阅读 · 0 评论 -
baidu分词算法分析之二
Spelling Checker拼写检查错误提示(以及拼音提示功能) 拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询 给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是 怎么实现这一功能的. 我们分析拼写检查系统关注以下几个问题: (1)系统如何判断用户的输入是有可能发生错误的查询呢? (2)转载 2009-06-22 14:26:00 · 547 阅读 · 0 评论 -
中文分词算法
中文分词一向是搜索引擎中的难点,总结了一个简单的算法,由此可以推出逆向最大匹配,当然还有最大概率匹配import java.lang.*;import java.io.*;import java.util.*;public class FMMSegment{Dictionary dic;public FMMSegment(){}public FMMSegment(Dictionary newDic转载 2009-06-22 13:42:00 · 624 阅读 · 0 评论 -
构建基于词典的Lucene分类器
Lucene是Apache的一个基于Java的开放源代码的搜索软件包,也是目前最为流行的搜索软件包。但是对于绝大多数中文用户来说其提供的两个中文分析器(ChineseAnalyzer和CJKAnalyzer)的能力又太弱了,因此我们有必要开发适合自己的中文分析器。这篇文章中给出了一个基于词典的简单的实现。 实现这个中文分析器的过程就像是一场精彩的赛事。好了,让我们马上开始。 冗长的代码常常是复杂性转载 2009-06-22 13:37:00 · 857 阅读 · 0 评论 -
中文分词与词性标注
概况介绍中文分词与词性标注是自然语言处理的第一个阶段,是上层处理的基础。分词的主要研究内容是歧义切分和未登录词识别。歧义切分是指对同一个文字片断具有不同的切分方式,如“结合成分子”这句话就有好几种切分方法,但是正确的只有一种,能正确的进行歧义切分是分词的一个难点。分词的另一个难点是未登录词识别,未登录词指的是在词表中没有收录的词,主要包括时间词、数词、人名、地名、机构名等。词性标注的主要研究内容是转载 2009-06-22 11:20:00 · 5921 阅读 · 0 评论 -
中文分词常用算法
正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径等是分词系统常用的算法。判断一个分词系统好坏,关键看两点:一个是消歧能力;一个是词典未登录词的识别,比如人名,地名,机构名等。 下面我们以百度为例,看看几种不同的算法对切词的影响。 首先,讲讲百度的分词时机或者条件问题,是否是个中文字符串百度就拿来切一下呢?非也,要想被百度的分词程序荣幸的切割一下也是要讲条件的,哪能转载 2009-06-22 11:57:00 · 1580 阅读 · 0 评论 -
JAVA入门教程
博客本来升级后,用来的数据不再保留。后来觉得一些基础的教程对初学者还是有点帮助的,所以把以前的博客部分教程重新加入到新博客中,方便初学者的学习。JDK1.5下载与安装 浏览 Eclipse3.2与语言包的下载和安装 浏览 tomcatPluginV3 插件安装以及tomcat5 .0配置 浏览 tomcat5 .0安装 浏览tomcat5.5安装与配置 浏览 Tomcat5.5配置MySQL转载 2009-06-22 13:34:00 · 545 阅读 · 0 评论 -
Lucene中文分词
Apache Lucene作为一个开放源码的搜索软件包应用越来越广泛,但是对于中文用户来说其提供的两个中文分词器(CJKAnalyzer、ChineseAnalyzer)的功能又太弱了。所以迫切需要开发自己的中文分词器,而开发适用的分词器是一项很有挑战的工作。我想在文章中实现一个中文分词器,让它实现机械分词中最简单的算法--正向最大匹配法。目前普遍认为这一算法的错分率为1/169,虽然这不是一个精转载 2009-06-22 13:35:00 · 635 阅读 · 0 评论 -
Lucene:基于Java的全文检索引擎简介
« 从 汉化 到 国际化 | (回到Blog入口)|(回到首页) | Resin学习笔记 » Lucene:基于Java的全文检索引擎简介作者:车东 发表于:2002-08-06 18:08 最后更新于:2009-03-20 23:03版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明。http://www.chedong.com/tech/luce转载 2009-06-22 15:40:00 · 574 阅读 · 0 评论 -
基于正向最大匹配法的Lucene分词器
fromhttp://www.lucene.org.cn/read.php?tid=49(Lucene 中文论坛 tidy) Apache Lucene作为一个开放源码的搜索软件包应用越来越广泛,但是对于中文用户来说其提供的两个中文分词器(CJKAnalyzer、ChineseAnalyzer)的功能又太弱了。所以迫切需要开发自己的中文分词器,而开发适用的分词器是一项很有挑战的工作。我转载 2009-06-22 11:05:00 · 1201 阅读 · 0 评论 -
基于既定词表的自适应汉语分词技术研究
【摘要】 本文提出了一种汉语分词算法。在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。碧森尤信 Study of self-adaptive matchi转载 2009-06-22 11:06:00 · 893 阅读 · 0 评论 -
搜索引擎之中文分词实现(java版)
前几天读到google研究员吴军的数学之美系列篇,颇有感触。而恰好自己前段时间做了个基于统计语言模型的中文切分系统的课程项目,于是乎,帖出来与大家共同学习。分词技术在搜索引擎,信息提取,机器翻译等领域的重要地位与应用就不敖述了。步入正题:) 一、 项目概述本切分系统的统计语料是用我们学校自己开放的那部分,大家可以在 这里 下载,中文字符约184万,当然这都是已切分好了的,可以用此建立转载 2009-06-22 11:17:00 · 1266 阅读 · 0 评论 -
中文分词开源程序下载
本中文分词是基于匹配模式开发的中文分词程序,为本人练手作品。也可以直接使用。但不建议。因为整体架构有一些基础性问题。不过做为开发中文分词的参考,相信还是有一定价值的。 最近吕震宇老师发布了ICTCLAS的C#版SharpICTCLAS。很优秀的中文分词程序。我的这个和它根本不是一个级别的。不过在自己的应用中,估计还是不能直接拿SharpICTCLAS就用。因为现在中文分词不仅仅关注准转载 2009-06-22 11:18:00 · 703 阅读 · 0 评论 -
实战 Lucene,第 1 部分: 初识 Lucene
实战 Lucene,第 1 部分: 初识 Lucene文档选项打印本页将此页作为电子邮件发送级别: 初级朋 周登 (zhoudengpeng@yahoo转载 2009-06-22 15:33:00 · 396 阅读 · 0 评论