![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
分词器
xiaomin_____
努力~~
展开
-
ikanalyzer 词频计算
package com.test;import java.io.IOException;import java.io.Reader;import java.io.StringReader;import java.util.Arrays;import java.util.HashMap;import java.util.LinkedHashMap;import ja...原创 2015-09-11 00:04:07 · 81 阅读 · 0 评论 -
IK,ansj,mmseg4j分词性能比较
下载ik最新版本:IK Analyer 2012-FF hotfix 1 完整分发包这个版本是支持lucene4的.其主页为:https://code.google.com/p/ik-analyzer/下载ansj最新版本:ansj_seg下载mmesg4j最新版本https://code.google.com/p/mmseg4j/选择其中mmseg4j-1.9.1.v20130120...原创 2015-11-12 15:40:45 · 403 阅读 · 0 评论 -
lucene版本升级到4.6.0以上之后使用mmseg4j分词器遇到的问题
使用 mmseg4j 1.9.1 使用的是 lucene 4.3 没问题。 package com.artbulb.search.utils;import java.io.StringReader;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.TokenStr...原创 2015-11-27 21:11:22 · 106 阅读 · 0 评论 -
mmseg 分词器 同义词总结
mmseg 分词器 最多大分词是2个词这意味着 使用mmseg分词器,同义词分词,最大匹配只能匹配2个词的同义词。 如果使用mmesg分词器,需要把一些大于3个的词,加入扩展词库。 ...原创 2015-12-02 22:56:19 · 162 阅读 · 0 评论 -
中文分词器IK和Paoding技术对比
1. IK和Paoding的技术介绍一、Ik分词器介绍:优点:采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。采用了多子处理器分析模式,支持:英文字母(IP地址、Email、URL)、数字(日期,常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。优化的词典存储,更小的内存占用。支持用户词...原创 2015-12-03 16:02:50 · 112 阅读 · 0 评论 -
热更新 IK 分词使用方法
安装步骤: 1、到github网站下载源代码,网站地址为:https://github.com/medcl/elasticsearch-analysis-ik 注意,下载对应的版本: IK version ES version master 1.5.0 -> master 1.4.0 1.6.0 1.3.0 1.5.0 1.2.9 1.4.0 1.2.8 1.3.2 1.2.7 1.2.1...原创 2015-12-04 14:13:32 · 264 阅读 · 0 评论 -
es 同义词 热更新
Updating StopwordseditA few techniques can be used to update the list of stopwords used by an analyzer. Analyzers are instantiated at index creation time, when a node is restarted, or...原创 2015-12-04 14:24:34 · 460 阅读 · 0 评论 -
IKAnalyzer如何自定义远端词库
IKAnalyzer1.3.4要自定义我们自己的词库,而且我们可以随时新增分词,网上查了一圈没有相关资料,看来只有自己搞定了。这里大家需要熟悉HTTP协议中的Last-Modified、ETags这些概念,这样能更容易理解IKAnalyzer作者的设计思路。 观察了下IKAnalyzer分词器的配置文件IKAnalyzer.cfg.xml发现其中有这样一个选项:<!--用...原创 2015-12-05 21:23:53 · 100 阅读 · 0 评论 -
lucene4.7 分词器(三)
笔者比较推荐的中文分词器是IK分词器,在进入正式的讲解之前,我们首先对Lucene里面内置的几个分析器做个了解. 分析器类型基本介绍WhitespaceAnalyzer以空格作为切词标准,不对语汇单元进行其他规范化处理SimpleAnalyzer以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符StopAnalyzer该分析...原创 2015-12-06 01:07:38 · 78 阅读 · 0 评论 -
mmseg 同义词分析器 SolrSynonymParser
package synonym;import java.io.File;import java.io.FileInputStream;import java.io.FileReader;import java.io.IOException;import java.io.InputStreamReader;import java.io.Reader;import j...原创 2015-12-06 12:14:49 · 149 阅读 · 0 评论 -
es 同义词 热更新 1.1版本
/* * Licensed to Elasticsearch under one or more contributor * license agreements. See the NOTICE file distributed with * this work for additional information regarding copyright * ownership....原创 2015-12-07 00:41:18 · 260 阅读 · 0 评论 -
英文分词的算法和原理
英文分词的算法和原理根据文档相关性计算公式TF-IDF:http://lutaf.com/210.htmBM25:http://lutaf.com/211.htm分词质量对于基于词频的相关性计算是无比重要的英文(西方语言)语言的基本单位就是单词,所以分词特别容易做,只需要3步:根据空格/符号/段落 分隔,得到单词组过滤,排除掉sto...原创 2015-11-09 10:49:02 · 438 阅读 · 0 评论 -
中文分词原理
一、 为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。二、 ...原创 2015-11-09 10:48:43 · 117 阅读 · 0 评论 -
Java中文分词组件 - word分词
Java分布式中文分词组件 - word分词word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine...原创 2015-09-12 00:44:08 · 122 阅读 · 0 评论 -
利用word分词来对文本进行词频统计
word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能命令行脚本的调用方法如下:?123将需要统计词频的文本写入文件:text.txtchmod +x wfs.sh & wfs.sh -textFile=text.txt -statisticsResultFile=...原创 2015-09-12 00:45:16 · 627 阅读 · 0 评论 -
elasticsearch的实现全文检索
elasticsearch一个准实时的搜索引擎,基于lucene构建,它的主要强项还是在全文检索方面。工作中还是使用到了这部分功能,这里做一个简单的总结,可以使初次使用的人很快的配置和使用。一、全文检索的概念首先介绍全文检索的概念,就是对一篇文章进行索引,可以根据关键字搜索,类似于mysql里的like语句。全文索引就是把内容根据词的意义进行分词,然后分别创建索引,例如”你们的激情是因为什么事情...原创 2015-11-05 15:21:42 · 109 阅读 · 0 评论 -
布式搜索elasticsearch 中文分词集成
对于索引可能最关系的就是分词了 一般对于es 来说默认的smartcn 但效果不是很好 一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:安装ik插件plugin -install medcl/elasticsearch-analysis-ik/1.1.0下载ik相关配置词典文件到config目录cd configwge...原创 2015-11-05 15:31:45 · 105 阅读 · 0 评论 -
Lucene5学习之使用MMSeg4j分词器
MMSeg4j是一款中文分词器,详细介绍如下: 1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。 2、MMS...原创 2015-11-06 00:09:59 · 117 阅读 · 0 评论 -
中文分词器性能比较
摘要:本篇是本人在Solr的基础上,配置了中文分词器,并对其进行的性能测试总结,具体包括使用mmseg4j、IKAnalyzer、Ansj,分别从创建索引效果、创建索引性能、数据搜索效率等方面进行衡量。 具体的Solr使用方法假设读者已有了基础,关于Solr的性能指标见前期的Solr博文。前提: Solr提供了一整套的数据检索方案,一台四...原创 2015-11-07 12:35:53 · 135 阅读 · 0 评论 -
11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口:?12...原创 2015-11-07 12:37:40 · 107 阅读 · 0 评论 -
elasticsearch 1.1.0 mmseg 英文数字分词
elasticsearch 1.1.0 mmseg 插件的版本是1.2.2 版本。该版本没有解决英文数字分词问题。比如 user123。分词后 user123 解决1:mmseg插件升级 elasticsearch-analysis-mmseg-1.4.0。https://github.com/medcl/elasticsearch-analysis-mmseg/com...原创 2015-11-08 00:09:53 · 224 阅读 · 0 评论 -
elasticsearch 分词器配置注意事项
//插件代码package org.elasticsearch.index.analysis;public class MMsegAnalysisBinderProcessor extends AnalysisModule.AnalysisBinderProcessor{ public void processAnalyzers(AnalysisModule.Analys...原创 2015-11-09 10:48:11 · 318 阅读 · 0 评论 -
中文分词 mmseg4j 的词库格式
原文出处:http://blog.chenlb.com/2009/04/chinese-segment-mmseg4j-dictionary-format.html有个网友 email 问题词库格式怎么样?他想为繁体中文进行分词,所以想词库换成繁体的。很遗憾我目前还没找到繁体版的词库。目前 mmseg4j 的词库全是简体版,包括 chars.dic、units.dic、words.di...原创 2015-11-09 10:48:29 · 162 阅读 · 0 评论 -
Java开源分词系统IKAnalyzer学习(七) 词库加载分词
词库加载模块的源码:Java开源分词系统IKAnalyzer学习(四) 词库加载源代码——Dictionary类Java开源分词系统IKAnalyzer学习(五) 词库加载源代码——DictSegmenty类Java开源分词系统IKAnalyzer学习(六) 词库加载源代码——Hit类 首先这个词典管理类Dictionary类采用的设计模式是单立模式,实现的代码:...原创 2015-12-10 11:48:28 · 216 阅读 · 0 评论