word分词
sdfjlkjsdfsaldfsdf
safasfds
展开
-
给LUKE增加word分词器
word分词是一个Java实现的分布式中文分词组件 1、下载http://luke.googlecode.com/files/lukeall-4.0.0-ALPHA.jar(国内不能访问) 2、下载并解压Java中文分词组件word-1.0-bin.zip 3、将解压后的 Java中文分词组件word-1.0-bin/word-1.0 文件夹里面的4个jar包解压到当...2015-04-07 21:12:03 · 177 阅读 · 0 评论 -
word v1.3 发布,Java 分布式中文分词组件
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控制分词结果,还能使用词频统计、词性标注、同义标注...2015-08-29 09:51:28 · 249 阅读 · 0 评论 -
正确地猜测用户的意图
当我们在Collins词典中输入“voilent”的时候,会有如下提示:当我们在Google中搜索“voilent”的时候,也会有如下提示:Collins和Google是如何做到的呢?它是怎么知道我们把i和o的位置弄反了呢?当我们输入一个词,而这个词不存在于Google的倒排索引或者Collins的词典中时,我们就可以假设用户输入可能有误,接着我们通过算法找出一个和用户的输入...2015-06-03 19:17:33 · 233 阅读 · 0 评论 -
利用word分词提供的文本相似度算法来辅助记忆英语单词
本文实现代码:利用word分词提供的文本相似度算法来辅助记忆英语单词本文使用的英语单词囊括了几乎所有的考纲词汇共18123词:/** * 考纲词汇 * @return */public static Set<Word> getSyllabusVocabulary(){ return get("/word_primary_school.txt",...2015-06-03 19:15:26 · 208 阅读 · 0 评论 -
基于word分词提供的文本相似度算法来实现通用的网页相似度检测
实现代码:基于word分词提供的文本相似度算法来实现通用的网页相似度检测运行结果:检查的博文数:1281、检查博文:192本软件著作用词分析(五)用词最复杂99级,相似度分值:Simple=0.968589 Cosine=0.955598 EditDistance=0.916884 EuclideanDistance=0.00825 ManhattanDistance=0.00120...2015-06-01 16:25:59 · 634 阅读 · 0 评论 -
实现JDK没有提供的AtomicFloat
Java8内置了强大的多核支持,我们在处理数据的时候,如果不充分利用多核,都好不意思跟老板打招呼。我们经常会使用AtomicInteger来做计数器,如下所示:List<String> words = Files.readAllLines(Paths.get("src/main/resources/dic.txt"));AtomicInteger i = new Ato...2015-05-22 04:34:35 · 149 阅读 · 0 评论 -
利用word分词通过计算词的语境来获得相关词
我们如何通过计算词的语境来获得相关词呢? 语境的定义是:在一段文本中,任意一个词的语境由它的前N个词和后N个词组成。相关词的定义是:如果两个词的语境越相似,那么这两个词就越相似,也就越相关。 算法由两个步骤组成:1、从大规模语料库中计算每一个词的语境,并使用词向量来表示语境。实现代码2、把求两个词的相似度的问题转换为求这两个词的语境的相似度的问题。通过计算语境的相似...2015-05-21 18:32:12 · 193 阅读 · 0 评论 -
利用word分词来对文本进行词频统计
word分词中的 org.apdplat.word.WordFrequencyStatistics 类提供了词频统计的功能命令行脚本的调用方法如下:将需要统计词频的文本写入文件:text.txtchmod +x wfs.sh & wfs.sh -textFile=text.txt -statisticsResultFile=statistics-result.txt程序...2015-05-21 13:28:25 · 336 阅读 · 0 评论 -
利用word分词来计算文本相似度
word分词提供了多种文本相似度计算方式:方式一:余弦相似度,通过计算两个向量的夹角余弦值来评估他们的相似度实现类:org.apdplat.word.analysis.CosineTextSimilarity用法如下:String text1 = "我爱购物";String text2 = "我爱读书";String text3 = "他是黑客";TextSimil...2015-05-20 06:39:12 · 181 阅读 · 0 评论 -
如何利用多核提升分词速度
在进行中文分词的时候,我们如何利用多核提升分词速度呢?计算机很早就进入多核心时代了,不充分利用多核CPU是对计算资源的一种极大的浪费。在对一段文本进行分词的时候,word分词器的处理步骤如下:1、把要分词的文本根据标点符号分割成句子;2、以分割后的句子为基本单位进行分词;3、把各个句子的分词结果按原来的句子顺序组合起来;word分词器充分考虑到了利用多核提升分词速度这个...2015-05-12 23:45:05 · 257 阅读 · 0 评论 -
cws_evaluation v1.1 发布,中文分词器分词效果评估对比
cws_evaluation是一个Java开源项目,用于对中文分词器的分词效果进行评估对比,目前支持9大中文分词器。分别是:word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器、jcseg分词器、fudannlp分词器、smartcn分词器、jieba分词器、stanford分词器。 在1.1中,将9大中文分词器都升级到了最新版本,并采用Maven构建项目,...2015-05-12 10:19:43 · 178 阅读 · 0 评论 -
11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口:/** * 获取文本的所有分词结果, ...2015-05-10 02:23:46 · 600 阅读 · 0 评论 -
中文分词算法 之 基于词典的全切分算法
在使用 基于词典 的分词方法的时候,如果我们解决了下面4个问题:1、如何把一句话中所有的词找出来呢?只要词典中有就一定要找出来。2、如何利用1中找出来的词组合成完整的句子?组合成的句子要和原句一样。3、如何保证2中组合而成的句子包含了所有可能的词序?4、如何从所有可能的词序中选择最完美的一种作为最终的分词结果?那么我们的分词方法称之为:基于词典的全切分算法。 ...2015-05-09 19:07:09 · 529 阅读 · 0 评论 -
中文分词之9271组反义词
这9271组反义词出自Java分布式中文分词组件 - word分词,这里列出50组反义词,更多同义词请看这里。一丘之貉 比众不同一丝不苟 草草了事 粗心大意 敷衍了事 粗枝大叶一举两得 事倍功半 顾此失彼一了百了 没完没了一事无成 卓有成效一会儿 长时间 好一阵一元论 多元论一再 不再一刀两断 藕断丝连 拖泥带水一切 少数 部分一劳永逸 徒劳无...2015-05-06 15:00:12 · 325 阅读 · 0 评论 -
一种利用ngram模型来消除歧义的中文分词方法
这里的歧义是指:同样的一句话,可能有两种或者更多的切分方法,这些切分结果,有的正确,有的不正确。消除歧义的目的就是从切分结果中挑选切分正确的。假设我们要切分句子:结婚的和尚未结婚的,使用逆向最大匹配和正向最大匹配算法的结果如下:?12逆向最大匹配:[结婚, 的, 和, 尚未, 结婚, 的]正向最大匹配:[结婚, 的, 和尚, 未结, 婚, 的...2015-05-06 04:44:50 · 580 阅读 · 0 评论 -
一种基于词性序列的人名识别方法
在人名识别:[我, 爱, 杨, 尚, 川] 中,爱、杨、尚都是姓,会有多个识别结果,那么我们如何消歧并选择一个最合理的结果呢?下面看看人名识别:[我, 爱, 杨, 尚, 川] 的计算机分析过程,此过程的分析程序出自Java分布式中文分词组件 - word分词:人名识别:[我, 爱, 杨, 尚, 川]识别到人名:爱杨尚识别到人名:杨尚川识别到人名:尚川开始从多个识...2015-05-05 20:20:59 · 312 阅读 · 0 评论 -
中文分词之11946组同义词
这11946组同义词出自Java分布式中文分词组件 - word分词,这里列出50组同义词,更多同义词请看这里。一下子 一会儿 一忽儿 转瞬 须臾一丘之貉 全无分别 半斤八两 泾渭分明 难兄难弟一丝一毫 一点一滴一丝不挂 寸丝不挂 袒裼裸裎 赤身露体一丝不苟 小心翼翼 小心谨慎 尽心竭力 精益求精 谨小慎微一举两得 一石二鸟 一箭双雕 一箭双鵰 两全其美 面面俱到一...2015-04-30 21:17:22 · 279 阅读 · 0 评论 -
Java分布式中文分词组件word分词v1.2发布
word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch、Luke插件。 自1.0之后,在1.1和1.2中,word分词有了重大改进,优化了分词算法、利用多线程提升分词速度、支持分布式...2015-04-16 00:09:02 · 140 阅读 · 0 评论 -
Java分布式中文分词组件 - word分词
Java分布式中文分词组件 - word分词word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。能通过自定义配置文件来改变组件行为,能自定义用户词库、自动检测词库变化、支持大规模分布式环境,能灵活指定多种分词算法,能使用refine功能灵活控...2014-04-29 11:29:50 · 326 阅读 · 0 评论