数据挖掘
xuhui32
从事互联网行业,智慧城市建设行业
展开
-
Lucene的中文分词器IKAnalyzer
分词器对英文的支持是非常好的。 一般分词经过的流程: 1)切分关键词 2)去除停用词 3)把英文单词转为小写 但是老外写的分词器对中文分词一般都是单字分词,分词的效果不好。 国人林良益写的IK Analyzer应该是最好的Lucene中文分词器之一,而且随着Lucene的版本更新而不断更新,目前已更新到IK Analyzer 2012版本转载 2014-07-25 14:39:49 · 741 阅读 · 0 评论 -
高效正则表达式匹配实例:
高效正则表达式匹配实例:匹配中文字符的正则表达式: [\u4e00-\u9fa5] //匹配中文还真是个头疼的事,有了这个表达式就好办了 匹配双字节字符(包括汉字在内): [^\x00-\xff] //可以用来计算字符串的长度 //(一个双字节字符长度计2,ASCII字符计1) 匹配空白行的正则表达式: \n\s*\r //可以用来删除空白行 匹配HTML标记转载 2014-07-28 10:51:40 · 707 阅读 · 0 评论 -
基于距离的计算方法
1. 欧氏距离(Euclidean Distance) 欧氏距离是最易于理解的一种距离计算方法,源自欧氏空间中两点间的距离公式。(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离: (2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离: (3)两个n维向量a(x11,x12,…,x1n)与 b(转载 2014-08-20 15:00:57 · 1583 阅读 · 0 评论 -
JAVA解析XML格式字符串
转:http://ltjava.blog.sohu.com/56192443.htmlimport java.io.IOException;import java.io.StringReader;import java.util.List;import org.jdom.Document;import org.jdom.Element;import org.jdom转载 2014-08-19 14:31:17 · 604 阅读 · 0 评论