全文检索
MrGrant
这个作者很懒,什么都没留下…
展开
-
ElasticSearch概述
1、ElasticSearch架构概述ES优点:ES应用场景:ES核心概念:ES与RDBMS的比较:文档结构:原创 2019-10-15 15:53:04 · 248 阅读 · 0 评论 -
Lucene文件检索项目实战
1、需求分析假设有一批文档,格式有DOC、DOCX、PPT、PPTX、TXT、PDF这几种,实现一个类似百度文库的文件检索系统,需求如下。(1)能够对文件名进行检索。(2)能够对文件内容进行检索。(3)能够下载检索到的文件。(4)能够实现关键字的高亮。2、架构设计概括如下,文件存储系统中存放了不同类型的文件,后台通过程序提取出文件名和文件内容,使用Lucene对文件名和文件内容进行...原创 2019-10-14 17:07:52 · 1554 阅读 · 4 评论 -
全文检索几种词向量模型
1、倒排索引模型2、布尔检索类型3、TF-IDF权重计算下面是TF-IDF的JAVA代码实现。public class TFIDF { public double tf(List<String> doc,String term){ double termFrequency = 0; for (String str : doc) {...原创 2019-09-18 18:47:31 · 869 阅读 · 0 评论 -
Lucene提供的几种分词器
1、几种lucene提供的分词器下面是几种分词器的代码实现示例。import org.apache.lucene.analysis.*;import org.apache.lucene.analysis.cjk.CJKAnalyzer;import org.apache.lucene.analysis.core.KeywordAnalyzer;import org.apache.luc...原创 2019-09-23 17:09:16 · 978 阅读 · 0 评论 -
使用Tika进行文档解析抽取
1、文本内容抽取文件搜索的第一要务是抽取文件内容,我们使用Apache Tika。Apache Tika是一个用户文件类型检测和文件内容提取的库,Apache顶级项目,可检索超过1000中类型的文档,广泛应用于搜索引擎、内容分析、文本翻译、数字资产管理等。主要特点如下:(1)统一解析器接口(2)低内存占用(3)快速处理(4)灵活元数据(5)解析器集成(6)MIME类型检测(7)语...原创 2019-09-25 17:37:17 · 3916 阅读 · 0 评论