lucene
wzh20099
这个作者很懒,什么都没留下…
展开
-
lucene如何抽取html网页
要解析html页面 就要对html中的标签做处理 先准备几个工具类 [code="java"]package com.cs.parser.util; import org.htmlparser.Node; public class PageContent { private StringBuffer textBuffer; private int ...原创 2010-10-10 14:45:31 · 232 阅读 · 0 评论 -
lucene如何解析PPT文档
加入jar包(poi-3.0.2-FINAL-20080204.jar poi-contrib-3.0.2-FINAL-20080204.jar poi-scratchpad-3.0.2-FINAL-20080204.jar ) [code="java"]package com.cs; public interface Parsable { public String ...原创 2010-10-10 14:52:27 · 167 阅读 · 0 评论 -
lucene如何解析pdf文档
XPDF使用文档 XPDF版本 3.0.2 日期 2008-11-26 文档版本 V1.0 1、概述 读取PDF文件中的文本内容,可以使用开源项目xpdf。下载地址:http://www.foolabs.com/xpdf/download.html。 注意使用:xpdf-3.02pl2-win32.zip以及xpdf-chinese-simplified.tar.gz(支持中文...原创 2010-10-10 15:04:25 · 288 阅读 · 0 评论 -
lucene如何解析Doc文档
加入poi-scratchpad-3.0.2-FINAL-20080204.jar到lib下 [code="java"]package com.cs; public interface Parsable { public String getTitle() ; public String getContent() ; public String getSummary()...原创 2010-10-10 15:11:52 · 99 阅读 · 0 评论 -
lucene根据文件类型自动解析的工厂类
阅读本章之前 请先参考其他几篇解析各类文档的章节 [url]http://wuzhaohuixy-qq-com.iteye.com/blog/780437[/url] [url]http://wuzhaohuixy-qq-com.iteye.com/blog/780431[/url] [url]http://wuzhaohuixy-qq-com.iteye.com/blog/780426[...原创 2010-10-10 15:22:40 · 106 阅读 · 0 评论 -
lucene入门到项目开发
加入jar包 lucene-core-2.4.0.jar je-analysis-1.4.0.jar lucene-highlighter-2.4.1.jar lucene-analyzers-2.4.1.jar 先准备下工具类 [code="java"]package com.cs.lucene.utils; import java.io.BufferedReade...原创 2010-10-10 15:53:19 · 272 阅读 · 0 评论