Tika
张包峰
Distributed Computing
展开
-
Apache Tika:通用的内容分析工具
项目介绍Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。Tika是一个目的明确,使用简单的apache的开源项目。下图是Tika诞生的一个历史过程。Tika项目之初来源于Nutch项目(大家原创 2013-01-19 17:30:18 · 19361 阅读 · 3 评论 -
学术分享搜索平台——设计方案
项目背景有两类和我们大学生息息相关的产品。一类是微博,人人,豆瓣这些偏SNS的社交平台,推荐同学朋友的信息,帮助我们找到可能认识的人,可能喜欢的书,可能爱看的电影等等。另一类是学术相关的搜索引擎,比如Google Scholar,Microsoft Academic Search Engine,通过搜索关键字,提供一些匹配度最高的学术论文,提供很多便利。然而,学术搜索引擎是一个比较通用原创 2013-03-20 19:35:44 · 6156 阅读 · 8 评论