nutch
水镜123
ai,springboot,docker
展开
-
windows环境下nutch2.x 在eclipse中实现抓取数据存进mysql详细步骤
nutch2.x 在eclipse中实现抓取数据存进mysql步骤 最近在研究nutch,花了几天时间,也遇到很多问题,最终结果还是成功了,在此记录,并给其他有兴趣的人提供参考,共同进步。 1、环境搭建 1)准备eclipse 安装Maven ,svn 2)在svn中下载官方2.x最新源码(参考官方http://wiki.apache.org/nutch/RunNutchInEclip原创 2013-09-30 13:48:01 · 3697 阅读 · 8 评论 -
Nutch 插件系统浅析
Nutch 插件系统浅析 本文中,您可以通过研究分析 Nutch 插件系统的内部架构和流程,来掌握 Nutch 插件系统的核心设计。架构师可参考 Nutch 的插件系统设计出更加灵活的系统架构。 Nutch 基本情况 Nutch 是 Apache 基金会的一个开源项目,它原本是开源文件索引框架 Lucene 项目的一个子项目,后来渐渐发展成长为一个独立的开源项目。它基于 Java 开转载 2013-09-29 09:14:40 · 1066 阅读 · 0 评论 -
nutch源代码阅读心得
nutch源代码阅读心得 http://www.javaeye.com/topic/570440 主要类分析: 一、 org.apache.nutch.crawl.Injector: 1,注入url.txt 2,url标准化 3,拦截url,进行正则校验(regex-urlfilter.txt) 4,对符URL标准的url进行map对构造,在构造转载 2013-09-27 09:11:59 · 1543 阅读 · 0 评论 -
Nutch 2.x maven 找不到org.restlet.ext.jackson 解决办法
在eclipse中导入nutch2.0 (eclipse要安装maven,svn) svn 资源中增加: https://svn.apache.org/repos/asf/nutch/branches/2.x 检出 转成maven工程 ,不过最后发现有两个包maven没有找到: org.restlet.jse原创 2013-09-27 10:40:32 · 2411 阅读 · 0 评论 -
Hadoop源码分析 之Configuration配置
本文转自:http://blog.csdn.net/dahaifeiyu/article/details/6655652 最近也觉得应该仔细的看一下Hadoop的源代码了,以前只是懂得基本的架构了使用,最近在做一个系统,觉得很多东西可以借鉴MapReduce的 可扩展性。但是当我们的系统的0.1版本出现的时候才发现我们的配置上很混乱。于是我自己的看了一下Hadoop的Configur转载 2013-09-27 14:27:03 · 1042 阅读 · 0 评论