![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nutch/hadoop
弓小长
这个作者很懒,什么都没留下…
展开
-
在Eclipse下配置nutch1.0 及1.1
: 首先从http://apache.etoak.com/lucene/nutch/ 下载最新的nutch.在这里我使用的是nutch1.0.: 在eclipse中新建立一个Java Project. 名字自己定义(Nutch). 选择"Create project from existing source",指向自己nutch-1.0的目录.: 点击下一步,切换到"Libraries"选择"Add Class Folder..." 按钮,从列表中选择"conf". ---- Add project '转载 2010-08-03 19:34:00 · 495 阅读 · 0 评论 -
Linux下Nutch分布式配置和使用
<br />转自:http://blog.csdn.net/zklth/archive/2010/05/24/5618963.aspx<br /> <br /> <br /><br />Linux下Nutch分布式配置和使用<br /> <br />目 录<br />介绍<br />0 集群网络环境介绍<br />1 /etc/hosts文件配置<br />2 SSH无密码验证配置<br />2.1配置所有节点之间SSH无密码验证<br />3 JDK安装和Java环境变量配置<br />3.1 安装转载 2010-08-03 19:42:00 · 677 阅读 · 0 评论 -
Windows下通过cygwin架设sshd服务
<br /><br />转自:http://hi.baidu.com/angivo/blog/item/7f43bef5ade0e42fbc3109f7.html<br />转载:http://hi.baidu.com/qiraosky/blog/item/35a7f144d9f3488ab3b7dc2e.html <br />版权归 原创作者所有。<br /> <br /> <br /> <br />sshd服务是一种安全连接,它能让你访问服务器上的命令行界面。Windows本身没有提供该服务,所以我们可转载 2010-08-19 01:44:00 · 2320 阅读 · 0 评论 -
中文分词技术
<br /><br />一、 为什么要进行中文分词?<br />词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。<br />Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。<br />二、 中文分词技术的分类<br />我们讨论的分词算法可分为三大类:基转载 2010-08-16 17:03:00 · 1379 阅读 · 0 评论 -
集群上部署hadoop
<br />本文主要介绍在集群上部署hadoop,构建HDFS<br /><br />1、相关准备<br /> 下载hadoop: http://hadoop.apache.org/core/releases.html(以hadoop-0.20.2 为例)<br /> 下载JDK1.6(jdk-6u18-linux-x64-rpm.bin)<br /><br />2、硬件环境准备<br /> 四台机器(系统都为64位的Centos 5),通过hostname转载 2010-08-20 22:16:00 · 873 阅读 · 0 评论