- 博客(9)
- 资源 (5)
- 收藏
- 关注
转载 nutch中的Configuration配置类
org.apache.nutch.util.NutchConfiguration类是Nutch爬虫的配置类,其中包括爬虫的初始化配置和运行时配置。说到NutchConfiguration类,我认为有必要提到Hadoop的Configuration类,即org.apache.hadoop.conf.Configuration。在Nutch早期开发版本中,Hadoop是Nutch项目的一部分,其中Ha
2012-05-31 16:44:30 1609
原创 使用javaMail发送邮件
类:MyAuthenticatorpackage sendEmail;import javax.mail.Authenticator;import javax.mail.PasswordAuthentication;class MyAuthenticator extends Authenticator { private String strUser; private
2012-05-31 10:26:00 715
原创 nutch1.0在linux系统下部署
总体上Nutch 可以分为2个部分:抓取部分和搜索部分。抓取程序抓取页面并把抓取回来的数据做成反向索引,搜索程序则对反向索引搜索回答用户的请求。抓取程序和搜索程序的接口是索引。两者都使用索引中的字段。实际上搜索程序和抓取程序可以分别位于不同的机器上。网页的抓取主要分为2种:Intranet crawling 和Whole-webcrawling。从名字可以很容易明白他们抓取
2012-05-28 11:32:59 1208
转载 nutch工作原理
Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawler和Search
2012-05-28 11:24:06 4300
原创 linux 下-bash: bin/nutch: Permission denied问题
因为没有对文件操作的权限需要授权对bin目录下的nutch文件chmod 755 nutch
2012-05-25 11:12:40 2753
转载 Nutch 在window下如何配置到eclipse中
网络上关于nutch1.4的配置和使用很少,官方网站提供的方法我研究了半天特别麻烦,而且发现弄完后有的依赖包找不到,我决定放弃使用。将这两天关于nutch1.4配置的另一种方法整理一下仅供参考!如有其它问题欢迎加1277140354一起交流学习!1、 配置安装JDK省略。我用的是JDK1.6,JDK6官方下载地址:http://www.java.net/download/jdk6/6u10
2012-05-24 18:05:58 2552
转载 如何学习Hibernate
Hibernate入门容易,掌握精通我也不敢自夸。我第一遍看Hibernate文档的时候也觉得很吃力,但不是因为Hibernate难掌握而感到吃力,是因为Hibernate文档处处都是持久层设计的经验和最佳实践。Hibernate文档准确的来说,绝大部分内容都在讲对象的持久层设计,而不是简单的Hibernate使用,使用问题查Java doc就够了。所以学习Hibernate,主要是在学习持久层的
2012-05-15 18:56:12 726
原创 java 向上取整
public class MathTest { public static void main(String [] args){ int i=23,j=8; System.out.println("结果:"+(double)i/(double)j); double r=Math.ceil((double)i/(double)j); System.out.println(
2012-05-14 15:19:39 8030
原创 使用lucene对重复内容建索引效果
lucene对重复内容建立索引,它不会发现并去除重复文档,而是保留所有的文档。如:如果对同一个文档建立10次索引,lucene的索引中会有相同的10个Document
2012-05-14 10:10:19 4761 3
数据结构试验 山东大学
2011-05-19
数据库课程设计-图书馆信息管理系统
2011-05-18
图形学第二个试验-多边形世界
2011-05-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人