自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 linux下实现文件转移的sh脚本

实现目标:CN目录下有若干文件夹,并且每个文件夹中有一系列以CN开头的子文件夹,现要求将CN开头的这些子文件夹实现按文件夹名进行组织存放,例如将/home/CN/temp/CN20081478023的文件夹存放到/home/CN/2008/1478/CN20081478023,则shell命令如下:#!/bin/bash# forcount=1for file in ../CN/*...

2010-08-24 23:28:10 202

原创 java 判断pdf文档是否已损坏

      最近利用爬虫上网下了很多pdf文档,但有一小部分由于网络不稳定等原因,在下载过程中出现了错误,而网上又缺少批量判断的工具,因此调研了一些开源工具,写了一个小程序!      需要的jar包:      1、bouncycastle.jar   http://d.download.csdn.net/down/474865/dog3752        2、iText ...

2010-07-14 13:17:29 5121

原创 Linux Shell编程入门[转载]

由于项目需要,最近需要写一些shell脚本,苦于无基础,转载一些文档先学习下: 关于变量,还需要知道几个与其相关的Linux命令。 env用于显示用户环境区中的变量及其取值;set用于显示本地数据区和用户环境区中的变量及其取值;unset用于删除指定变量当前的取值,该值将被指定为NULL;export命令用于将本地数据区中的变量转移到用户环境区。 下面我们来看一个更复杂的例子,结...

2010-06-24 22:32:54 143

原创 eclipse 无法启动 JVM terminated. Exit code=-1

今天eclipse启动时弹出一个框框:    eclipse 无法启动 JVM terminated. Exit code=-1    ......原因:    eclipse.ini中内存设置过大。修改:eclipse目录下eclipse.ini的配置如下:-showsplashcom.genuitec.myeclipse.product--launcher....

2010-06-24 16:01:24 187

Nutch1.0在eclipse中运行问题之解决

今天按照前面几篇文章所述之操作解决了程序中的报错,但是在调试运行过程中会出现如果错误.本问题主要针对windows操作系统.[b]问题一:[/b]现贴出:2010-03-25 21:42:33,937 WARN fs.FileSystem (FileSystem.java:(1440)) - uri=file:///javax.security.auth.login.LoginE...

2010-03-25 21:51:28 128

Nutch1.0导入eclipse错误解决

Nutch1.0导入eclipse工程后,一般的工程都会有两个错误,nutch的official 1.0 release版本中,这两个问题因为licensing issues没有修复。接下来的就是最关键的部分了。修改---- src\plugin\parse-rtf\src\java\org\apache\nutch\parse\rtf下 RTFParseFactory.java添加--...

2010-03-25 16:05:03 131

关于本人及本博客文章的一些说明

本人专业为web数据挖掘,对于web爬虫和信息抽取有一定的了解,并做了一些相关研究,现今想学习nutch的一些知识,以丰富自己的知识,指导自己的研究。由于nutch源码比较复杂,本人准备从基础入手,而入手资料主要来源于互联网,所以本博客很多文章都是我为了学习从不同的数据源转载而来,很多不是自己的原创,这里加以说明。在以后对nutch的逐步学习过程中,我会将自己的心得体会一一记录,与大家分享,希...

2010-03-24 13:36:22 103

nutch工程源码导入Eclipse过程

测试环境Nutch release 0.9Eclipse 3.3 - aka EuropaJava 1.6开始之前Setting up Nutch to run into Eclipse can be tricky, and most of the time you are much faster if you edit Nutch in Eclipse but r...

2010-03-24 13:27:59 115

开源搜索引擎Nutch初体验

Nutch的源码,它的作者和Lucene是一个人,但除了使用基于Lucene的索引和检索模块外,它还包括了crawler、crawl frontier、反向链接数据库、Web检索前端等其它组件。它至少有两大亮点决定了它是目前最好的开源搜索引擎实现,一个是基于Lucene的高效索引和检索功能,另一个是基于Apache的另一开源项目Hadoop实现的类似于Google的分布式文件系统,特别是它大量使用...

2010-03-23 21:26:44 124

Nutch中Injector的过程

Injector过程主要分成两个过程,而且这两个过程是两个独立的Map/Reduce任务,前一个任务只有Map,后一个任务是一个完整的Map/Reduce过程。在详细介绍之前,先看inject()的主调用代码:代码1:public void inject(Path crawlDb, Path urlDir) throws IOException { if (LOG.isI...

2010-03-23 20:43:53 198

Nutch1.0中Index的过程

Index阶段就一个Map/Reduce任务,其作用主要是负责为导入的所有的segment建索引,先看一下其主调用函数Indexer.index()函数。代码:public void index(Path luceneDir, Path crawlDb, Path linkDb, List segments) throws IOException { LOG.info("I...

2010-03-23 20:42:05 116

Nutch中写crawlDB的过程

在爬取网一个页面之后,会解析出一些,这些键值对基本上分为三类:(1) 刚爬取的页面的url,及其对应的CrawlDatum对象,这时其CrawlDatum对象保存的一般页面分析后的一些信息,如爬取时间,分值等;(2) 从刚爬取的页面中解析出来的outlinks, 及其对应的CrawlDatum对象, 这时其CrawlDatum对象保存的一般都是一些初始化的信息,其状态一般也为unfetch...

2010-03-23 20:40:30 102

nutch安装,使用,二次开发入门(转)

关键字: cygwin nutch 安装 1.1 Nutch安装 参考资料:http://www.blogjava.net/dev2dev/archive/2006/02/01/29415.aspx Nutch在Windows中安装之细解 由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境。 1)安装cygwin ...

2010-03-23 17:10:36 174

剖析NUTCH爬虫

1.    简介 开源项目NUTCH搜索引擎大致包括三个部分: (1)  爬虫:寻找并抓取网页 (2)  网页库:存储已知URL和已抓取网页的数据库 (3)  索引器:解析网页并按照主题字典建立索引 2. NUTCH命令脚本 NUTCH使用多个"bin/nutch"命令脚本进行操作,其中每个脚本命令与一个java类相对应 对于整个网络网页的抓取,你需要利用下面的命令逐步进行: $ bin/nutc...

2010-03-23 17:07:59 119

webharvest1-bin.zip

webharvest是一个开源的java桌面程序,能够从论坛、网站上下载定制你自己想要的东西。因为开源,所以很好用,同时也是一个学习java和xml的好东西

2009-07-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除