- 博客(14)
- 资源 (1)
- 收藏
- 关注
原创 linux下实现文件转移的sh脚本
实现目标:CN目录下有若干文件夹,并且每个文件夹中有一系列以CN开头的子文件夹,现要求将CN开头的这些子文件夹实现按文件夹名进行组织存放,例如将/home/CN/temp/CN20081478023的文件夹存放到/home/CN/2008/1478/CN20081478023,则shell命令如下:#!/bin/bash# forcount=1for file in ../CN/*...
2010-08-24 23:28:10 237
原创 java 判断pdf文档是否已损坏
最近利用爬虫上网下了很多pdf文档,但有一小部分由于网络不稳定等原因,在下载过程中出现了错误,而网上又缺少批量判断的工具,因此调研了一些开源工具,写了一个小程序! 需要的jar包: 1、bouncycastle.jar http://d.download.csdn.net/down/474865/dog3752 2、iText ...
2010-07-14 13:17:29 5295
原创 Linux Shell编程入门[转载]
由于项目需要,最近需要写一些shell脚本,苦于无基础,转载一些文档先学习下: 关于变量,还需要知道几个与其相关的Linux命令。 env用于显示用户环境区中的变量及其取值;set用于显示本地数据区和用户环境区中的变量及其取值;unset用于删除指定变量当前的取值,该值将被指定为NULL;export命令用于将本地数据区中的变量转移到用户环境区。 下面我们来看一个更复杂的例子,结...
2010-06-24 22:32:54 178
原创 eclipse 无法启动 JVM terminated. Exit code=-1
今天eclipse启动时弹出一个框框: eclipse 无法启动 JVM terminated. Exit code=-1 ......原因: eclipse.ini中内存设置过大。修改:eclipse目录下eclipse.ini的配置如下:-showsplashcom.genuitec.myeclipse.product--launcher....
2010-06-24 16:01:24 211
Nutch1.0在eclipse中运行问题之解决
今天按照前面几篇文章所述之操作解决了程序中的报错,但是在调试运行过程中会出现如果错误.本问题主要针对windows操作系统.[b]问题一:[/b]现贴出:2010-03-25 21:42:33,937 WARN fs.FileSystem (FileSystem.java:(1440)) - uri=file:///javax.security.auth.login.LoginE...
2010-03-25 21:51:28 146
Nutch1.0导入eclipse错误解决
Nutch1.0导入eclipse工程后,一般的工程都会有两个错误,nutch的official 1.0 release版本中,这两个问题因为licensing issues没有修复。接下来的就是最关键的部分了。修改---- src\plugin\parse-rtf\src\java\org\apache\nutch\parse\rtf下 RTFParseFactory.java添加--...
2010-03-25 16:05:03 152
关于本人及本博客文章的一些说明
本人专业为web数据挖掘,对于web爬虫和信息抽取有一定的了解,并做了一些相关研究,现今想学习nutch的一些知识,以丰富自己的知识,指导自己的研究。由于nutch源码比较复杂,本人准备从基础入手,而入手资料主要来源于互联网,所以本博客很多文章都是我为了学习从不同的数据源转载而来,很多不是自己的原创,这里加以说明。在以后对nutch的逐步学习过程中,我会将自己的心得体会一一记录,与大家分享,希...
2010-03-24 13:36:22 122
nutch工程源码导入Eclipse过程
测试环境Nutch release 0.9Eclipse 3.3 - aka EuropaJava 1.6开始之前Setting up Nutch to run into Eclipse can be tricky, and most of the time you are much faster if you edit Nutch in Eclipse but r...
2010-03-24 13:27:59 132
开源搜索引擎Nutch初体验
Nutch的源码,它的作者和Lucene是一个人,但除了使用基于Lucene的索引和检索模块外,它还包括了crawler、crawl frontier、反向链接数据库、Web检索前端等其它组件。它至少有两大亮点决定了它是目前最好的开源搜索引擎实现,一个是基于Lucene的高效索引和检索功能,另一个是基于Apache的另一开源项目Hadoop实现的类似于Google的分布式文件系统,特别是它大量使用...
2010-03-23 21:26:44 147
Nutch中Injector的过程
Injector过程主要分成两个过程,而且这两个过程是两个独立的Map/Reduce任务,前一个任务只有Map,后一个任务是一个完整的Map/Reduce过程。在详细介绍之前,先看inject()的主调用代码:代码1:public void inject(Path crawlDb, Path urlDir) throws IOException { if (LOG.isI...
2010-03-23 20:43:53 226
Nutch1.0中Index的过程
Index阶段就一个Map/Reduce任务,其作用主要是负责为导入的所有的segment建索引,先看一下其主调用函数Indexer.index()函数。代码:public void index(Path luceneDir, Path crawlDb, Path linkDb, List segments) throws IOException { LOG.info("I...
2010-03-23 20:42:05 150
Nutch中写crawlDB的过程
在爬取网一个页面之后,会解析出一些,这些键值对基本上分为三类:(1) 刚爬取的页面的url,及其对应的CrawlDatum对象,这时其CrawlDatum对象保存的一般页面分析后的一些信息,如爬取时间,分值等;(2) 从刚爬取的页面中解析出来的outlinks, 及其对应的CrawlDatum对象, 这时其CrawlDatum对象保存的一般都是一些初始化的信息,其状态一般也为unfetch...
2010-03-23 20:40:30 126
nutch安装,使用,二次开发入门(转)
关键字: cygwin nutch 安装 1.1 Nutch安装 参考资料:http://www.blogjava.net/dev2dev/archive/2006/02/01/29415.aspx Nutch在Windows中安装之细解 由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境。 1)安装cygwin ...
2010-03-23 17:10:36 205
剖析NUTCH爬虫
1. 简介 开源项目NUTCH搜索引擎大致包括三个部分: (1) 爬虫:寻找并抓取网页 (2) 网页库:存储已知URL和已抓取网页的数据库 (3) 索引器:解析网页并按照主题字典建立索引 2. NUTCH命令脚本 NUTCH使用多个"bin/nutch"命令脚本进行操作,其中每个脚本命令与一个java类相对应 对于整个网络网页的抓取,你需要利用下面的命令逐步进行: $ bin/nutc...
2010-03-23 17:07:59 136
webharvest1-bin.zip
2009-07-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人