自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 资源 (4)
  • 收藏
  • 关注

原创 eclipse中读取nutch爬取的数据内容

最近在研究Nutcha的爬虫和解析,在windows中利用cygwin执行nutch爬取网页。 那么爬取到的数据如何取到自己的程序中来使用呢? 参考了以下博主的内容,不过博主太懒没有任何文字描述。 读取nutch爬取的数据内容 http://blog.csdn.net/java_boke/article/details/7789160 将上面的代码拷到自己的程序中(ecl

2015-09-22 11:41:30 771

原创 关于nutch1.2 配置到tomcat中搜索不到结果的问题解决

在官网上下了nutch1.2,配置到windows中,然后又将nutch-1.2.war配置到tomcat里。 经过一系列的配置,成功爬怪到了网页内容,用命令【bin/nutch org.apache.nutch.searcher.NutchBean 关键字】可以看到 爬取了多少URL,但是通过访问tomcat页面却搜索不到关键字相关的任何结果。 于是查了tomcat的log日志,原来报了如

2015-09-11 10:15:10 769

hadoop-core-1.2.0.jar

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

2015-09-22

apache-tomcat-7.0.47-windows-x86

apache-tomcat-7.0.47-windows-x86 Apache是普通服务器,本身只支持html即普通网页。不过可以通过插件支持php,还可以与Tomcat连通(单向Apache连接Tomcat,就是说通过Apache可以访问Tomcat资源。

2015-08-25

GitHubSetup.exe

GitHubSetup Git是一个分布式的版本控制系统,最初由Linus Torvalds编写,用作Linux内核代码的管理。

2015-08-25

HeidiSQL_9.2_Portable

HeidiSQL是一款用于简单化你的 MySQL 服务器和数据库管理的图形化界面。HeidiSQL软件允许你浏览你的数据库,管理表,浏览和编辑记录,管理用户权限等等。

2015-08-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除