Nutch相关框架视频教程
文章平均质量分 78
默罕默德
这个作者很懒,什么都没留下…
展开
-
Nutch相关框架视频教程2
第二讲土豆在线视频地址 (52分钟)【视频下载地址】 1、 git来作为分布式版本控制工具,github作为server。bitbucket.org提供免费的私有库。2、 nutch的提高在于研读nutch-default.xml文件中的每一个配置项的实际含义(需要结合源代码理解)。3、 定制开发nutch的入门方法是研读build.xml文件。4、 命令:原创 2014-02-03 17:33:49 · 90 阅读 · 0 评论 -
Nutch相关框架视频教程19
第十九讲 优酷在线视频地址(21分钟)【视频下载地址】 1、Ganglia以组播方式监控同一个网段中的多个集群vi /etc/ganglia/gmetad.conf data_source "cluster1" 10 host2 data_source "cluster2" 10 host6 data_source "cluster3" 10原创 2014-02-03 19:01:33 · 935 阅读 · 0 评论 -
Nutch相关框架视频教程18
第十八讲 优酷在线视频地址 (57分钟)【视频下载地址】 1、准备压缩数据从dmoz下载url库wget http://rdf.dmoz.org/rdf/content.rdf.u8.gzgunzip content.rdf.u8.gz准备nutch1.6svn co https://svn.apache.org/repos/asf/nutch原创 2014-02-03 19:00:08 · 184 阅读 · 0 评论 -
Nutch相关框架视频教程17
第十七讲 优酷在线视频地址 (31分钟)【视频下载地址】 Ganglia主要是用来监控大规模分布式系统的性能,如:cpu、内存、硬盘、负载、网络流量等。Ganglia支持通过浏览器访问,强大的图表展示方式很容易直观地了解每个节点以及整个集群的工作状态,对集群运行参数调整、提高系统整体资源利用率起到重要作用。1、 配置服务端host6作为服务端:创建用户和组:原创 2014-02-03 18:58:43 · 179 阅读 · 0 评论 -
Nutch相关框架视频教程16
第十六讲 优酷在线视频地址 (27分钟)【视频下载地址】 1、运行基准测试hadoop jarhadoop-test-1.1.2.jar hadoop jarhadoop-test-1.1.2.jar DFSCIOTest -write -nrFiles 12 -fileSize 1000 -resFiletesthadoop jarhadoop-test-1.原创 2014-02-03 18:57:16 · 166 阅读 · 0 评论 -
Nutch相关框架视频教程15
第十五讲 优酷在线视频地址 (30分钟)【视频下载地址】 1、限制hadoop节点连接NameNode:vi conf/hdfs-site.xml dfs.hosts /home/hadoop/hadoop-1.1.2/conf/include dfs.hosts.exclude /home/hadoop/had原创 2014-02-03 18:55:42 · 165 阅读 · 0 评论 -
Nutch相关框架视频教程13
第十三讲 优酷在线视频地址 (29分钟)【视频下载地址】 1、改变负载三台机器,改变负载host2(NameNode、DataNode、TaskTracker)host6(SecondaryNameNode、DataNode、TaskTracker)host8(JobTracker、DataNode、TaskTracker) 指定SecondaryNam原创 2014-02-03 18:52:08 · 171 阅读 · 0 评论 -
Nutch相关框架视频教程12
第十二讲 土豆在线视频地址(30分钟)【视频下载地址】 1、 HADOOP多机完全分布式模式三台机器host2(NameNode、SecondaryNameNode、JobTracker、DataNode、TaskTracker)host6(DataNode、TaskTracker)host8(DataNode、TaskTracker)vi /etc/原创 2014-02-03 18:50:39 · 168 阅读 · 0 评论 -
Nutch相关框架视频教程11
第十一讲土豆在线视频地址(64分钟)【视频下载地址】 1、配置Cygwin支持无密码SSH登陆安装SSH默认的Cygwin没有安装ssh,所以重新运行http://www.cygwin.com/setup.exe在Select Packages的时候,在search输入ssh,选择openssh:The OpenSSH server and client pro原创 2014-02-03 18:48:48 · 172 阅读 · 0 评论 -
Nutch相关框架视频教程10
第十讲土豆在线视频地址(58分钟)【视频下载地址】 1、HADOOP单机本地模式wgethttp://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.1.2/hadoop-1.1.2.tar.gztar -xzvf hadoop-1.1.2.tar.gzexport PATH=/home/ysc/hadoop-原创 2014-02-03 18:47:12 · 169 阅读 · 0 评论 -
Nutch相关框架视频教程9
第九讲土豆在线视频地址(44分钟)【视频下载地址】 1、 安装win上的nutch运行环境Cygwincygwin路径不要有空格把安装好的JDK拷贝到用户主目录把nutch的文件拷贝到用户主目录下载解压ant,加入path2、 运行nutchException in thread "main" java.io.IOException:Failed原创 2014-02-03 18:45:45 · 182 阅读 · 0 评论 -
Nutch相关框架视频教程8
第八讲土豆在线视频地址(38分钟)【视频下载地址】 1、指定LUKE工具的分词器 访问https://code.google.com/p/mmseg4j/downloads/list 下载mmseg4j-1.9.1.v20130120-SNAPSHOT.zip 将压缩包里面的dist文件夹里面的jar解压,将解压出来com和data文件夹拖到lukeall-4.原创 2014-02-03 18:43:59 · 187 阅读 · 0 评论 -
Nutch相关框架视频教程7
第七讲土豆在线视频地址(58分钟)【视频下载地址】 1、indexcheckerbin/nutch indexchecker http://www.163.com2、安装配置SOLRwgethttp://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.2/apache-solr-3.6.2.tgztar -xzv原创 2014-02-03 18:42:22 · 157 阅读 · 0 评论 -
Nutch相关框架视频教程6
第六讲 土豆在线视频地址(46分钟)【视频下载地址】 1、注入分值bin/nutch readdb data2/crawldb -dump crawldb_dumpcat crawldb_dump/* | grep Score | sort | uniqbin/nutch scoreupdater -crawldb data2/craw原创 2014-02-03 18:41:03 · 101 阅读 · 0 评论 -
Nutch相关框架视频教程5
第五讲 土豆在线视频地址(66分钟)【视频下载地址】 1、 域统计bin/nutch domainstats data2/crawldb/current host hostbin/nutch domainstats data2/crawldb/current domain domainbin/nutch domainstats dat原创 2014-02-03 18:36:17 · 201 阅读 · 0 评论 -
Nutch相关框架视频教程4
第四讲 土豆在线视频地址(60分钟) 【视频下载地址】 1、 深入分析nutch的抓取周期injectgenerate -> fetch -> parse ->updatedb2、 3大merge和3大read命令阐释bin/nutch | grep mergebin/nutch | grep readbin/nutch merges原创 2014-02-03 18:05:55 · 199 阅读 · 0 评论 -
Nutch相关框架视频教程3
第三讲土豆在线视频地址(53分钟)【视频下载地址】 1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?2、 命令:crawldbbin/nutch | grep readbin/nutch readdb data/crawldb -statsbin/nutch readdb data/crawldb -原创 2014-02-03 17:57:46 · 137 阅读 · 0 评论 -
Nutch相关框架视频教程3
第三讲土豆在线视频地址(53分钟)【视频下载地址】 1、 nutch的存储文件夹data下面各个文件夹和文件里面的内容究竟是什么?2、 命令:crawldbbin/nutch | grep readbin/nutch readdb data/crawldb -statsbin/nutch readdb data/crawldb -原创 2014-02-03 17:55:21 · 104 阅读 · 0 评论 -
Nutch相关框架视频教程20
第二十讲 优酷在线视频地址(22分钟)【视频下载地址】 1、Ganglia以单播方式监控跨多个网段的单一集群vi /etc/ganglia/gmetad.conf data_source "hadoop-cluster" 10 host6 /etc/init.d/gmetad restart 在集群的所有节点中指定以下配置:vi /etc原创 2014-02-03 19:05:53 · 191 阅读 · 0 评论