今天该进入主题了
十一、Nutch
首先是下载,原来只有一个版本,当时折腾的时候是1.0,现在突然冒出两个版本,一个1.16,一个2.4,那么到底有什么差别呢?先查查资料看看再说。
现在Nutch分为两个版本:1.x和2.x,这两个版本的主要区别在于底层的存储不同。1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase、Cassandra、MySQL、DataFileAvroStore、AvroStore等等。从这点上来看,就根据个人的需要来确定了,用什么样的存储方式更方便咱就用什么,现在咱们可以考虑2.X版本的mysql,为啥,因为我就认识这一个,嘿嘿,挺不好意思的哈,其他都脸盲。
既然准备使用MySql,就首先要安装再进行后续的操作。
1、MySql的安装
习惯先检查一下有没有更新,有更新了先更新完再说。
apt update
apt upgrade
检索一下MySql的包包
apt list | grep mysql
简单点操作mysql还是要有个workbench比较好一些哈,先上网站下载deb包准备着。
https://dev.mysql.com/downloads/repo/apt/ 直接网站左下角,No thanks,just start my download.就可以下载了。
然后下载workbench
https://dev.mysql.com/downloads/workbench/ 选择ubuntu19.10版本,同样左下角点击下载。
开始安装mysql 已经是8.0版本了 245M大小
apt install mysql-server mysql-client
默认安装好之后没有任何密码的设置提示,那好吧,先看看到底有没有密码
mysql 呀,直接进入了,压根没有密码,抓紧时间设置一个,多少有点安全保障啊
ALTER user 'root'@'localhost' IDENTIFIED WITH caching_sha2_password by '你的密码';
现在把workbench安装好,用root登录一下试试,是不是提示了密码了。登录OK
2、Nutch 下载2.x版本的tar包
提取所有文件后,复制到usr目录下备用,然后下载ant并配置环境,为什么前面安装的JDK8,在这里体现出来了,ant的最新版本是1.1