![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
云计算
wonderful_life_mrchi
不登高山,不知天之高也;不临深溪,不知地之厚也
展开
-
Hive数据库创建表
HIVE 基本操作 create table 总述CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常。 EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,.原创 2020-05-09 12:31:31 · 3150 阅读 · 0 评论 -
Hive元数据
HIVE元数据库Hive 将元数据存储在 RDBMS 中,一般常用的有MYSQL和DERBY。 DERBY启动HIVE的元数据库进入到hive的安装目录Eg:1、启动derby数据库/home/admin/caona/hive/build/dist/运行startNetworkServer -h 0.0.0.02、连接Derby数据库进行测试查看/home/admin/caona/hive/build/dist/conf/hive-default.xml。找..原创 2020-05-09 12:22:58 · 519 阅读 · 0 评论 -
Hive数据库概述
Hive属于数据仓库的概念范畴,主要用于进行数据分析用,不适合实时数据查询。可以完成海量数据的存储,存储在HDFS上,不需要类似关系数据库那样的固定格式限制,对应的表实际上就是hadoop hdfs上的文件夹,表中数据相当于文件,具体介绍看下文。 HIVE结构Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,原创 2020-05-09 11:28:33 · 5885 阅读 · 0 评论 -
centos7安装mysql5.7解压版
环境:centos7 64位本教程安装MySQL是通过编译过的二进制文件进行安装。是不针对特定平台的通用安装方法,解压版本的mysql,使用的二进制文件是后缀为.tar.gz的压缩文件1、下载 http://dev.mysql.com/downloads/mysql/2、解压缩到/usr/local/下面,mysql的主目录命名为mysql,注意后面创建mysql用户和组可以不用,即默认m...原创 2020-05-05 21:54:39 · 1316 阅读 · 1 评论 -
Zookeeper全回顾
Zookeeper的功能以及工作原理1.ZooKeeper是什么?ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户2.ZooKeeper提供了什么?1)文件系统2)通知机制3.Zoo...转载 2018-12-06 21:06:41 · 1122 阅读 · 0 评论 -
mahout协同过滤算法+hadoop1.x
本文采用mahout0.9版本,由于该版本天然支持hadoop1.x所以代码编写调用taste算法比较容易,但是hadoop2.x就不可以了步骤: 1、将hadoop1.x安装目录下的三个配置文件拷贝到java项目的classpath根目录下,分别是core-site.xml,hdfs-site.xml和mapred-site.xml。 2、编写访问hdfs的dao类 代码如下:...原创 2018-08-02 15:24:39 · 1266 阅读 · 0 评论 -
Spark四种运行模式
转载:http://blog.cheyo.net/29.html介绍本地模式Spark单机运行,一般用于开发测试。Standalone模式构建一个由Master+Slave构成的Spark集群,Spark运行在集群中。Spark on Yarn模式Spark客户端直接连接Yarn。不需要额外构建Spark集群。Spark on Mesos模式Spark客户端直接连接Mesos。不需要额外转载 2017-09-06 19:57:26 · 9789 阅读 · 0 评论 -
Hive中的join操作原理和优化
Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hive系统执行查询分析,最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQ转载 2017-08-27 20:19:22 · 1728 阅读 · 2 评论 -
官方jdbc方式访问hive服务器
说明Hive某种意义上来说是一个数据库,也叫做数据仓库,只不过数据最终存储在hdfs上。而且sql最终都被翻译成mapreduce而已,当然查询效率也因此比较低。比较适合数据分析场合,实时性要求不高。访问hive客户端方式很多种,今天说一下jdbc方式访问hive。为了更好表达官网使用原意义,在这里代码部分只做红色备注,但是不做翻译。这样会更加准确。实战JDBCTh原创 2017-08-27 20:06:35 · 2318 阅读 · 0 评论 -
hive安装和shell交互全步骤
准备好服务器,Hive只在一个节点上安装即可。主机环境windows+虚拟机Linux详细步骤:1.官网下载hive的压缩包,这里是hive-0.12.tar.gz,上传tar包到linux服务器。2.安装和配置文件tar -zxvf hive-0.9.0.tar.gz -C /home/hadoop/app/ 可以看到hive-0.12文件夹,原创 2017-08-27 19:45:34 · 2455 阅读 · 0 评论 -
centos搭建Hadoop2.4伪分布式
题前话:之前博文写过Ubuntu下搭建Hadoop,今天在写一篇centos下面Hadoop下伪分布式的安装。其实Ubuntu和Centos是两个不同的linux发行版本而已,但是操作系统也有一些差异,一些配置文件修改等都有所不同。正文(详细搭建步骤)正式搭建包括VMware虚拟机安装,操作系统centos安装都省略,主要针对hadoop的安装和配置。vmware安装比较简单,一步原创 2017-08-23 12:49:09 · 780 阅读 · 0 评论 -
Storm的配置文件yaml详解
转载请注明出处:http://blog.csdn.net/l1028386804/article/details/51924272配置项配置说明storm.zookeeper.serversZooKeeper服务器列表storm.zookeeper.portZooKeeper连接端口storm.local.dirstorm使用的本地文件系统目录(必须存在并且storm进程可读写)s转载 2017-09-05 08:58:18 · 3953 阅读 · 0 评论 -
mapreduce去掉重复行
思想mapreduce可以分为map和reduce两个过程,我们知道最终结果是reduce输出的k,v中的k一定不是重复的,是排序合并之后的。我们就利用这一点在mapper阶段,不需要做任何事情,只要将输入value(一行内容)作为key输出到reduce即可。由于这里不做wordcount,所以可以写:context.write(value,NullWritable.get())。NullW原创 2017-08-26 20:49:20 · 3382 阅读 · 0 评论 -
Hive客户端调用的几种方式
hive命令指的是hive_home/bin/hive.sh,hive表示用来执行交互式查询和批量处理的脚本。hive可以直接敲hive命令进入interactive模式,也可以hive -e 执行简单命令或者hive -f 执行一个sql脚本文件。具体官方给出的用法如下:Hive Command Line OptionsTo get help, run "hive -H"原创 2017-08-26 20:21:34 · 7189 阅读 · 1 评论 -
Hbase的读写过程分析
Hbase各组件作用:Zookeeper 保证任何时候,集群中只有一个HMaster; 实时监控HRegion Server的上线和下线信息,并实时通知给HMaster; 存储Hbase的schema和table元数据; HMaster需要知道哪些HRegionServer是活的,可用的。及HRegionServer的位置信息转载 2017-08-25 10:44:09 · 1315 阅读 · 0 评论 -
Java 访问Hbase数据库
须知Hbase数据最终是在hdfs上的,具体来说应该是在hdfs上一个叫做/hbase的目录下。具体结构如下:所以java访问Hbase其实就是访问hdfs,所以环境搭建跟hadoop开发环境使用没什么不同。实战部分1.导入需要的jar包,此处在java项目引入Hbase解压后lib目录下所有jar包即可。里面提供了访问Hbase的api接口,也有与hadoop集成的客户端原创 2017-08-25 10:13:11 · 5747 阅读 · 0 评论 -
Hbase基础理论部分
概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。H转载 2017-08-25 08:39:46 · 190 阅读 · 0 评论 -
Hbase伪分布式快速安装+shell简单访问
Hbase0.96快速安装过程(简化版)1.将hbase-0.96压缩包解压到app目录下。2.cd到app目录下,mv hbase-0.96 hbase修改名字,3.配置hbase环境变量,切换root用户下,修改#vi /etc/profile增加 export HBASE_HOME=/home/hbase修改 export PATH=$JAVA_HOME/bin原创 2017-08-24 20:23:48 · 855 阅读 · 0 评论 -
Ubuntu下搭建Hadoop伪分布式
一、在Ubuntu下创建hadoop组和hadoop用户 增加Hadoop用户组,同时在该组里增加hadoop用户,后续在涉及到hadoop操作时,我们使用该用户。 1、创建hadoop用户组 2、创建hadoop用户 sudo adduser -ingroup hadoop hadoop 回车后会提示输入新的UNIX密码,这是新建用户hado转载 2017-08-18 16:11:16 · 2044 阅读 · 0 评论