大数据
天ヾ道℡酬勤
这个作者很懒,什么都没留下…
展开
-
Hadoop、Hive、Hbase常用端口大全
前面所说的hadoop、hive、hbase中会遇到各种端口,有的是默认的,有的是启动时要配置的端口,那么具体的端口对应的是哪个呢,配置参数又是什么呢?今天给大家整理下。首先说下hadoop中的常用端口:在此之前,先说下启动tomcat的端口,我想大家都不陌生,在IDEA上发布Java工程项目到Tomcat上使用的就是8080端口,不知道大家还有没有印象,还有我们设置的免密ssh,端口是22.hadoop中的常用端口HDFS中的端口内部可使用端口YARN相关端口Hive相关端口Hba原创 2020-09-02 23:28:47 · 10842 阅读 · 0 评论 -
NoSQL与关系型数据库全面对比
我们总在说各种数据库的使用,以及各个数据库的优缺点,每个数据库都有自己的所擅长的领域,但选择什么样的数据库才是重点,那么问题来了,数据库到底是怎么划分的,有什么讲究呢?数据库大致分为两大类:关系型数据库和非关系型数据库关系型数据库顾名思义,就是表与表之间有关系,平时我们所用到的MSSQL Server、Oracle、Mysql等都是关系型数据库,它们是建立在关系模型基础上的数据库,依靠表、字段等关系模型,结合集合代数等数学方法来处理数据。关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的原创 2020-09-01 09:56:17 · 3724 阅读 · 1 评论 -
Hive安装教程与配置详情,以及Zookeeper安装
Hive 1.1.0版本安装教程hive是一个基于HDFS的MapReduce框架,将HQL转化成MapReduce执行,所以使用hive的前提是已经安装了Hadoop。1.老套路,首先解压 还是以Cloudera发行版:CDH安装为例。tar -zxf hive-1.1.0-cdh5.14.2.tar.gz2.解压完后放到指定文件夹下并简写解压后的文件名称mv hive-1.1.0-cdh5.14.2 /opt/soft/hive1103.到conf下修改配置文件cd /opt/soft/h原创 2020-06-16 20:23:35 · 1597 阅读 · 0 评论 -
Hive建表(一) 建表语法和导入hdfs数据
为什么要用Hive?前面我用MapReduce端join操作两张表,大家也看到很麻烦,而现在有一个工具可以不用那么麻烦的去写MapReduce程序了,只需要用Hive就可以照样显示需要的结果。 Hive是基于Hadoop的一个数据仓库工具;它是MapReduce的一个封装,底层就是MapReduce程序; Hive可以将结构化的数据文件(按照各字段分类的数据)映射成一张虚表,并提供类SQL查询功能; 有了Hive后我们就不用再写麻烦的MapReduce程序了。 说白了Hive的本质是把SQL语句转原创 2020-06-09 20:21:12 · 4532 阅读 · 0 评论 -
MapReduce端Join操作(Map端join、Reduce端join)
map端join指有两种表,只是一张较小,一张较大(一般大于1万条数据),大表的信息完全可以覆盖小表,往往将较小的表以键值对的形式添加到内存中,,然后只扫描大表:对于大表中的每一条记录key/value,在小表中查找是否有相同的key的记录,如果有,则连接后输出即可。Map端join是数据到达map处理函数之前进行合并的,效率要远远高于Reduce端join,因为Reduce端join是把所有的数据都经过Shuffle,非常消耗资源。所以一般都用Map端join。操作流程1.以键值对形式存储小表信息原创 2020-06-08 15:25:56 · 692 阅读 · 0 评论 -
hadoop中如何设置ssh无密登录并远程连接其它虚拟机
hadoop中每次开启节点要输入5次密码,这是一件很麻烦的事,下面就来设置无密开启节点。 首先先修改下主机名,方便记忆和使用,取自己好记的名字xxx hostnamectl set hostname xxx 添加主机地址 vi /etc/hosts把本机的IP和修改后的主机名添加到下一行 192.168.xx.xxx xxx 接下来就是生成公私钥 ssh-keygen -t rsa -P ' ' # -t 指定rsa...原创 2020-06-02 20:06:45 · 885 阅读 · 0 评论