大数据
yanglitian_123
这个作者很懒,什么都没留下…
展开
-
Linux系统中进行基于Hadoop的Hive的安装配置调试
基于Hadoop的Hive的安装与配置hive的定义与作用定义Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。作用1.) 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大2.)操作接口采用类SQL语法,提供快速开发的能力。避免了去写MapReduce,减少开发人员的学习成本。hive的安装配置与调试前面需要安装配置好hadoop和hbase,可至下方连接查询原创 2020-06-28 21:09:22 · 3668 阅读 · 0 评论 -
Linux系统中对ZooKeeper和Hbase的安装与配置
在hadoop集群中对ZooKeeper和Hbase的安装与配置前置需要安装配置好hadoophadoop的安装与配置传送门zookeeper的定义与作用.zk的作用分布协调服务,解决分布式服务在工作时产生的问题1)竞态条件 //多个主机同时对一个文件进行操作,俗称抢资源2)死锁: //多个主机互相等待对方完成3)不一致性: //资源文件丢失或者主机宕机hadoop的namenode的高可用,也就是在多namenode 情况下,对namenode 管理节点的ac原创 2020-06-28 14:05:39 · 1141 阅读 · 0 评论 -
Hbase常用命令
1、Hbase shell客户端使用启动 start-hbase.sh a、进入客户端 hbase shell b、常用命令 list 列出Hbase中存在的所有表 alter 修改列簇(column family)模式 count 统计表中行的数量 create 创建表 describe 显示表相关的详细信息 delete 删除指定对象的值(可以为表,行、列对应的值,另外也可以指定时间戳的原创 2020-09-03 17:31:46 · 495 阅读 · 0 评论 -
Python; Anaconda3安装以及Jupyter和pyspark集成,顺带回顾一下spark安装
centos7 中安装python31,准备安装包(官网或者度娘下载即可)Python-3.7.2.tar.xzAnaconda3-2020.07-Linux-x86_64.sh2,安装编译工具yum -y groupinstall "Development tools"yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel原创 2020-08-10 19:52:28 · 434 阅读 · 0 评论 -
SPARK,RDD,RDD算子
spark 技术栈Spark Core 核心组件,分布式计算引擎Spark SQL 高性能的基于hadoop的SQL解决方案Spark Streaming 实时流处理Spark GraphX 分布式图处理框架Spark MLlib 分布式机器学习RDD(Resilient Distributed Datasets)弹性分布式数据集RDD不存储真正的数据,知识对数据和操作的描述RDD默认放在内存中,当内存不足时,自动写入磁盘特性一系列的分区(分片)信息,每个任务处理一个分区每个分区上都原创 2020-08-05 15:20:21 · 219 阅读 · 0 评论 -
Sqoop环境搭建和具体应用
Sqoop的环境搭建1,准备好sqoop-1.4.6-cdh5.14.2.tar.gzjava-json.jarmysql-connector-java-5.1.27-bin.jar2,解压安装,配置环境变量[root@hadoop151 opt]# vi /etc/profile添加以下内容export SQOOP_HOME=/opt/sqoopexport PATH=$SQOOP_HOME/bin:$PATH使生效[root@hadoop151 opt]# source /原创 2020-07-22 19:16:41 · 211 阅读 · 0 评论 -
HIVE高级查询之CTE,MapJoin,数据排序(不得不提一下数据倾斜),窗口函数
CTE(common table expression)with a as (select * from table1)select * from a;MapJoin小表关联大表set hive.auto.convert.join = true 默认为true,意思就是,系统会以mapjoin为优先,这样运行速度更快。loadLOAD DATA LOCAL INPATH '/home/dayongd/Downloads/employee.txt' OVERWRITE INTO TAB原创 2020-07-09 23:19:14 · 997 阅读 · 0 评论 -
HIVE分区,静态分区,动态分区
为什么要分区分区可以大大提升hive的性能,这里就要提到数仓的分层第一层 ODS层原始数据层,存储原始收集的数据第二层 DWD层数仓明细层,里面做的是转换和分析,里面包含部分的数据清洗的过程第三层DWS层数仓服务层,对外业务的处理,如维度转代理键、身份证清洗、会员注册来源清晰、字段合并、空值处理、脏数据处理、IP清晰转换等;第四层ADS层最终业务层静态分区(适合做增量表,数据量大)建一个user表,里面三个字段,id,name,birth,还有一个sex字段,用来分区,初步的想法是,原创 2020-07-08 20:24:10 · 593 阅读 · 0 评论 -
HADOOP高可用集群搭建,实现两个namenode之间active和standby的转换
HADOOP高可用集群搭建,实现两个namenode之间active和standby的转换一,重点配置hadoop下的配置文件core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed under the Apache License, Version 2.0 (the "Lic原创 2020-07-07 20:19:36 · 2484 阅读 · 1 评论 -
HIVE的基础知识内部表与外部表
HIVE:将结构化的数据文件映射为数据库表查询语句简便话,类SQL语言;表在hdfs中表现为文件夹准备工作(要先启动hadoop和zookeeper)[root@hadoop151 hive]# jps15105 Jps7715 NodeManager2855 QuorumPeerMain7303 DataNode7179 NameNode7455 SecondaryNameNode7599 ResourceManager启动之后应该要有的程序启动HIVE[root@hado原创 2020-07-07 19:44:02 · 591 阅读 · 0 评论