![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
big data
文章平均质量分 95
yutao_Struggle
I love three things in the world.Sun,Moon and Code.Sun for morning,Moon for night,and Code for HelloWorld.
展开
-
Docker使用教程
Docker使用教程1 Docker概述1.1 简介Docker 是一个开源的应用容器引擎,基于 Go 语言 并遵从 Apache2.0 协议开源。Docker 可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口(类似 iPhone 的 app),更重要的是容器性能开销极低。Docker 从 17.03 版本之后分为 CE(Community Edition: 社区版) 和原创 2021-06-05 18:28:26 · 1412 阅读 · 1 评论 -
大数据之Phoenix
Current release 4.16.0 can run on Apache HBase 1.3, 1.4, 1.5 and 1.6. Current release 5.1.1 can run on Apache HBase 2.1, 2.2, 2.3 and 2.4 CDH HBase 5.11, 5.12, 5.13 and 5.14 is supported by 4.14.0.Apache HBase 2.0 is supported by 5.0.0.1 Phoenix简介1.1 概述原创 2021-05-12 23:52:26 · 928 阅读 · 4 评论 -
大数据之HBase
1 Hbase简介1.1 Hbase定义HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hado...原创 2021-04-04 23:03:15 · 943 阅读 · 1 评论 -
OpenTSDB
Writing DataNameing SchemaRDD风格系统很多RRD风格系统将时间序列命名为webserver01.sys.cpu.0.user,表示webserver01上 cpu 0在用户空间中的时间量。如果该服务器具有64个核心,而想要知道该服务器所有cpu的时间,则使用通配符webserver01.sys.cpu.*.user,该通配符将读取所有 64 个文件并汇总结果。如果有1000个 Web 服务器,每个服务器有64核,并且想要知道所有服务器的 CPU 时间,则使用通配符*.s原创 2021-03-17 16:02:00 · 1137 阅读 · 1 评论 -
大数据之Hive优化
1 压缩与存储1.1 Hadoop压缩配置通过Hadoop命令可查看当前支持的压缩方式:[yut@aliyun220 hadoop-2.10.0]$ hadoop checknative20/09/13 16:03:51 INFO bzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 library system-native20/09/13 16:03:51 INFO zlib.ZlibFactory: Su原创 2020-09-13 23:00:20 · 511 阅读 · 1 评论 -
大数据之Hive函数及案例
案例一:CASE WHEN求每个部门男女各有多少人hive (default)> select * from emp_sex;emp_sex.name emp_sex.dept_id emp_sex.sex悟空 A 男大海 A 男宋宋 B 男凤姐 A 女婷姐 B 女婷婷 B 女hive (default)> select dept_id, > s原创 2020-09-13 15:52:00 · 638 阅读 · 1 评论 -
Nginx负载均衡及集群实现
参考文档:https://www.cnblogs.com/xiugeng/p/10155283.html#_label0https://zhuanlan.zhihu.com/p/1085772181 环境准备主机名ip角色描述hadoop101192.168.88.101主Nginx用于接收客户端请求hadoop102192.168.88.102从Nginx当主Nginx挂掉,会接替主Nginx处理客户端请求hadoop103192.168.88.1原创 2020-05-19 13:34:27 · 372 阅读 · 0 评论 -
大数据之Hadoop入门
服务器配置#配置服务器名称,每个服务器配置不同[root@localhost ~]# vim /etc/hostname bme241#配置网络[root@localhost ~]# vim /etc/sysconfig/network-scripts/ifcfg-ens192 TYPE=Ethernet PROXY_METHOD=none BROWSER_ONLY=no #静...原创 2019-12-15 16:23:33 · 476 阅读 · 0 评论 -
大数据之Zookeeper
1 Zookeeper简介Zookeeper是一个开源的分布式的,为分布式应用程序提供高性能协调服务的Apache项目。1.1 Zookeeper工作机制Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接收观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察...原创 2020-02-28 15:14:44 · 216 阅读 · 0 评论 -
大数据之Hadoop——HDFS
1 HDFS概述1.1 HDFS产出背景及定义1.1.1 HDFS产生背景随着数据量越来越多,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。1.1.2 HDFS定义HDFS(Hadoop Distributed File System)...原创 2019-12-21 15:12:10 · 410 阅读 · 0 评论 -
Kafka从入门到放弃
1 Kafka 概述Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调(0.9版本之后逐渐启用zookeeper)的分布式的发布/订阅模式的消息队列,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,we...原创 2019-11-13 14:07:54 · 895 阅读 · 0 评论 -
大数据之Flume进阶
1 案例1.1 配置单个流1.1.1 实时读取本地文件到HDFS案例# Name the components on this agenta1.sources = r2a1.sinks = k2a1.channels = c2# Describe/configure the sourcea1.sources.r2.type = execa1.sources.r2.command...原创 2019-10-25 17:18:10 · 350 阅读 · 0 评论 -
Flume基本概念及入门
1 Flume简介1.1 Flume概述Flume是Cloudera(捐给了Apache)提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Apache Flume的使用不仅限于日志数据聚合,由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎所有可能的数据源。Flume基于流式架构,灵活简单。1....原创 2019-10-19 16:56:07 · 378 阅读 · 0 评论 -
大数据之Hive入门
1 Hive基本概念1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序,执行流程如下:1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yar...原创 2019-10-13 20:02:23 · 639 阅读 · 0 评论