大数据
奔跑的小鲫鱼
关于学习Java的总结以及遇到的问题及解决方法的描述
展开
-
大数据Hadoop集群中常用的任务调度框架
在大数据的集群环境中,经常用到的任务调度框架有如下几个,根据公司的业务的需要选择适合自己的业务调度的框架,调度框架anzkaban,crontab(Linux自带)、zeus(Alibaba)、Oozie(cloudera),下面将分别介绍各个调度框架使用任务调度工具功能: 时间调度:基于时间条件触发程序运行 依赖调度:基于其他程序的执行结果进行调度执行 ...原创 2018-07-27 11:24:39 · 14489 阅读 · 0 评论 -
Linux中的多路复用技术---epoll的详解
在linux 没有实现epoll事件驱动机制之前,我们一般选择用select或者poll等IO多路复用的方法来实现并发服务程序。在大数据、高并发、集群等一些名词唱得火热之年代,select和poll的用武之地越来越有限,风头已经被epoll占尽。本文便来介绍epoll的实现机制,并附带讲解一下select和poll。通过对比其不同的实现机制,真正理解为何epoll能实现高并发。select()和p...转载 2018-07-16 00:18:43 · 2878 阅读 · 1 评论 -
【azkaban】学习azkaban的笔记以及心得
Azkaban是Linkedin开源的任务调度软件。致力于解决Hadoop job 问题。主要解决ETL中有顺序的任务。一、基本概念:其中主要有三个组件组成:Relational Database(只支持MySql)Azkaban WebServerWebUI)Azkaban ExecutorServerAzkaban2目前支持三种模式:solo server modetwo server mod...原创 2018-07-15 21:07:21 · 1176 阅读 · 1 评论 -
/a.out & , nohut ./a.out , nohup ./a.out &的区别
首先,先看个小程序 生成可执行程序a.out, 下面, 我会在我的linux机器上进行测试!!!&的意思是在后台运行, 什么意思呢? 意思是说, 当你在执行 ./a.out & 的时候, 即使你用ctrl C, 那么a.out照样运行(因为对SIGINT信号免疫)。 但是要注意, 如果你直接关掉shell后, 那么, a.out进程同样消失。 可见, &的后...转载 2018-07-07 22:48:11 · 1860 阅读 · 0 评论 -
深入了解HBASE
在学习HBASE的过程中,看了这篇博客,觉得还可以,写得不错从物理结构上讲,HBase由三种类型的服务器构成主从式架构。Region Servers为数据的读取和写入提供服务。当访问数据时,客户端直接和Region Servers通信。Region的分配,DDL (create, delete tables)操作有HBase Master进程处理。Zookeeper是HDFS的一部分,维护着一...转载 2018-07-18 13:05:06 · 333 阅读 · 1 评论 -
数据倾斜是什么以及造成的原因?
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均...转载 2018-07-11 11:06:58 · 14142 阅读 · 0 评论 -
【组件】大数据框架安装功能来划分
海量数据存储: HDFS、Hive(本质存储数据还是hdfs)、HBASE、ES海量数据分析: MapReduce、Spark、SQL最原始的Hadoop框架 数据存储:HDFS(Hadoop Distributed File System) 数据分析:MapReduceHadoop的起源 Google的三篇论文(推荐看这篇博客 https://blog....原创 2018-06-08 23:34:16 · 213 阅读 · 1 评论 -
大数据需要学什么
第一方面:大数据离线分析一般处理T+1数据,这里的T可以代表一天,一周、一个月以及一年等。这里我用的Hadoop的版本是Hadoop 2.X,它有四个模块(common、HDFS、MapReduce、YARN)。下面是Hadoop的四个模块的详细介绍模块 介绍 Hadoop common 支持其他模块的工具模块 Hadoop Distributed File System (HDFS) 分布...原创 2018-06-08 23:29:25 · 1824 阅读 · 1 评论 -
学习大数据需要的基础
java SE:1.可以说这是Java的核心。 2.用于开发桌面应用程序和基于web的应用程序。 3.它提供了从基本对象到高级类的所有东西,这些类被用于网络、数据库访问、安全、XML解析、GUI开发。 4.除了这些核心api之外,它还提供了虚拟机(JVM)、开发工具、部署技术等。下图JavaSE的发展阶段EE(SSM):JavaEE是java的一种,有JavaEE、JavaSE和JavaME。SS...原创 2018-06-08 23:26:12 · 822 阅读 · 0 评论 -
Google引爆大数据时代的三篇论文
Google引爆大数据时代的三篇论文谈到Hadoop的起源,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础!一,GFS—-2003 2003年,Google发布Google File System论文,这是一个可扩展的分布式文件系...转载 2018-06-08 22:56:19 · 10360 阅读 · 0 评论 -
大数据?这些你了解吗?------之基础知识篇
1、导入虚拟机 =》解压=》英文目录下=》导入VMware中【已移动】=》超级管理员用户root/1234562、为了保证我们所有人虚拟机保持一致:修改VMware Vmnt8的适配器网段地址192.169.59.03、虚拟机配置约束-->职业化:使用普通用户 huadian/huadian:主机名:bigdata-hpsk01.huadian.com4、基本操作(root用户来操作):创...原创 2018-06-12 15:49:35 · 385 阅读 · 2 评论 -
大数据环境下该如何优雅地设计数据分层
0x00 前言最近出现了好几次同样的对话场景:问:你是做什么的?答:最近在搞数据仓库。问:哦,你是传统行业的吧,我是搞大数据的。答:......发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在...转载 2018-08-25 11:04:58 · 640 阅读 · 0 评论