zhigang1007-CSDN博客

转载如何将idea项目上传到Git

Git是一款免费的分布式版本控制工具。每个人的电脑都是一个完整的版本库，那么我们该如何将一个java项目上传到Git呢？一、准备工作1、Git下载及安装https://jingyan.baidu.com/article/7f766dafba84f04101e1d0b0.html2、GitHub注册账号https://github.com/3、idea

2018-02-22 14:18:50 4212

转载 Flume+Hadoop+Hive的离线分析系统基本架构

最近在学习大数据的离线分析技术，所以在这里通过做一个简单的网站点击流数据分析离线系统来和大家一起梳理一下离线分析系统的架构模型。当然这个架构模型只能是离线分析技术的一个简单的入门级架构，实际生产环境中的大数据离线分析技术还涉及到很多细节的处理和高可用的架构。这篇文章的目的只是带大家入个门，让大家对离线分析技术有一个简单的认识，并和大家一起做学习交流。离线分析系统的结构图

2018-01-02 21:34:46 1122

转载 java高并发的处理--锁机制

对于我们开发的网站，如果网站的访问量非常大的话，那么我们就需要考虑相关的并发访问问题了。而并发问题是绝大部分的程序员头疼的问题，但话又说回来了，既然逃避不掉，那我们就坦然面对吧~今天就让我们一起来研究一下常见的并发和同步吧。为了更好的理解并发和同步，我们需要先明白两个重要的概念:同步和异步 1、同步和异步的区别和联系　　所谓同步，可以理解为在执行完一个函数或方

2017-12-27 11:34:10 8921

转载 Hive与HBase的整合

1 Hive简介Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它把海量数据存储于Hadoop文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用类SQL语言对这些数据进行自动化管理和处理。我们可以把Hive中海量结构化数据看成一个个的表，而实际上这些数据是分布式存储在HDFS 中的。Hive经过对语句进行解析和转换，最终生成一系列基于H

2017-12-27 09:12:42 1754

转载 Spark 以及 spark streaming 核心原理及实践

导语spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统，因效率高，易用以及通用性越来越得到大家的青睐，我自己最近半年在接触spark以及spark streaming之后，对spark技术的使用有一些自己的经验积累以及心得体会，在此分享给大家。本文依次从spark生态，原理，基本概念，spark streaming原理及实践，还有spark调优以及环境搭建等方面进

2017-12-14 21:30:06 939

转载 Spark总结

Spark简介 spark 可以很容易和yarn结合，直接调用HDFS、Hbase上面的数据，和hadoop结合。配置很容易。 spark发展迅猛，框架比hadoop更加灵活实用。减少了延时处理，提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分分为RDD。Spark SQL、Spark Streaming、MLlib、GraphX

2017-12-12 14:23:24 577

转载工作中常用到的Linux命令

工作中，常用的命令，进行总结下。场景1：大张负责线上一个服务，使用java语言开发的。有一天，他收到报警，大概意思就是服务不能用，这个时候，老板让他查下是什么原因？下面是大张的处理过程？登录到这个机器，看下java进程 ps -aux | grep -v ‘grep’ | grep java –color=auto 经过分析，场景1：发现没有这个服务的ja

2017-12-10 10:27:48 276

转载 Spark性能优化：shuffle调优

文章目录1 shuffle调优1.1 调优概述1.2 ShuffleManager发展概述1.3 HashShuffleManager运行原理1.3.1 未经优化的HashShuffleManager1.3.2 优化后的HashShuffleManager1.4 SortShuffleManager运行原理1.4.1 普通运行机制

2017-12-04 14:55:37 199

转载 Spark性能优化：数据倾斜调优

文章目录1 前言2 数据倾斜调优2.1 调优概述2.2 数据倾斜发生时的现象2.3 数据倾斜发生的原理2.4 如何定位导致数据倾斜的代码2.4.1 某个task执行特别慢的情况2.4.2 某个task莫名其妙内存溢出的情况2.5 查看导致数据倾斜的key的数据分布情况2.6 数据倾斜的解决方案2.6.1 解决方案一：使

2017-12-04 14:54:37 211

在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源，作业运行会极其缓慢；或者设置的资源过大，队列没有足够的资源来提供，进而导致各种异常。总之，无论是哪

2017-12-04 14:52:34 186

转载 Spark性能优化：开发调优篇

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。　　然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合理的调优，Spark作业的执行速度可能会很慢，这样就完全体现不出Spa

2017-12-04 14:49:40 228

转载 hadoop集群基准测试

Hadoop自带了几个基准测试，本文使用的是hadoop-2.6.0一、Hadoop Test 的测试[root@master hadoop-2.6.0]# hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.6.0-tests.jar An example program m

2017-12-02 13:38:55 863

转载 yarn架构及 client提交任务过程讲解

先看个yarn的整体架构Client向RM提交任务的过程大致分为七步，先上图在解释：1. Client向RM发出请求2. RM返回一个ApplicationID作为回应3. Client向RM回应Application Submission Context（ASC）。ASC包括ApplicationID、user、queue，以及其他

2017-12-01 13:05:30 283

转载基于Flume的美团日志收集系统

原文地址：http://tech.meituan.com/mt-log-system-arch.html基于Flume的美团日志收集系统(一)架构和设计美团的日志收集系统负责美团的所有业务日志的收集，并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。《基于Flume的美团日志收集系统》将分

2017-11-26 14:34:55 905

转载 TeraSort实验--测试Map和Reduce Task数量对Hadoop性能的影响

一、实验环境1个master节点, 16个slave节点: CPU:8GHZ , 内存: 2G网络：局域网二、实验描述通过Hadoop自带的Terasort排序程序，测试不同的map task和reduce task数量，对Hadoop性能的影响。实验数据由程序中的teragen程序生成，数据量为1

2017-11-19 11:40:50 1171

转载 Hive的三种join方式

Common/Shuffle/Reduce JoinReduce Join在Hive中也叫Common Join或Shuffle Join如果两边数据量都很大，它会进行把相同key的value合在一起，正好符合我们在sql中的join，然后再去组合，如图所示。Map Join1）大小表连接：如果一张表的数据很大，另外一张表很少(Hive支持Map

2017-11-04 16:56:43 1233

转载 Hive小文件合并汇总

Hive的后端存储是HDFS，它对大文件的处理是非常高效的，如果合理配置文件系统的块大小，NameNode可以支持很大的数据量。但是在数据仓库中，越是上层的表其汇总程度就越高，数据量也就越小。而且这些表通常会按日期进行分区，随着时间的推移，HDFS的文件数目就会逐渐增加。小文件带来的问题关于这个问题的阐述可以读一读Cloudera的这篇文章。简单来说，HDF

2017-11-04 11:02:13 844

原创关于Shell的实用技巧分享

学过了不代表你知道了，掌握了不代表你能一直记得，温故而知新。辛辛苦苦学完的Shell全部抛到九霄云外了。。。。。借助周末好时光，带上五姑娘，把shell相关的知识随意的复习，分享一下。Shell的基本操作就不说了，聊一聊shell的高级文本处理命令吧！通常我们用到的文本处理命令分为以下八个：wc-计数，sort-排序，uniq-去重，cut-切割，grep-筛选，sed-流编辑

2017-10-28 16:26:25 296

原创 MapReduce之全流程讲解

周末心情好，来理下整个MapReduce的工作流程，方便记忆和理解。hadoop四大组件之一的MapReduce分布式计算系统，和HDFS-分布式存储系统，YARN-分布式操作系统（主要负责资源调度，相当于操作系统）三分天下，那么我们就将数据从HDFS输入到最后输出到HDFS来详细聊一聊Mapreduce的工作机制。首先，上图。光说不上图都是耍流氓。数据的供给交给HDFS，资源的调

2017-10-28 15:07:22 702 2

原创 Mapreduec流程之Shuffle过程详解

作为整个Mapreduce中最为神秘，复杂的部分，恰恰是平时业务中最经常接触的地方。仅仅依靠map和reduce阶段的业务代码编辑，是不能满足平时的业务需要的。真正的业务处理中，经常会涉及到自定义partition，sort，groupcomparator等情况。而只有了解清楚了shuffle阶段是怎么运行的，才能更好的帮助我们按需修改mapreduce中的各个组件。废话不说，直接进入主题！

2017-10-27 19:19:35 579 1

原创 Mapreduce中分组排序的一些认识

今天偶然和朋友讨论了下关于Mapreduce中分组排序输出topN的问题。为了方便大家理解，特意将聊天的细节分享给大家。业务逻辑经常会有topN的需求，通常我们对数据进行排序规则制定之后，我们并不能够按需求获得我们需要的数据，其关键原因就在于我们没有自定义分组。自定义分组，涉及到的一个关键类为WritableComparator。自定义分组的第一步，就是要编写一个类去继承该类，然后重写其c

2017-10-27 13:23:15 761 1

原创 Mapreduce自定义输入输出组件的认识

在进行Mapreduce的计算中，经常有需要按照自己的要求输入输出各种格式的需求。因此在这里，我简单将我了解的关于Mapreduce中自定义输入输出格式的认识分享给大家。首先，我们从输出格式开始说，这个比较简单。Mapreduce的输出格式的主要切入点是最后的context.write（key，value）方法。需要定义自己的输出格式，就必须改下这个write方法，让他按照我们自己的要求输出。

2017-10-25 20:49:02 833 1

原创关于Mapreduce中多任务串联执行的认识

最近加深了下Mapreduce的分布计算框架的理解，处理一些业务逻辑时，发现需要多个mapreduce程序才能完成。为了降低代码执行的繁琐度，将多个main文件合成一个，研究了下多任务的串联执行。下面就开始说说我的认识吧！业务逻辑是比较普遍的求共同好友的测试。一般而言，根据业务逻辑，需要编写两个mapreduce程序，分别放在两个java文件中，先后执行才能获取最终的结果。下面是我将两

2017-10-25 19:05:09 1680

zhigang1007的博客