大数据
文章平均质量分 79
raxanne
业精于勤,荒于嬉,行成于思而毁于随!
展开
-
Hive常见问题及处理方法
Hive是什么 Hive是基于Hadoop的一个数据仓库工具,应该是整个Hadoop系统中最常使用的一个功能组件,通过内部的关系型元数据库,将存储在hdfs中的文件有效的管理起来,并提供类SQL的数据库操作语言,满足大数据集的统计分析工作。关于Hive的架构原理和基本操作部分,可以参考如下这篇文章[这里写链接内容](http://www.cnblogs.com/wangrd/p/6275162.h原创 2017-09-15 15:14:07 · 1931 阅读 · 0 评论 -
Spark及其核心概念理解
Spark是什么 Spark是UC Berkeley AMP lab (美国加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce通用并行计算处理框架,是专为大规模数据处理而设计的快速通用的计算引擎。可以说,spark是对Hadoop大数据处理技术的延续和发展,既继承了hadoop分布式并行处理的相关理念,同时也解决了目前Hadoop存在的一些问题,比如MapReduc编程比原创 2017-09-23 22:05:29 · 1219 阅读 · 0 评论 -
Hadoop关键技术理解
Hadoop关键技术理解前言大数据这几年特别火,从学校毕业后的工作也是和大数据相关的,但大数据具体是什么,有些什么关键技术?遇到有人问我这个问题的时候,只能说出比较有代表性的专有名词,如大数据的四个“V”以及hadoop, spark,storm等等,所以工作之余自己就查查资料,总结了一下对Hadoop关键技术的理解。Hadoop Hadoop的具体定义在网上一搜一大把,其关键技术主要是HDF原创 2017-09-08 17:53:24 · 2017 阅读 · 0 评论 -
Spark RDD操作总结
前言 Spark的核心抽象是RDD,Spark程序中RDD对象无处不在,因此在基于Spark进行编程开发之前,需要对RDD的特征和基本操作有所了解,以便能顺利进行Spark程序的编程开发。RDD创建方式 sc =sparkConte原创 2017-09-29 15:49:53 · 1168 阅读 · 0 评论 -
Hive实现数据抽样的三种方法
在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样(SAMPLING)的功能,能够根据一定的规则进行数据抽样,目前支持数据块抽样,分桶抽样和随机抽样,具体如下所示:数据块抽样(tablesample()函数) 1) tablesample(n percent) 根据hive表原创 2017-10-19 22:31:50 · 48022 阅读 · 2 评论 -
spark-submit 指令详解
编写好的Spark程序一般通过Spark-submit指令的方式提交给Spark集群进行具体的任务计算,Spark-submit指令可以指定一些向集群申请资源的参数(也可直接在Spark程序代码中指定,参数生效的优先级最高),在Linux环境下,可通过spark-submit –help 了解spark-submit指令的各种参数说明,截图如下: 案例(Python任务提交): spark-s原创 2017-10-31 16:52:02 · 14337 阅读 · 1 评论 -
Spark中groupByKey与reduceByKey算子之间的区别
Spark程序中的shuffle操作非常耗时,在spark程序优化过程中会专门针对shuffle问题进行优化,从而减少不必要的shuffle操作,提高运行效率;但程序中有些逻辑操作必须有shuffle操作才能完成,常见的如groupByKey、reduceByKey操作等。上述两个算子是Spark处理(key,value)类型数据最常用到的函数,那么这两个算子有什么区别,在使用时该如何选择?下面从p原创 2017-11-19 21:30:18 · 3473 阅读 · 1 评论 -
Spark 的Shuffle过程详解
一、Shuffle的作用是什么?Shuffle的中文解释为“洗牌操作”,可以理解成将集群中所有节点上的数据进行重新整合分类的过程。其思想来源于hadoop的mapReduce,Shuffle是连接map阶段和reduce阶段的桥梁。由于分布式计算中,每个阶段的各个计算节点只处理任务的一部分数据,若下一个阶段需要依赖前面阶段的所有计算结果时,则需要对前面阶段的所有计算结果进行重新整合和分类,这就原创 2018-01-15 17:49:53 · 12868 阅读 · 4 评论