QianL.-CSDN博客

原创 MapReduce编程模式——WordCount程序详解

首先介绍一下Hadoop的四大组件：- HDFS：分布式存储系统- MapReduce：分布式计算系统- YARN：hadoop的资源调度系统- Common：以上三大组件的底层支撑组件，主要提供工具包和RPC框架等MapReduce是一个分布式运算程序的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。其核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的...

2019-04-24 16:02:32 578

原创 Sqoop数据迁移工具

Sqoop是Apache旗下的一款“Hadoop和关系数据库服务器之间传送数据”的工具。比如：导入数据——MySQL,Oracle导入数据到Hadoop的Hdfs，Hive，HBase等数据存储系统；导出数据——从Hadoop的文件系统中导出数据到关系数据库MySQL等。Sqoop的本质还是一个命令行工具。工作机制将导入或导出命令翻译成MapReduce程序来实现，在翻译出MapReduc...

2019-04-24 15:35:21 190

简介HDFS是一个分布式文件系统，通过统一的命名空间——目录树来定位文件，由很多的服务器联合起来实现分布式的功能，主要来解决海量数据的存储问题。在大数据系统结构中就是为分布式运算框架提供数据存储服务的。主要设计思想：“分而治之，冗余备份”。将大文件被切割成小文件，使用分而治之的思想让很多服务器对同一个文件进行联合管理；再者，将每一个小文件做冗余备份并且分散存储到不同的服务器中，做到高可靠不丢失...

2019-04-24 15:34:30 502

原创大数据辅助工具——Flume

Hadoop业务的整体开发流程：Flume数据采集——MapReduce数据清洗——存入Hbase——Hive统计分析——存入Hive表——Sqoop导出数据——Mysql数据库——Web展示总结来说分为以下几个步骤：数据采集，数据ETL，数据存储，数据计算/分析，数据展示。数据来源大体包括：- 业务数据- 爬虫爬取的网络公开数据- 购买数据- 自行采集手机的日志数据FlumeF...

2019-04-24 15:33:29 725 1

原创 Hive的常用函数大全

关系运算等值比较：A=B如果表达式A和表达式B相等，返回true，否则返回false––不等值比较：A<>B如果表达式A和表达式B不相等，返回true，否则返回false（若A和B有一个为null，则返回null）––小于/大于比较：A<B / A>B如果表达式A小于/大于表达式B，返回true，否则返回false（若...

2019-04-02 13:30:15 556

原创 HDFS中四个核心的设计

HDFS四个核心的设计包括：心跳机制，安全模式，副本存放策略，负载均衡。心跳机制：Hadoop是Master/Slave结构的，Master和Slave之间就是通过心跳机制进行通信的。具体流程：Master启动时会启动一个IPC Server等待Slave的连接。当Slave启动的时候，会自动连接IPC Server，并且以3秒（默认）为间隔向Master通讯一次。DataNode（即Sl...

2019-03-26 22:11:33 400 1

原创 Spark RDD中两种算子之一：常见Action算子小结

常见Action算子：reduce(func)：通过函数func聚集集合中的所有的元素。func函数接收2个参数，返回一个值。这个函数必须是关联性的，确保可以被正确地并发执行。这个算子不像reduceByKey一样通过key进行分组，所以其是一个全量的操作。collect()：在Driver的程序中，以数组的形式，返回数据集的所有元素。但是，请注意，这个只能在返回一个较小的数据子集时才能使用...

2019-03-26 20:02:34 4453 1

原创 Spark RDD中两种算子之一：常见Transformation算子小结

RDD：弹性分布式数据集，是一种特殊集合，支持多来源，有容错机制，可以被缓存，支持并行操作，一个RDD代表多个分区里的数据集。RDD有两种算子：1.Transformation（转换）：属于延迟Lazy计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住数据集的逻辑操作；2.Action（执行）：触发Spark作业运行，真正触发转换算子的计算；RDD中算子的运行过程：输入...

2019-03-26 13:40:39 1555

weixin_44319333的博客