![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 89
大数据时代
bst@微胖子
优秀的架构师曾这样说过:复杂的事情简单做,简单的事情重复做,重复的事情工具做,我们只做工具。这里分享给大家,希望能够帮助众多猴子们。
还有就是在工作中不管事哪级leader指派任务,都要问清楚对方三个问题:1、具体需求是什么?2、开发周期是多久什么时候启动?3、对接配合的相关团队是哪些(UI、后台、前端、测试、产品)
同样在做项目前要自己吃透需求,同时要问清楚自己三个问题:1、为什么要这么干?2、这样干有什么好处?3、还有没有更好的方式方法去做?
项目结束要及时的进行自我复盘、review。同时把做项目前问自己的三个问题在问一边。
相信时间久了,对自己的成长会有,以此鞭策自己!!!
展开
-
大数据之Hadoop分布式数据仓库HBase
HBase 是一个构建在 Hadoop 文件系统之上的面向列的数据库管理系统。HBase 是一种类似于 Google’s Big Table 的数据模型,它是 Hadoop 生态系统的一部分,它将数据存储在 HDFS 上,客户端可以通过 HBase 实现对 HDFS 上数据的随机访问。不支持复杂的事务,只支持行级事务,即单行数据的读写都是原子性的;由于是采用 HDFS 作为底层存储,所以和 HDFS 一样,支持结构化、半结构化和非结构化的存储;支持通过增加机器进行横向扩展;支持数据分片;原创 2023-04-28 10:20:25 · 2302 阅读 · 0 评论 -
Hive与HBase的区别及应用场景
在学大数据分析的过程中,Hive和HBase是两个非常重要的内容,对于初学者而言容易混淆。所以比较两者区别,能够帮助我们对这两个组件有一个清晰的认识和定位。那么,Hive和HBase有哪些区别以及应用场景呢?Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,默认情况下可以将sql语句转换为MapReduce任务进行运行。HBase是Hadoop的数据库,一个分布式、可扩展、大数据的存储。原创 2023-04-28 09:02:22 · 1226 阅读 · 0 评论 -
大数据之Hadoop数据仓库Hive
Hive 是一个构建在 Hadoop 之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类 SQL 查询功能,用于查询的 SQL 语句会被转化为 MapReduce 作业,然后提交到 Hadoop 上运行。简单、容易上手 (提供了类似 sql 的查询语言 hql),使得精通 sql 但是不了解 Java 编程的人也能很好地进行大数据分析;灵活性高,可以自定义用户函数 (UDF) 和存储格式;为超大的数据集设计的计算和存储能力,集群扩展容易;原创 2023-04-27 17:27:03 · 1991 阅读 · 1 评论 -
任务调度框架Azkaban Flow1.0和Azkaban Flow2.0
Azkaban 主要通过界面上传配置文件来进行任务的调度。Job: 你需要执行的调度任务;Flow:一个获取多个 Job 及它们之间的依赖关系所组成的图表叫做 Flow。目前 Azkaban 3.x 同时支持 Flow 1.0 和 Flow 2.0。Azkaban 目前同时支持 Flow 1.0 和 Flow2.0 ,但是官方文档上更推荐使用 Flow 2.0,因为 Flow 1.0 会在将来的版本被移除。Flow 2.0 的主要设计思想是提供 1.0 所没有的流级定义。原创 2023-04-27 15:24:22 · 741 阅读 · 0 评论 -
大数据之Hadoop集群资源管理器YARN
Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统。用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配。原创 2023-04-27 11:22:51 · 842 阅读 · 0 评论 -
大数据之Hadoop分布式计算框架MapReduce
Hadoop MapReduce 是一个分布式计算框架,用于编写批处理应用程序。编写好的程序可以提交到Hadoop集群上用于并行处理大规模的数据集。MapReduce 作业通过将输入的数据集拆分为独立的块,这些块由 map 以并行的方式处理,框架对 map的输出进行排序,然后输入到reduce 中。MapReduce 框架专门用于 键值对处理,它将作业的输入视为一组 对,并生成一组 对作为输出。原创 2023-04-27 10:45:58 · 1418 阅读 · 0 评论 -
大数据之Hadoop分布式文件系统HDFS
HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。读数据原理图:Hadoop的三大组件:HDFS(分布式存储系统),YARN(资源管理器),MapReduce(分布式计算算框架)。Hadoop的安装和配置后自带三大组件参考链接。原创 2023-04-26 17:16:16 · 455 阅读 · 0 评论 -
大数据之入门开发流程介绍
分布式文件系统完美地解决了海量数据存储的问题,但是一个优秀的数据存储系统需要同时考虑数据存储和访问两方面的问题,比如你希望能够对数据进行随机访问,这是传统的关系型数据库所擅长的,但却不是分布式文件系统所擅长的,那么有没有一种存储方案能够同时兼具分布式文件系统和关系型数据库的优点,基于这种需求,就产生了 HBase、MongoDB。流处理:对运动中的数据进行处理,即在接收数据的同时就对其进行处理,对应的处理框架有 Storm、Spark Streaming、Flink Streaming 等。原创 2023-04-26 16:21:48 · 1933 阅读 · 0 评论