大数据
文章平均质量分 80
大数据里Hadoop,hive,hbase,flume,sqoop,spark,flink等的相关介绍
一笑何方
向着明天 努力奔跑
展开
-
大数据初级项目:数据的采集与监控
一、项目需求与组件架构 1.1需求 1、三种日志内容:行为日志、内容日志、业务日志。针对这三种日志会采取不同的手段,将数据采集到hdfs中,再建立转化为不同的hive表,以供后续的数据需求分析 2、行为日志和内容日志被采集到hdfs中时,要自动按照每一天的日期来划分数据存储目录。 3、数据采集好之后,统一使用azkaban来进行shell脚本的调度。因为数据的采集过程需要很多步骤来完成,而这些步骤统一使用shell脚本来自动实现。 4、使用prometheu+grafana+supervisor转载 2021-05-29 15:42:39 · 1325 阅读 · 0 评论 -
Hadoop的安装
1.Hadoop快速入门 1.1什么是Hadoop 从狭义上讲Hadoop是一个可拓展的分布式的开源的软件。主要提供分布式存储、分布式资源调度、分布式计算。 广义上讲,Hadoop是一个生态。包含了大数据领域中的几乎所有的解决方案。 1.2Hadoop核心模块 - Hadoop Common : Hadoop的通用的API - HDFS (Haddop Distribute File System) : 分布式文件管理系统,高吞吐量的存储的数据。 - Yarn : 作业调度以及资源管理..原创 2021-05-24 21:29:45 · 1187 阅读 · 11 评论