大数据工程师的日常工作内容是干嘛？

最新推荐文章于 2022-08-24 18:48:41 发布

weixin_45732643

最新推荐文章于 2022-08-24 18:48:41 发布

阅读量646

点赞数

分类专栏：大数据开发 Hadoop 编程语言文章标签：大数据大数据开发编程语言大数据技术

本文链接：https://blog.csdn.net/weixin_45732643/article/details/102952856

版权

大数据开发同时被 3 个专栏收录

23 篇文章 0 订阅

订阅专栏

Hadoop

22 篇文章 0 订阅

订阅专栏

编程语言

22 篇文章 0 订阅

订阅专栏

大数据工程师工作内容取决于你工作在数据流的哪一个环节。

从数据上游到数据下游，大致可以分为：

数据采集 -> 数据清洗 -> 数据存储 -> 数据分析统计 -> 数据可视化 等几个方面

工作内容当然就是使用工具组件(Spark、Flume、Kafka等)或者代码(Java、Scala等)来实现上面几个方面的功能。

具体说说吧，

数据采集：

业务系统的埋点代码时刻会产生一些分散的原始日志，可以用Flume监控接收这些分散的日志，实现分散日志的聚合，即采集。

数据清洗：

原始的日志，数据是千奇百怪的

一些字段可能会有异常取值，即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据，需要对这些记录进行过滤或者字段数据回填。
一些日志的字段信息可能是多余的，下游不需要使用到这些字段做分析，同时也为了节省存储开销，需要删除这些多余的字段信息。
一些日志的字段信息可能包含用户敏感信息，需要做脱敏处理。如用户姓名只保留姓，名字用'*'字符替换。

数据存储：

清洗后的数据可以落地入到数据仓库(Hive)，供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高，则可以把日志记录入到kafka。

数据分析统计：

数据分析是数据流的下游，消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据，简单的报表统计可以用sql在kylin或者hive统计，复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。

数据可视化：

用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据~

当然，大数据平台(如CDH、FusionInsight等)搭建与维护，也可能是大数据工程师工作内容的一部分喔~

互联网科技发展蓬勃兴起，人工智能时代来临，抓住下一个风口。为帮助那些往想互联网方向转行想学习，却因为时间不够，资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程，大数据学习群：9437连载一起91324 欢迎进阶中和进想深入大数据的小伙伴加入。

学习大数据的话，可以给你一个大纲，入门可以参考。

一般的学习方法如下：

1、Linux命令基础实战

大数据架构体系结构及开源组件介绍（要掌握）

Linux基本操作（常见的Linux命令需要会）

2：Hadoop基础

Hadoop基础，对Hadoop架构、核心组件HDFS/YARN做了深入浅出的介绍，让你快速把握Hadoop的核心技术和工作原理，逐渐形成分布式思维；

Hadoop介绍

Hadoop运行模式

3：Hadoop集群搭建

Hadoop集群搭建——安装Linux虚拟机

Hadoop集群搭建——远程连接

Hadoop集群搭建(on Linux)——Hadoop(上）

Hadoop集群搭建(on Linux)——Hadoop（下）

Hadoop集群搭建(on Mac)——Hadoop

4：HDFS原理

番外篇-课程体系

HDFS架构原理

FS Shell命令介绍及实践

5：YARN工作原理

YARN的产生背景

YARN的设计思想

YARN的基本架构

YARN的工作流程(小结)

6：Sqoop

Sqoop，作为关系型数据库与Hadoop之间的桥梁，批量传输数据，让你自然的从关系型数据库过度到Hadoop平台，在关系型数据库与Hadoop之间游刃有余的进行数据导入导出；

Sqoop & Hive课程内容介绍

Sqoop介绍与安装

Sqoop的基本使用

Sqoop 导入参数详解

Sqoop导入实战

Sqoop增量导入（上）

Sqoop增量导入（下）

Sqoop导出实战（上）

Sqoop导出实战（下）

Sqoop Job

7：Hive

Hive，基于Hadoop大数据平台的数据仓库，可以让你实现传统数据仓库中的绝大部分数据处理、统计分析，让你在Hadoop大数据平台上感受到Hive QL带来的便利的交互式查询体验；Mars将以日志分析或其他示例带大家熟练掌握Hive的应用；

Hive架构介绍（一）

Hive架构介绍（二）

Hive环境搭建（一）

Hive环境搭建（二）

Hive CLI初探

Beeline介绍

Hive数据类型

Hive表一——标准建表语句解析&内、外表

Hive表二——文件及数据格式

Hive分区&桶&倾斜概念

Hive表——Alter

Hive视图&索引简介

Hive表——show & Desc命令

Hive数据导入--load

Hive数据导入--insert

Hive分区表实战

Hive复杂数据类型的嵌套实例

Hive源码阅读环境

Hive执行原理

Hive查询优化

UDF函数实例

Hive终极实例——日志分析

（1）网站日志分析的术语、架构介绍

（2）建表及数据准备

（3）数据处理及统计分析

（4）数据采集到统计分析结果的crontab定时调度

8：HBase

HBase，列式存储数据库，提供了快速的查询方式，是Apache Kylin的默认数据存储结果；

HBase介绍及架构

HBase安装

HBase操作实战

Hive与HBase集成实战

9：Kylin

Kylin，基于Hadoop的OLAP分析引擎，在Kylin中可以实现传统OLAP的各种操作，直接读取Hive的数据或流式数据作为数据源，把这些数据根据业务模型构建成Cube，Kylin提供了基于Hadoop（MapReduce）的Cube构建，Build完成的Cube数据直接存储于HBase中。Kylin提供了Web UI供查询，包括一些图表展现，是基于大数据的完美OLAP工具；

维度建模

Kylin背景及原理架构

Kylin环境搭建

维度建模知识

Kylin Cube Build步骤解析

Kylin Cube实战

Kylin 增量Cube

Kylin 优化

10：Spark

Spark，基于内存计算的大数据计算引擎，提供了Spark SQL、Spark MLlib(基于Spark的机器学习）、SparkR等框架适应不同的应用需求，Spark专题将和大家一起实践操作各种应用和算法；

Spark集群搭建

Spark Core

Spark WordCount（Spark-shell/pyspark..）

IDEA IntelliJ搭建Spark开发环境

Spark编程实例

Spark SQL及DataFrame

Spark SQL实例

Spark Streaming

Spark Streaming实例

Spark MLlib

Spark MLlib应用实例

Spark R介绍

可以基于每个模版去查一些相应的资料及教程，然后按照操作即可。。。

weixin_45732643

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据工程师的日常工作内容是干嘛？

大数据工程师工作内容取决于你工作在数据流的哪一个环节。从数据上游到数据下游，大致可以分为：数据采集 -> 数据清洗 -> 数据存储 -> 数据分析统计 -> 数据可视化等几个方面工作内容当然就是使用工具组件(Spark、Flume、Kafka等)或者代码(Java、Scala等)来实现上面几个方面的功能。具体说说吧，数据采集：业务系统的埋点代...
复制链接

扫一扫