大数据的学习历程

Tarafireworks

已于 2022-09-06 13:55:34 修改

阅读量620

点赞数

文章标签：大数据学习

于 2022-09-06 08:39:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44760073/article/details/126707545

版权

在这里插入图片描述

数据采集模块：负责从各节点上实时采集数据，建议选用Flume-NG来实现。

数据接入模块：由于采集数据的速度和数据处理的速度不一定同步，因此添加一个消息中间件来作为缓冲，建议选用Kafka来实现。

流式计算模块：对采集到的数据进行实时分析，建议选用Storm来实现。

数据输出模块：对分析后的结果持久化,可以使用HDFS、MySQL等。

离线分布式计算引擎：Hadoop MapReduce、Spark
实时计算引擎：Storm、Spark Streaming
分布式存储：HDFS、HBase

大数据开发需要掌握哪些技术？

阶段一：Linux&Hadoop生态体系基础知识、原理

Linux体系、Python编程语言核心用法、Hadoop离线计算原理、分布式数据库Hbase、数据仓库Hive、Flume分布式日志采集、zookeeper全局分布式锁、kafka分布式发布-订阅消息系统、spark分布式计算框架。

阶段二：分布式计算框架和Spark&Strom/flink生态体系

1、分布式计算框架优化与实战

Scala编程语言核心用法、Spark（sql、shell）大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习）大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、hive数仓实战、hbase实战。

2、Storm/flink技术架构体系

Storm/flink原理、基础、调优消息队列kafka、Redis工具、zookeeper详解

阶段三、数据挖掘与机器学习

结巴+隐马尔科夫、维特比算法+userCF、spark实现userCF+itemCF+LR+商品预测、决策树+随机森林+GBDT、支持向量机SVM、神经网络与深度学习、word2vec + lstm、als算法、kmeans + spark应用 + 交叉特征、贝叶斯 + 新闻分类 + saprk应用。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。