最新快速入门大数据开发学习路线（Hadoop+框架+云计算）

最新推荐文章于 2020-05-13 08:57:21 发布

程序员日常

最新推荐文章于 2020-05-13 08:57:21 发布

阅读量1k

点赞数

文章标签：大数据学习路线 Hadoop 框架云计算

本文链接：https://blog.csdn.net/ygcxydzx/article/details/84320138

版权

这篇博客提供了一条全面的大数据开发学习路径，涵盖了从Linux和Hadoop生态开始，包括大型网站高并发处理、Lucene和Solr搜索引擎、Hadoop离线计算、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架、Zookeeper开发，直至深入到实时计算框架Storm、消息队列Kafka、Redis、Zookeeper以及云计算技术。此外，还涉及了机器学习和深度学习的基础知识，以及项目实战经验分享。

摘要由CSDN通过智能技术生成

最新快速入门大数据开发学习路线（Hadoop+框架+云计算）外加机器学习&&深度学习

大数据指不用随机分析法这样捷径，而采用所有数据进行分析处理的方法。互联网时代每个企业每天都要产生庞大的数据，对数据进行储存，对有效的数据进行挖掘分析并应用需要依赖于大数据开发。

Linux&&Hadoop生态体系

Linux大纲

1) Linux的介绍，Linux的安装：VMware Workstation虚拟软件安装过程、CentOS虚拟机安装过程2) 了解机架服务器，采用真实机架服务器部署linux3) Linux的常用命令：常用命令的介绍、常用命令的使用和练习4) Linux系统进程管理基本原理及相关管理工具如ps、pkill、top、htop等的使用；5) Linux启动流程，运行级别详解，chkconfig详解6) VI、VIM编辑器：VI、VIM编辑器的介绍、VI、VIM扥使用和常用快捷键7) Linux用户和组账户管理：用户的管理、组管理8) Linux磁盘管理，lvm逻辑卷，nfs详解9) Linux系统文件权限管理：文件权限介绍、文件权限的操作10) Linux的RPM软件包管理：RPM包的介绍、RPM安装、卸载等操作11) yum命令，yum源搭建12) Linux网络：Linux网络的介绍、Linux网络的配置和维护13) Shell编程：Shell的介绍、Shell脚本的编写14) Linux上常见软件的安装：安装JDK、安装Tomcat、安装mysql,web项目部署
大型网站高并发处理

1) 第四层负载均衡a) Lvs负载均衡i. 负载算法，NAT模式，直接路由模式（DR），隧道模式（TUN）b) F5负载均衡器介绍2) 第七层负载均衡a) Nginxb) Apache3) Tomcat、jvm优化提高并发量4) 缓存优化a) Java缓存框架i. Oscache，ehcacheb) 缓存数据库i. Redis，Memcached5) Lvs+nginx+tomcat+redis|memcache构建二层负载均衡千万并发处理6) Haproxy7) Fastdfs小文件独立存储管理8) Redis缓存系统a) Redis基本使用b) Redis sentinel高可用c) Redis好友推荐算法
Lucene课程

1) Lucene介绍2) Lucene 倒排索引原理3) 建索引 IndexWriter4) 搜索 IndexSearcher5) Query6) Sort和过滤（filter）7) 索引优化和高亮
Solr课程

1) 什么是solr2) 为什么工程中要使用solr3) Solr的原理4) 如何在tomcat中运行solr5) 如何利用solr进行索引与搜索6) solr的各种查询7) solr的Filter8) solr的排序9) solr的高亮10) solr的某个域统计11) solr的范围统计12) solrcloud集群搭建
Hadoop离线计算大纲

1) Hadoop生态环境介绍2) Hadoop云计算中的位置和关系3) 国内外Hadoop应用案例介绍4) Hadoop 概念、版本、历史5) Hadoop 核心组成介绍及hdfs、mapreduce 体系结构6) Hadoop 的集群结构7) Hadoop 伪分布的详细安装步骤8) 通过命令行和浏览器观察hadoop9) HDFS底层工作原理10) HDFS datanode,namenode详解11) Hdfs shell12) Hdfs java api13) Mapreduce四个阶段介绍14) Writable15) InputSplit和OutputSplit16) Maptask17) Shuffle：Sort，Partitioner，Group,Combiner18) Reducer19) 二次排序20) 倒排序索引21) 最优路径22) 电信数据挖掘之-----移动轨迹预测分析（中国棱镜计划）23) 社交好友推荐算法24) 互联网精准广告推送算法25) 阿里巴巴天池大数据竞赛《天猫推荐算法》案例26) Mapreduce实战pagerank算法27) Hadoop2.x集群结构体系介绍28) Hadoop2.x集群搭建29) NameNode的高可用性（HA）30) HDFS Federation31) ResourceManager 的高可用性（HA）32) Hadoop集群常见问题和解决方法33) Hadoop集群管理
分布式数据库Hbase

1) HBase与RDBMS的对比2) 数据模型3) 系统架构4) HBase上的MapReduce5) 表的设计6) 集群的搭建过程讲解7) 集群的监控8) 集群的管理9) HBase Shell以及演示10) Hbase 树形表设计11) Hbase 一对多和多对多表设计12) Hbase 微博案例13) Hbase 订单案例14) Hbase表级优化15) Hbase 写数据优化16) Hbase 读数据优化
数据仓库Hive

1) 数据仓库基础知识2) Hive定义3) Hive体系结构简介4) Hive集群5) 客户端简介6) HiveQL定义7) HiveQL与SQL的比较8) 数据类型9) 外部表和分区表10) ddl与CLI客户端演示11) dml与CLI客户端演示12) select与CLI客户端演示13) Operators 和 functions与CLI客户端演示14) Hive server2 与jdbc15) 用户自定义函数（UDF 和 UDAF）的开发与演示16) Hive 优化
数据迁移工具Sqoop

1) 介绍和配置Sqoop2) Sqoop shell使用3) Sqoop-importa) DBMS-hdfsb) DBMS-hivec) DBMS-hbase4) Sqoop-export
Flume分布式日志框架

1) flume简介-基础知识2) flume安装与测试3) flume部署方式4) flume source相关配置及测试5) flume sink相关配置及测试6) flume selector 相关配置与案例分析7) flume Sink Processors相关配置和案例分析8) flume Interceptors相关配置和案例分析9) flume AVRO Client开发10) flume 和kafka 的整合
Zookeeper开发

1) Zookeeper java api开发2) Zookeeper rmi高可用分布式集群开发3) Zookeeper redis高可用监控实现4) Netty 异步io通信框架5) Zookeeper实现netty分布式架构的高可用
某一线公司的真实项目

项目技术架构体系：a) Web项目和云计算项目的整合b) Flume通过avro实时收集web项目中的日志c) 数据的ETLd) Hive 批量 sql执行e) Hive 自定义函数f) Hive和hbase整合。g) Hbase 数据支持 sql查询分析h) Mapreduce数据挖掘i) Hbase dao处理j) Sqoop 在项目中的使用。k) Mapreduce 定时调用和监控

大数据计算框架体系

Storm基础
- Storm是什么
- Storm架构分析
- Storm编程模型、Tuple源码、并发度分析
- Maven环境快速搭建
- Storm WordCount案例及常用Api
- Storm+Kafka+Redis业务指标计算
- Storm集群安装部署
- Storm源码下载编译
Storm原理
- Storm集群启动及源码分析
- Storm任务提交及源码分析
- Storm数据发送流程分析
- Strom通信机制分析浅谈
- Storm消息容错机制及源码分析
- Storm多stream项目分析
- Storm Trident和传感器数据
- 实时趋势分析
- Storm DRPC(分布式远程调用)介绍
- Storm DRPC实战讲解
- 编写自己的流式任务执行框架
消息队列kafka
- 消息队列是什么
- kafka核心组件
- kafka集群部署实战及常用命令
- kafka配置文件梳理
- kafka JavaApi学习
- kafka文件存储机制分析
- kafka的分布与订阅
- kafka使用zookeeper进行协调管理
Redis
- nosql介绍
- redis介绍
- redis安装
- 客户端连接
- redis的数据功能
- redis持久化
- redis应用案例
zookeper
- Zookeeper简介
- Zookeeper集群部署
- zookeeper核心工作机制
- Zookeeper命令行操作
- Zookeeper客户端API
- Zookeeper应用案例
- Zookeeper原理补充
日志告警系统项目实战
- 需求分析
- 架构及功能设计
- 数据采集功能开发及常见问题
- 数据库模型设计及开发
- Storm程序设计及功能开发
- 集成测试及运行
- 优化升级及常见问题
猜你喜欢推荐系统实战
- 推荐系统基础知识
- 推荐系统开发流程分析
- mahout协同过滤Api使用
- Java推荐引擎开发实战
- 推荐系统集成运行

云计算体系

Docker 课程
- 基本介绍
- vm docker 对比
- docker基本架构介绍
- unfs cgroup namespace
- 进程虚拟化轻量级虚拟化
- docker 安装
- docker 镜像制作
- docker 常用命令
- docker 镜像迁移
- docker pipework(i.openvswitch)
- docker weave
ReactJS框架
- 虚拟化介绍，虚拟化适用场景等等
- Qemu Libvirt & KVM
- 安装KVM, Qemu, Libvirt
- QEMU-KVM: 安装第一个能上网的虚拟机
- Kvm虚拟机 nat,网桥基本原理
- kvm虚拟机克隆
- kvm虚拟机vnc配置
- kvm虚拟机扩展磁盘空间
- Kvm快照
- Kvm 迁移
- Java,python,c语言编程控制kvm
- 构建自己的虚拟云平台
AngularJS框架
- openstack介绍和模块基本原理分析
- openstack多节点安装部署(a.采用centos6.x系统)
- Keystone基本原理
- glance
- Cinder
- Swift
- Neutron
- Openstack api 二次开发

机器学习&&深度学习

R语言&&机器学习

1) R语言介绍，基本函数，数据类型2) 线性回归3) 朴素贝叶斯聚类4) 决策树分类5) k均值聚类a) 离群点检测6) 关联规则探索7) 神经网络
Mahout机器学习

1) 介绍为什么使用它,它的前景a) 简单介绍Mahoutb) 简单介绍机器学习c) 实例演示Mahout单机推荐程序2) 配置安装（hadoop2.x版本的）编译安装步骤说明a) 命令行中测试运行协同过滤概念3) 推荐a) 讲解基于用户的协同过滤b) 讲解基于物品的协同过滤4) 分类a) 分类概念b) 分类的应用及Mahout分类优势c) 分类和聚类、推荐的区别d) 分类工作原理e) 分类中概念术语f) 分类项目工作流g) 如何定义预测变量h) 线性分类器的介绍，及贝叶斯分类器i) 决策树分类器的介绍，及随机森林分类器j) 如何使用贝叶斯分类器和随机森林分类器的代码展示5) 聚类a) 聚类概念b) 聚类步骤流程c) 聚类中的距离测度d) 讲解K-means聚类e) K-means聚类算法展示f) 聚类其他算法g) 介绍TF-IDFh) 归一化i) 微博聚类案例
项目实战

项目技术架构体系：a) 分布式平台 Hadoop，MapReduceb) 数据采集 Flumec) 数据清洗 ETLd) 数据库 Hbase，Redise) 机器学习 Mahout