大数据学习路线(2019年最新整理)需要掌握的技术

最新推荐文章于 2024-04-27 21:04:07 发布

程序员老金

最新推荐文章于 2024-04-27 21:04:07 发布

阅读量281

点赞数

分类专栏：大数据开发大数据学习编程语言文章标签：大数据技术大数据开发大数据学习编程语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45732629/article/details/102605438

版权

大数据开发同时被 3 个专栏收录

23 篇文章 0 订阅

订阅专栏

大数据学习

23 篇文章 0 订阅

订阅专栏

23 篇文章 0 订阅

订阅专栏

大数据学习路线（完整细节版）

大数据学习路线

java

(Java se,javaweb)

Linux(shell,高并发架构,lucene,solr)

Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)

机器学习(R,mahout)

Storm(Storm,kafka,redis)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python,spark python)

云核算渠道(docker,kvm,openstack)

互联网科技发展蓬勃兴起，人工智能时代来临，抓住下一个风口。为帮助那些往想互联网方向转行想学习，却因为时间不够，资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程，大数据学习群：199加上【427】最后加上210就可以找到组织学习欢迎进阶中和进想深入大数据的小伙伴加入。

名词解释

一、Linux

lucene：全文检索引擎的架构

solr：根据lucene的全文查找服务器，完结了可装备、可扩展并对查询功用进行了优化，而且供给了一个完善的功用办理界面。

二、Hadoop

HDFS

：分布式存储体系，包含NameNode，DataNode。NameNode：元数据，DataNode。DataNode：存数数据。

yarn：能够理解为MapReduce的和谐机制，本质就是Hadoop的处理剖析机制，分为ResourceManager NodeManager。

MapReduce：软件结构，编写程序。

Hive：数据仓库能够用SQL查询，能够运行Map/Reduce程序。用来核算趋势或许网站日志，不该用于实时查询，需求很长时刻回来成果。

HBase：数据库。十分合适用来做大数据的实时查询。Facebook用Hbase存储音讯数据并进行音讯实时的剖析

ZooKeeper：针对大型分布式的可靠性和谐体系。Hadoop的分布式同步等靠Zookeeper完结，例如多个NameNode，active standby切换。

Sqoop：数据库彼此搬运，关系型数据库和HDFS彼此搬运

Mahout：可扩展的机器学习和数据发掘库。用来做引荐发掘，集合，分类，频频项集发掘。

Chukwa：开源搜集体系，监督大型分布式体系，建立在HDFS和Map/Reduce结构之上。显现、监督、剖析成果。

Ambari：用于装备、办理和监督Hadoop集群，根据Web，界面友爱。

二、Cloudera

Cloudera Manager：办理监控确诊集成

Cloudera CDH：(Cloudera's Distribution，including Apache Hadoop) Cloudera对Hadoop做了相应的改动，发行版别称为CDH。

Cloudera Flume：日志搜集体系，支撑在日志体系中定制各类数据发送方，用来搜集数据。

Cloudera Impala：对存储在Apache Hadoop的HDFS，HBase的数据供给直接查询互动的SQL。

Cloudera hue： web办理器，包含hue ui，hui server，hui db。hue供给一切CDH组件的shell界面的接口，能够在hue编写mr。

三、机器学习/R

R

：用于统计剖析、绘图的言语和操作环境，现在有Hadoop-R

mahout：供给可扩展的机器学习范畴经典算法的完结，包含聚类、分类、引荐过滤、频频子项发掘等，且可经过Hadoop扩展到云中。

四、storm

Storm

：分布式，容错的实时流式核算体系，能够用作实时剖析，在线机器学习，信息流处理，连续性核算，分布式RPC，实时处理音讯并更新数据库。

Kafka：高吞吐量的分布式发布订阅音讯体系，能够处理消费者规划的网站中的一切动作流数据（阅读，查找等）。相对Hadoop的日志数据和离线剖析，能够完结实时处理。现在经过Hadoop的并行加载机制来一致线上和离线的音讯处理

Redis：由c言语编写，支撑网络、可根据内存亦可耐久化的日志型、key-value型数据库。

五、Spark

Scala

：一种类似java的彻底面向对象的编程言语。

jblas：一个快速的线性代数库（JAVA）。根据BLAS与LAPACK，矩阵核算实践的行业标准，并运用先进的根底设施等一切的核算程序的ATLAS艺术的完结，使其十分快。

Spark： Spark是在Scala言语中完结的类似于Hadoop MapReduce的通用并行结构，除了Hadoop MapReduce所具有的长处，但不同于MapReduce的是job中心输出成果能够保存在内存中，从而不需求读写HDFS，因而Spark能更好的适用于数据发掘与机器学习等需求迭代的MapReduce算法。能够和Hadoop文件体系并行运作，用过Mesos的第三方集群结构能够支撑此行为。

Spark SQL：作为Apache Spark大数据结构的一部分,可用于结构化数据处理并能够履行类似SQL的Spark数据查询

Spark Streaming：一种构建在Spark上的实时核算结构，扩展了Spark处理大数据流式数据的才能。

Spark MLlib： MLlib是Spark是常用的机器学习算法的完结库，现在(2014.05)支撑二元分类，回归，聚类以及协同过滤。一起也包含一个底层的梯度下降优化根底算法。MLlib以来jblas线性代数库，jblas自身以来长途的Fortran程序。

Spark GraphX： GraphX是Spark中用于图和图并行核算的API，能够在Spark之上供给一站式数据解决方案，能够便利且高效地完结图核算的一整套流水作业。

Fortran：最早呈现的核算机高档程序设计言语，广泛应用于科学和工程核算范畴。

BLAS：根底线性代数子程序库，具有很多现已编写好的关于线性代数运算的程序。

LAPACK：闻名的揭露软件，包含了求解科学与工程核算中最常见的数值线性代数问题，如求解线性方程组、线性最小二乘问题、特征值问题和奇特值问题等。

ATLAS： BLAS线性算法库的优化版别。

Spark Python： Spark是由scala言语编写的，但是为了推广和兼容，供给了java和python接口。

六、Python

Python

: 一种面向对象的、解释型核算机程序设计言语。

七、云核算渠道

Docker

：开源的应用容器引擎

kvm： (Keyboard Video Mouse)

openstack：开源的云核算办理渠道项目

程序员老金

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据学习路线(2019年最新整理)需要掌握的技术

大数据学习路线（完整细节版）大数据学习路线java(Java se,javaweb)Linux(shell,高并发架构,lucene,solr)Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)机器学习(R,mahout)Storm(Storm,kafka,redis)Sp...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。