大数据学习路线(2019年最新整理)需要掌握的技术

大数据学习路线(完整细节版)

 

大数据学习路线

java

(Java se,javaweb)

Linux(shell,高并发架构,lucene,solr)

Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)

机器学习(R,mahout)

Storm(Storm,kafka,redis)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python,spark python)

云核算渠道(docker,kvm,openstack)

 

互联网科技发展蓬勃兴起,人工智能时代来临,抓住下一个风口。为帮助那些往想互联网方向转行想学习,却因为时间不够,资源不足而放弃的人。我自己整理的一份最新的大数据进阶资料和高级开发教程,大数据学习群:199加上【427】最后加上210就可以找到组织学习  欢迎进阶中和进想深入大数据的小伙伴加入。

 

名词解释

一、Linux

lucene: 全文检索引擎的架构

solr: 根据lucene的全文查找服务器,完结了可装备、可扩展并对查询功用进行了优化,而且供给了一个完善的功用办理界面。

二、Hadoop

HDFS

: 分布式存储体系,包含NameNode,DataNode。NameNode:元数据,DataNode。DataNode:存数数据。

yarn: 能够理解为MapReduce的和谐机制,本质就是Hadoop的处理剖析机制,分为ResourceManager NodeManager。

MapReduce: 软件结构,编写程序。

Hive: 数据仓库 能够用SQL查询,能够运行Map/Reduce程序。用来核算趋势或许网站日志,不该用于实时查询,需求很长时刻回来成果。

HBase: 数据库。十分合适用来做大数据的实时查询。Facebook用Hbase存储音讯数据并进行音讯实时的剖析

ZooKeeper: 针对大型分布式的可靠性和谐体系。Hadoop的分布式同步等靠Zookeeper完结,例如多个NameNode,active standby切换。

Sqoop: 数据库彼此搬运,关系型数据库和HDFS彼此搬运

Mahout: 可扩展的机器学习和数据发掘库。用来做引荐发掘,集合,分类,频频项集发掘。

Chukwa: 开源搜集体系,监督大型分布式体系,建立在HDFS和Map/Reduce结构之上。显现、监督、剖析成果。

Ambari: 用于装备、办理和监督Hadoop集群,根据Web,界面友爱。

二、Cloudera

Cloudera Manager: 办理 监控 确诊 集成

Cloudera CDH:(Cloudera's Distribution,including Apache Hadoop) Cloudera对Hadoop做了相应的改动,发行版别称为CDH。

Cloudera Flume: 日志搜集体系,支撑在日志体系中定制各类数据发送方,用来搜集数据。

Cloudera Impala: 对存储在Apache Hadoop的HDFS,HBase的数据供给直接查询互动的SQL。

Cloudera hue: web办理器,包含hue ui,hui server,hui db。hue供给一切CDH组件的shell界面的接口,能够在hue编写mr。

三、机器学习/R

R

: 用于统计剖析、绘图的言语和操作环境,现在有Hadoop-R

mahout: 供给可扩展的机器学习范畴经典算法的完结,包含聚类、分类、引荐过滤、频频子项发掘等,且可经过Hadoop扩展到云中。

四、storm

Storm

: 分布式,容错的实时流式核算体系,能够用作实时剖析,在线机器学习,信息流处理,连续性核算,分布式RPC,实时处理音讯并更新数据库。

Kafka: 高吞吐量的分布式发布订阅音讯体系,能够处理消费者规划的网站中的一切动作流数据(阅读,查找等)。相对Hadoop的日志数据和离线剖析,能够完结实时处理。现在经过Hadoop的并行加载机制来一致线上和离线的音讯处理

Redis: 由c言语编写,支撑网络、可根据内存亦可耐久化的日志型、key-value型数据库。

五、Spark

Scala

: 一种类似java的彻底面向对象的编程言语。

jblas: 一个快速的线性代数库(JAVA)。根据BLAS与LAPACK,矩阵核算实践的行业标准,并运用先进的根底设施等一切的核算程序的ATLAS艺术的完结,使其十分快。

Spark: Spark是在Scala言语中完结的类似于Hadoop MapReduce的通用并行结构,除了Hadoop MapReduce所具有的长处,但不同于MapReduce的是job中心输出成果能够保存在内存中,从而不需求读写HDFS,因而Spark能更好的适用于数据发掘与机器学习等需求迭代的MapReduce算法。能够和Hadoop文件体系并行运作,用过Mesos的第三方集群结构能够支撑此行为。

Spark SQL: 作为Apache Spark大数据结构的一部分,可用于结构化数据处理并能够履行类似SQL的Spark数据查询

Spark Streaming:一种构建在Spark上的实时核算结构,扩展了Spark处理大数据流式数据的才能。

Spark MLlib: MLlib是Spark是常用的机器学习算法的完结库,现在(2014.05)支撑二元分类,回归,聚类以及协同过滤。一起也包含一个底层的梯度下降优化根底算法。MLlib以来jblas线性代数库,jblas自身以来长途的Fortran程序。

Spark GraphX: GraphX是Spark中用于图和图并行核算的API,能够在Spark之上供给一站式数据解决方案,能够便利且高效地完结图核算的一整套流水作业。

Fortran: 最早呈现的核算机高档程序设计言语,广泛应用于科学和工程核算范畴。

BLAS: 根底线性代数子程序库,具有很多现已编写好的关于线性代数运算的程序。

LAPACK: 闻名的揭露软件,包含了求解科学与工程核算中最常见的数值线性代数问题,如求解线性方程组、线性最小二乘问题、特征值问题和奇特值问题等。

ATLAS: BLAS线性算法库的优化版别。

Spark Python: Spark是由scala言语编写的,但是为了推广和兼容,供给了java和python接口。

六、Python

Python

: 一种面向对象的、解释型核算机程序设计言语。

七、云核算渠道

Docker

: 开源的应用容器引擎

kvm: (Keyboard Video Mouse)

openstack:  开源的云核算办理渠道项目


 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值