- 学习大数据需要的基础
1、java SE、EE(SSM) 90%的大数据框架都是Java写的 2、MySQL SQL on Hadoop 3、Linux 大数据的框架安装在Linux操作系统上
- 需要学什么
大数据离线分析 一般处理T+1数据(T:可能是1天、一周、一个月、一年) a、Hadoop :一般不选用最新版本,踩坑难解决 (common、HDES、MapReduce、YARN) 环境搭建、处理数据的思想 b、Hive:大数据的数据仓库 通过写SQL对数据进行操作,类似于MySQL数据库的sql c、HBase:基于HDFS的NOSQL数据库 面向列存储 d、协作框架: sqoop(桥梁:HDFS《==》RDBMS) flume:搜集日志文件中的信息 e、调度框架 anzkaban 了解:crotab(Linux自带) zeus(Alibaba) Oozie(cloudera) f、前沿框架扩展: kylin、impala、ElasticSearch(ES) 大数据实时分析 以spark框架为主 Scala:OOP(面向对象程序设计)+FP(函数是程序设计) sparkCore:类比MapReduce sparkSQL:类比hive sparkStreaming:实时数据处理 kafka:消息队列 前沿框架扩展:flink 阿里巴巴:blink 大数据机器学习 spark MLlib:机器学习库 pyspark编程:Python和spark的结合 推荐系统 python数据分析 python机器学习
文末福利:关注java工会后台回复
“加群”:阿里大神和资深HR为你答疑解惑
“粉丝群”:加小编微信拉你进粉丝群
“视频”:100G+免费学习视频,近期有更新
“书籍”:1000+册技术电子书,最近新增30本电子书
精彩文章推荐