大数据-spark
文章平均质量分 89
xiaoqiang17
这个作者很懒,什么都没留下…
展开
-
大数据-spark概述
1. Spark概述1.1. 什么是Spark(官网:http://spark.apache.org)Spark是一种快速、通用、可扩展的大数据分析引擎。目前,Spark生态系统已经包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环原创 2017-08-20 20:12:15 · 1395 阅读 · 0 评论 -
Hadoop/Spark生态圈里的新气象
Hadoop/Spark生态圈里的新气象摘要: 令人惊讶的是,Hadoop在短短一年的时间里被重新定义。让我们看看这个火爆生态圈的所有主要部分,以及它们各自具有的意义。 对于Hadoop你需要了解的最重要的事情就是 ,它不再是原来的Hadoop。令人惊讶的是,Hadoop在短短一年的时间里被重新定义。让我们看看这个火爆生态圈的所有主要部分,以及它们各自具有的意义。转载 2017-08-21 13:20:03 · 270 阅读 · 0 评论 -
自定义排序及RDD理解,spark
自定义排序1:object CustomSort1 { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("CustomSort1").setMaster("local") val sc: SparkContext = new SparkCo原创 2017-08-24 22:06:00 · 2672 阅读 · 0 评论 -
sparkSql入门1
1. Spark SQL1.1. Spark SQL概述1.1.1. 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。1.1.2. 为什么要学习Spark SQL我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执原创 2017-08-26 21:18:16 · 716 阅读 · 1 评论 -
sparkStreaming总结
1、实时系统架构简介实时数据处理长江流域水质监测,双十一天猫交易额,高德地图实时加离线:广告推送高可用,高并发,高吞吐消息中间件/消息队列大数据:Kafka:临时存储数据实时计算系统:SparkStreeming/storm数据库:Hbase、Redis/NoSQL关系型数据库:MySQL、Oracle2、Kafka消息中间件Kafka.apache原创 2017-08-29 19:37:37 · 604 阅读 · 0 评论 -
SparkStreaming总结下
一、spark直连方式和Receiver方式比较consumer 传统的消息者(老的方式)需要连接ZK,新的方式(高效的方式)不需要连接ZK,但是要自己维护偏移量consumer group 一个消费者组下可以有多个消费者,不重复消息 DStream离散的数据流,是SparkStreaming中一个最基本的抽象,DStream中不存放数据,也可以认为是一个分布式的数原创 2017-08-29 21:13:58 · 7428 阅读 · 0 评论 -
游戏项目1-1
游戏项目开始了一、整体架构二、采集数据1、将flume部署在Windows上2、保证数据不能重复3、保证断点续传4、定义拦截器,转换器5、乱码问题6、采集的数据落到Kafka中三、学习flumeFlume.apache.org四、开始写代码1、建一个工程原创 2017-08-31 23:50:58 · 1027 阅读 · 0 评论 -
集群安装规范之linux命令
1 Linux简介CentOSCentOS6.6CentOS官网:http://www.centos.org/CentOS搜狐镜像:http://mirrors.sohu.com/centos/CentOS网易镜像:http://mirrors.163.com/centos/2 Linux安装安装环境:Windows7 , VMware Workst原创 2017-10-15 11:14:14 · 1347 阅读 · 0 评论 -
CentOS7命令
要求root登录#查看服务状态systemctl status NetworkManager / network#停止服务systemctl stop NetworkManager#启动服务systemctl start NetworkManager#禁止服务开机启动systemctl disable NetworkManager#设置服务开机启动原创 2017-10-15 14:42:39 · 423 阅读 · 0 评论