分布式
文章平均质量分 98
小飞猪666
这个作者很懒,什么都没留下…
展开
-
史上最简单的 SpringCloud 教程 | 第一篇: 服务的注册与发现(Eureka)
一、SpringCloud简介spring cloud 为开发人员提供了快速构建分布式系统的一些工具,包括配置管理、服务发现、断路器、路由、微代理、事件总线、全局锁、决策竞选、分布式会话等等。它运行环境简单,可以在开发人员的电脑上跑。另外说明spring cloud是基于springboot的,所以需要开发中对springboot有一定的了解,如果不了解的话可以看这篇文章:2小时学会springb...转载 2018-02-27 12:34:18 · 184 阅读 · 0 评论 -
Task源码分析
step1:Executor.scala/** * 1) 从TaskRunner开始,就是我们的Task运行的工作原理。然后一步步来剖析Task内部的工作原理。 ysj * 2) 执行线程的run方法。 * a) 通过网络传输,将需要的文件、资源、jar包拷贝过来 * b) 将task中的数据反序列化 * c) 执行taks run方...原创 2019-03-23 21:53:24 · 299 阅读 · 0 评论 -
spark总结01
目录第一部分:SaprkCore部分Spark简介1、什么是RDD? RDD的5大特性。2、怎么理解partition,如何合理的设置partition的数量。3、RDD或者partition里面存储数据吗?怎么理解内存计算。4、Spark中的hello world (word count)5、Spark架构原理6、创建初始的RDD7、RDD算子操作8、RD...原创 2019-03-09 18:30:18 · 676 阅读 · 0 评论 -
Spark SQL与hive hbase mysql集成
虚拟机环境:centos7一、Spark SQL 与Hive集成(spark-shell)1.需要配置的项目 1)将hive的配置文件hive-site.xml拷贝到spark conf目录,同时添加metastore的url配置。 执行操作: vi hive-site.xml,添加如下内容:<property> <name>...原创 2018-11-18 10:38:10 · 853 阅读 · 0 评论 -
新闻网日志实时分析可视化系统项目
本次项目是基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。项目代码托管于github,大家可以自行下载。一、业务需求分析捕获用户浏览日志信息 实时分析前20名流量最高的新闻话题 实时统计当前线上已曝光的新闻话题 统计哪个时段用户浏览量最高 生成报表(给销售...转载 2018-11-04 22:29:03 · 4851 阅读 · 2 评论 -
spark2.2.0-hadoop2.6.0预编译集群安装
1、下载解压将下载好的spark-2.2.0-bin-hadoop2.6.tgz包移动到netcloud03 netcloud04 netcloud05 各节点的/opt目录下并解压2、Spark基于Standalone运行模式进行配置1)测试 cd /opt/spark-2.2.0-bin-hadoop2.6 ./bin/spark-submit --cl...原创 2018-11-17 12:11:29 · 711 阅读 · 0 评论 -
spark2.2.0 源码编译安装
1. Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作,否则我们每次操作就需要等待数分钟甚至数小时。 Spark 的一个主要特点就是能够在内...转载 2018-11-17 09:50:57 · 335 阅读 · 0 评论 -
安装hue可视化以及与hdfs、hive、hbase和mysql的集成
1. Hue概述及版本下载1)概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。2)...原创 2018-11-13 20:59:29 · 962 阅读 · 0 评论 -
scala开发快速入门 | 第一篇 入门
一、scala简介Scala语言是集面向对象和面向函数思想于一体的编程语言。特点:1)它的设计吸收借鉴了多种编程语言的思想,只有很少的特点是scala自己独有的。2)其程序运行在JVM上,并且兼容java程序,Scala可以调用java方法,访问java字段,继承java类,实现java接口。3)在面向对象方面,它是一门纯面向对象的编程语言,也就是说,在Scala中每个值都是对象,每个操作都是方法...原创 2018-06-01 23:16:27 · 7363 阅读 · 0 评论 -
大数据Spark01简介
Spark简介Apache Spark 是一个大数据处理快速通用引擎,提供了分布式的内存抽象(这就是快速计算的原因之一)。Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研原创 2017-10-24 23:14:44 · 1902 阅读 · 1 评论 -
Shuffle源码分析 Shuffle Write 和 Shuffle Read
step1:HashShuffleWriter.scala /** * 将ShuffleMapTask partition中的数据 写入磁盘 * @param records */ override def write(records: Iterator[Product2[K, V]]): Unit = { // 判断是否在map端进行聚合 // ...原创 2019-03-24 17:19:22 · 760 阅读 · 0 评论