- 博客(9)
- 资源 (9)
- 收藏
- 关注
转载 RDD JAVA API 用法指南
1.RDD介绍: RDD,弹性分布式数据集,即分布式的元素集合。在spark中,对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化。 Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区运行在集群中的不同节点上。RDD可以包含Python
2016-06-29 13:13:10 20187 4
转载 Spark JAVA RDD API 最全合集整理,持续更新中~
SPARK的核心就是RDD,对SPARK的使用入门也就是对RDD的使用,对于JAVA的开发者,Spark的RDD对JAVA的API我表示很不能上手,单单看文档根本是没有办法理解每个API的作用的,所以每个SPARK的新手,最好按部就班直接学习scale,那才是一个高手的必经之路,但是由于项目急需使用,没有闲工夫去学习一门语言,只能从JAVA入门的同学,福利来了
2016-06-29 10:35:56 24628 2
原创 HADOOP+SPARK安装
0.Spark的安装准备Spark官网的文档 http://spark.apache.org/docs/latest/ 里是这样说的:Spark runs on Java 7+, Python 2.6+ and R 3.1+. For the Scala API, Spark 1.6.0 uses Scala 2.10. You will need to use a compa
2016-06-27 16:43:26 567
原创 Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例【附详细代码】
本文旨在记录初学Spark时,根据官网快速入门中的一段Java代码,在Maven上建立应用程序并实现执行。首先推荐一个很好的入门文档库,就是CSDN的Spark知识库,里面有很多spark的从入门到精通的形形色色的资料,1.开发软件恭喜你,拿到spark驾考名额了,可以开始参加驾校培训了~http://lib.csdn.net/base/spark 大概理解下:spark主要分为 1.核心 2.实时streaming 3.对sql支持sparksql 4.机器学习mllib 还有
2016-06-18 22:35:40 14294 3
转载 动态规划问题实例讲解
代码实现在https://github.com/Jensenczx/CodeEveryday维基百科对动态规划的定义动态规划(英语:Dynamic programming,简称DP)是一种在数学、计算机科学和经济学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划常常适用于有重叠子问题[1]和最优子结构性质的问题,动态规划方法所耗时间往往远少于朴素解法。动态规划
2016-06-07 16:20:31 943
转载 五大常用算法
五大常用算法之一:分治算法分治算法一、基本概念 在计算机科学中,分治法是一种很重要的算法。字面上的解释是“分而治之”,就是把一个复杂的问题分成两个或更多的相同或相似的子问题,再把子问题分成更小的子问题……直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。这个技巧是很多高效算法的基础,如排序算法(快速排序,归并排序),傅立叶变换(快速傅立叶变换)…… 任何一个
2016-06-06 22:30:34 512
转载 动态规划算法
五大常用算法之二:动态规划算法一、基本概念 动态规划过程是:每次决策依赖于当前状态,又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的,所以,这种多阶段最优化决策解决问题的过程就称为动态规划。二、基本思想与策略 基本思想与分治法类似,也是将待求解的问题分解为若干个子问题(阶段),按顺序求解子阶段,前一子问题的解,为后一子问题的求解提供了有用的信息。在求解任一
2016-06-06 22:30:04 241
转载 spark实例演示
1、实例演示1.1 流数据模拟器1.1.1 流数据说明在实例演示中模拟实际情况,需要源源不断地接入流数据,为了在演示过程中更接近真实环境将定义流数据模拟器。该模拟器主要功能:通过Socket方式监听指定的端口号,当外部程序通过该端口连接并请求数据时,模拟器将定时将指定的文件数据随机获取发送给外部程序。1.1.2 模拟器代码import java.io.{PrintWriter}
2016-06-06 22:29:16 935
转载 Spark Streaming原理介绍
1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算
2016-06-06 22:28:26 2802
华为垃圾分类大赛亚军答辩PPT
2020-05-31
Teradata SQL基础教程
2016-03-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人