spark
阿豪963
这个作者很懒,什么都没留下…
展开
-
第一章 spark-2.2.0安装和部署
scala-2.11.7下载与安装Spark下载为了方便,我直接是进入到了/usr/local文件夹下面进行下载spark-2.2.0wget https://d3kbcqa49mib13.cloudfront.net/spark-2.2.0-bin-hadoop2.7.tgz1Spark安装之前的准备文件的解压与改名tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz1...原创 2018-05-19 19:48:15 · 368 阅读 · 0 评论 -
spark-scala程序
1 pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ht原创 2018-07-04 00:01:39 · 345 阅读 · 0 评论 -
Scala 强大的集合数据操作
val data="hello tom hello jerry"var das=data.split("\\s+")var li=das.toListvar vli=List.fill(li.size)(1)var mm=li zip vlivar k=mm.groupBy(_._1)for((x,y)<-k) println(x+","+y.size)一、常用操作符(操作...原创 2018-06-28 21:32:36 · 409 阅读 · 0 评论 -
spark文件读写
1 普通textFile读写读取hdfs上的文本文件scala>val rdd1=sc.textFile("hdfs://hadoop1:9000/myone/input/a.txt")进行相关处理,按照文件中每行进行处理scala> val rdd2=rdd1.flatMap(line=>line.split("\\s+")).map(d=>(d,1)向hdfs写入tex...原创 2018-07-04 15:05:13 · 1063 阅读 · 0 评论 -
Spark分区
Spark分区原理分析介绍分区是指如何把RDD分布在spark集群的各个节点的操作。以及一个RDD能够分多少个分区。一个分区是大型分布式数据集的逻辑块。那么思考一下:分区数如何映射到spark的任务数?如何验证?分区和任务如何对应到本地的数据?Spark使用分区来管理数据,这些分区有助于并行化分布式数据处理,并以最少的网络流量在executors之间发送数据。默认情况下,Spark尝试从靠近它的节...原创 2018-07-04 17:22:57 · 1100 阅读 · 1 评论 -
spark sql
1 Spark SQL简介Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame的编程抽象,并且可以充当分布式SQL查询引擎。2 Spark SQL的特性集成无缝地将SQL查询与Spark程序混合。 Spark SQL允许您将结构化数据作为Spark中的分布式数据集(RDD)进行查询,在Python,Scala和Java中集成了API。这种紧密的集...原创 2018-07-05 22:20:19 · 667 阅读 · 0 评论 -
sparksql在Mysql中生成表
1 提供比较全的pom.xml<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <spark.version>2.2.0</spark.version> <hadoop.versio...原创 2018-07-12 20:28:01 · 1805 阅读 · 0 评论 -
maven ssm结合制作JFreeChart
1 创建maven项目,编写pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaL...原创 2018-07-12 22:27:37 · 799 阅读 · 0 评论 -
implicit的用法
掌握implicit的用法是阅读spark源码的基础,也是学习scala其它的开源框架的关键,implicit 可分为:隐式参数隐式转换类型隐式调用函数1.隐式参数当我们在定义方法时,可以把最后一个参数列表标记为implicit,表示该组参数是隐式参数。一个方法只会有一个隐式参数列表,置于方法的最后一个参数列表。如果方法有多个隐式参数,只需一个implicit修饰即可。 当调用包含隐式参数的方法是...原创 2018-07-03 22:29:50 · 3451 阅读 · 1 评论 -
快学scala笔记第七章 集合
1原创 2018-06-27 19:17:59 · 121 阅读 · 0 评论 -
快学scala笔记第一章 基础
1 scala的REPL通过shell测试:总结scala的REPL特性,scala不是一个解释器,它将输入的内容快速转换成字节码,然后交给JVM执行,这种特性称为REPL(读取-求值-打印-循环)2 声明和变量 scala中val关键字作为常量,使用var作为变量;不论是变量或常量都需要进行初始化例如:3 Scala的类型scala中不强调引用类型和基本类型;scala中的7中数值类型 Byte...原创 2018-06-21 13:30:49 · 156 阅读 · 0 评论 -
快学scala笔记第二章 结构及简单函数
1 条件表达式原创 2018-06-21 13:34:59 · 140 阅读 · 0 评论 -
快学scala笔记第三章 数组
1 定义定长数组var x=new Array[Int](8) x(6)=6 println(x(6)) for(i<-x)print(i+" ")2原创 2018-06-23 12:09:48 · 132 阅读 · 0 评论 -
映射和元组
1 构造映射原创 2018-06-24 22:57:53 · 141 阅读 · 0 评论 -
快学scala笔记第五章 类
1 scala中简单类的定义和调用class One { private var age:Int=8 def say(x:Int)=this.age=x def hello=println("age:"+age)}注意:scala中没有参数的函数或方法,调用时可以不使用() ,但是hello方法定义时没有加入(),所以调用时也不能使用(); def main(args: Array[Str...原创 2018-06-25 12:34:29 · 164 阅读 · 0 评论 -
快学scala笔记第十二章 高阶函数
1 指向函数的变量 注意:ceil 后的_表示该函数的所有参数 val xfunc=scala.math.ceil _ val r=xfunc(4.5)2原创 2018-06-26 22:04:37 · 140 阅读 · 0 评论 -
spark streaming
1 spark streaming基本概念Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源获取数据,也可以通过由高阶函数map、reduce、join、window等组成的复杂算法计算出数据。最后,处理后的数据可以推送到文件系统、数据库、...原创 2018-07-08 20:58:11 · 278 阅读 · 0 评论 -
快学scala笔记第六章 包和继承
1 scala中包的嵌套package com{ package demo{ class emp(xname:String) { println("你的姓名:"+xname) } }}在一个文档中可以多个包2 访问上层包对象中的方法package com{ package demo{ object emp { def info:Unit={ ...原创 2018-06-27 14:51:30 · 211 阅读 · 0 评论 -
spark电影受众系统
数据准备1 下载数据链接:https://pan.baidu.com/s/165de8xKYl0QBq8lGzYGW6g 密码:brb9链接:https://pan.baidu.com/s/1-jxcAYoybNV5TYL7xbzi9A 密码:id592 上传hdfs[root@node1 data]# hdfs dfs -put ml-1m/ input[ro...转载 2018-08-05 22:22:46 · 745 阅读 · 0 评论