![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 58
翱翔的江鸟
转行萌新学习中
github地址:https://github.com/wxfghy
展开
-
Scala基础知识
0. Scala简介多范式类似java, 可调用Java类库, 运行于JVM初衷是实现可伸缩的语言集成面向对象编程和函数式编程的各种特性IDE选择idea1. 入门支持的数据类型Scala中不存在基础数据类型,一律以类的形式出现 数据类型 含义 Byte 8位整数,-128~127 Short 16位整数,-32768~3276...原创 2018-06-27 14:45:22 · 674 阅读 · 0 评论 -
Spark SQL和Spark Streaming简介
1. Spark SQL用于处理结构化数据,提供SQL语句查询的API接口 SparkSQL数据类型DataFrames这种数据类型支持结构化的数据文件,Hive中的表,外部数据库和已存在的RDD该接口在Python, R, Java, Scala中都是可用的SparkSQL数据类型DataSetsSpark 1.6中添加的新接口不支持Python...原创 2018-07-09 13:57:48 · 2912 阅读 · 0 评论 -
CentOS7环境下Spark集群的配置
1. 解压缩到/home/hadoop/spark-2.2.0scala-2.11.72. 配置环境变量/etc/profile为避免与hadoop默认启动命令同名,spark/sbin中的start-all.sh和stop-all.sh分别改为start-spark-all.sh和stop-spark-all.shscala写入binspark写入bin和sbin3...原创 2018-07-02 17:29:56 · 1119 阅读 · 0 评论 -
Spark简介和RDD基本命令
1.Spark概念和特点Spark是什么Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎是开源的,基于内存计算的大数据并行计算框架由UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室) 开发拥有Hadoop MapReduce的优点, 同时避免读写HDFSSpark和Hadoop MR的关系Spark 启用了内存分布数...原创 2018-07-04 13:58:03 · 917 阅读 · 0 评论 -
Spark在Windows下idea中本地调试及Jar方式集群运行
1. Windows本地调试依赖包版本(Maven下载),scope模式为complie<properties><project.build.sourceEncoding>UTF-8</project.build.sourceEncoding><spark.version>2.2.0</spark.version><s...原创 2018-07-05 11:20:08 · 2328 阅读 · 1 评论 -
Spark总结
1. Spark转为大规模数据处理设计的快速通用的计算引擎基于内存,开源,并行计算消除了mapreduce大量IO操作和仅支持批处理的缺陷通过RDD弹性分布式数据集,提供交互式查询功能基于scala面向函数语言编写,便于操作RDD可通过YARN管理分配资源,利用HDFS存储数据使用DAG有向无环图执行引擎,内存/磁盘计算速度均比MR快支持java,python,scala,R和...原创 2018-07-20 14:17:55 · 612 阅读 · 0 评论 -
SQL,HiveQL,Spark Shell总结
1. SQL创建表drop table if exists demo01;create table demo01(eno int(10),ename varchar(20));插入数据insert into demo01 values(1,"hello");增加字段alter table demo01 add loc varchar(20);...原创 2018-07-23 09:52:03 · 512 阅读 · 0 评论