Spark学习
文章平均质量分 63
详细记录一个从零基础到学习spark的过程
段渣渣
这个作者很懒,什么都没留下…
展开
-
Spark中的Data Sources (数据源)【官网学习摘录笔记】
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~ Spark中的Data Sources (数据源)Spark SQL 支持通过 DataFrame 接口对各种 data sources (数据源)进行操作. DataFrame 可以使用 relational transformations (关系转换)操作, 也可用于创建 temporary view (临时视图)....原创 2018-06-28 11:29:11 · 643 阅读 · 0 评论 -
Spark中的Accumlators(累加器)【官网学习摘录笔记】
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~ Spark中的Accumlators(累加器)Accumulators(累加器)是一个仅可以执行 “added”(添加)的变量来通过一个关联和交换操作,因此可以高效地执行支持并行。累加器可以用于实现 counter( 计数,类似在 MapReduce 中那样)或者 sums(求和)。原生 Spark 支持数值型的累加器,...原创 2018-06-28 11:31:29 · 556 阅读 · 0 评论 -
foreachRDD 设计模式的使用【官网学习摘录笔记】
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~ foreachRDD 设计模式的使用首先来看看这个算子的的功能 foreachRDD(func) :对从流中生成的每个 RDD 应用函数 func 的最通用的输出运算符. 此功能应将每个 RDD 中的数据推送到外部系统, 例如将 RDD 保存到文件, 或将其通过网络写入数据库. 请注意, 函数 func 在运行流...原创 2018-07-03 20:47:14 · 469 阅读 · 0 评论 -
Windows报Failed to locate the winutils binary in the hadoop binary path,java.io.IOException:
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~ http://blog.csdn.net/xiaoduan_/article/details/79476815Windows平台上运行hadoop与spark程序涉及读写操作时报空指针等错误解决方案问题详细描述:Windows平台上运行hadoop与spark程序涉及读写操作时报 Failed to ...原创 2018-03-07 20:59:47 · 2318 阅读 · 0 评论 -
thriftserver/beeline/jdbc等方式连接到SparkSQL
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~ https://blog.csdn.net/xiaoduan_/article/details/79730384thriftserver/beeline、jdbc等方式连接到SparkSQLthriftserver和beeline的简单配置和使用启动thriftserver: 默认端口是10000 ,可以修...原创 2018-03-28 16:58:51 · 2273 阅读 · 0 评论 -
SparkSession的使用
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~ https://blog.csdn.net/xiaoduan_/article/details/79730406SparkSession的使用SparkSession是spark2.x版本中推行的,作为统一的spark入口示例代码package com.anthony.sparkimport org...原创 2018-03-28 16:59:54 · 1319 阅读 · 0 评论 -
SQLContext与HiveContext的使用
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~ https://blog.csdn.net/xiaoduan_/article/details/79730428SQLContext与HiveContext的使用SQLContext的使用SQLContext在Spark1.6中使用,在spark2.x中已经标记为过时,不推荐使用。示例代码pa...原创 2018-03-28 17:00:52 · 9840 阅读 · 2 评论 -
SparkSQL中SQL、DataFrame和DataSet方式的静态类型安全和运行时类型安全
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~ https://blog.csdn.net/xiaoduan_/article/details/79751755SQL、DataFrame和DataSet方式的静态类型安全和运行时类型安全SQL: seleeeeeetc name from person; SQL关键字写错,编译 ok, 运行错误D...原创 2018-03-30 08:06:21 · 687 阅读 · 0 评论 -
RDD转DataFrame的两种方法
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~ https://blog.csdn.net/xiaoduan_/article/details/79809225RDD转DataFrame的两种方法使用反射来推断包含特定类型对象的 RDD 的模式(Inferring the Schema Using Reflection) The first metho...原创 2018-04-03 21:03:29 · 603 阅读 · 0 评论 -
Spark的4种运行模式
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~ https://blog.csdn.net/xiaoduan_/article/details/79809247Spark的4种运行模式模式简介Spark支持4中运行模式,分别是local Standalone YARN 和 Mesos 1. Local:建议开发的时候使用,在本地IDE中便于编码和调试 ...原创 2018-04-03 21:04:58 · 801 阅读 · 0 评论 -
SparkSQL并行度参数设置方法
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~ https://blog.csdn.net/xiaoduan_/article/details/79809262SparkSQL并行度参数设置方法SparkSQL并行度是SparkSQL的第一个调优点,默认的并行度是200,需要根据实际情况进行设置,它有有两种设置方法, 1. 在代码中直接设定val spa...原创 2018-04-03 21:06:02 · 11597 阅读 · 0 评论 -
Spark-shell启动的时候报Error while instantiating ‘org.apache.spark.sql.hive.HiveSessionStateBuilder’错误
版权声明:未经允许,随意转载,请附上本文链接谢谢(づ ̄3 ̄)づ╭❤~ https://blog.csdn.net/xiaoduan_/article/details/79815692Spark-shell启动的时候报java.lang.IllegalArgumentException: Error while instantiating ‘org.apache.spark.sql.hive...原创 2018-04-04 12:21:35 · 8281 阅读 · 7 评论