spark
12345677654321000000
这个作者很懒,什么都没留下…
展开
-
spark-streaming 编程(二) word count单词计数统计
spark-streaming原创 2017-08-22 18:57:31 · 1929 阅读 · 0 评论 -
spark-streaming 编程(四)自定义输出foreachRDD
spark-streaming foreachrdd原创 2017-08-23 19:14:56 · 1311 阅读 · 0 评论 -
spark-streaming 编程(六)mapwithState
mapWithState原创 2017-08-24 11:29:14 · 2361 阅读 · 0 评论 -
spark-streaming 编程(三)连接kafka消费数据
spark-streaming kafka原创 2017-08-23 11:36:15 · 4414 阅读 · 2 评论 -
spark 的transformations之bykey的区别
spark中提供的bykey相关的transforms有以下几个 这几个操作基本都需要是原始输入是(K,V). 这些都会引发shuffle操作 groupByKey的输入是(K,V),输出是(K,Iterable)。 reduceByKey的输入是(K,V),输出也是(K,V)。对于相同的key的值,会执行func进行聚合原创 2016-09-23 15:53:54 · 499 阅读 · 0 评论 -
Spark SQL中实现Hive MapJoin
转载地址:http://lxw1234.com/archives/2015/06/296.htm在Hive中,如果一个很大的表和一个小表做join,Hive可以自动或者手动使用MapJoin,将小表的数据加载到DistributeCache中,从而在使用Map Task扫描大表的同时,完成join,这对join的性能提升非常多。在SparkSQL中,目前还不支持转载 2016-09-23 16:17:11 · 5180 阅读 · 2 评论 -
spark sql模块
版本:spark1.6.1 spark sql是spark的一个结构化数据处理模块。有三种方式与spark sql进行交互 SQL:提供了spark-sql的命令端,以及spark的hiveserver2方式。如果编程的话,将会返回一个DataFrames.能够直接跟hive进行交互。 DataFrames:能够从一个已经存在的RDD,hiv原创 2016-09-26 17:46:18 · 624 阅读 · 0 评论 -
spark中的shared variables
Spark中涉及到共享变量的话,有两种办法: 一. broadcast variables 只读变量,创建后将向所有的executor节点进行分发。各个executor计算是,可以取出这个变量,来参与计算。相比直接将需要的文件拷贝到各个节点,更加高效。spark在计算的每个stage将会自动广播公共数据到计算节点。 scala> val b原创 2016-09-26 11:59:33 · 471 阅读 · 0 评论 -
spark 的transformations之map,flatMap,mapPartitions,mapPartitionsWithIndex的用法
版本spark1.6.1 spark的编程思想跟mapreduce有很大的相似之处,这几个函数都可以看做是类似在map端的操作处理。 一个RDD(分布式弹性数据集),包含n个partition,你可以将每个partition看做是类似map的操作。 Transformation Meaningmap(func) Return a new distributed原创 2016-09-23 11:19:10 · 3624 阅读 · 0 评论 -
spark初始简单的例子
环境scala ide+mavenscala ide 创建maven项目。然后创建src/main/scala目录。pom文件配置:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:s原创 2016-09-22 19:16:14 · 1788 阅读 · 0 评论 -
sparkR的一个运行的例子
在sparkR在配置完成的基础上,本例采用spark on yarn模式,介绍sparkR运行的一个例子。 在spark的安装目录下,/examples/src/main/r,有一个dataframe.R文件。该文件默认是在本地的模式下运行的,不与hdfs交互。可以将脚本进行相应修改,提交到yarn模式下。 在提交之前,要先将${SPARK_HOME}/examples/原创 2016-06-16 14:13:24 · 2746 阅读 · 1 评论 -
sparkR on yarn环境搭建
环境说明:centos6 + hadoop2.6+spark1.6.1 前期hadoop集群以及spark on yarn模式已经搭建完毕。但是如果想要使用sparkR模块的话,需要在集群的所有的节点都安装R语言。 我安装的是R-3.2.5版本。 yum install -y gcc-gfortran gcc gcc-c++ readline原创 2016-06-16 11:25:16 · 1007 阅读 · 0 评论 -
spark-sql 不兼容的hive语法列表
1.hive的主要特性: spark不支持hive的桶(bucket)2.深奥的hive特性 (1)不支持union数据类型(注意:是数据类型,不是sql语法中的union) (2)不支持unique join (3)不支持列统计信息收集3.Hive Input/Output Formats 不支持hadoop文件归档(hadoop ar原创 2015-12-14 15:47:13 · 5875 阅读 · 0 评论 -
spark on yarn启用动态分配
spark on yarn 支持资源的动态分配。 资源请求策略: 一个spark程序使用轮询来请求资源。具体过程如下:1.如果程序中有任务在等待,超过spark.dynamicAllocation.schedulerBacklogTimeout参数配置的时间(默认是1s),将会得到新的资源,分配executor2. 如果等待spark.dynamicAll原创 2015-12-14 15:37:06 · 3235 阅读 · 0 评论 -
spark-sql on yarn环境搭建
安装环境:hadoop2.6.0 + hive1.2.1 + spark1.5.1前提是hive和hadoop集群已经安装完毕。1.将hive-site.xml配置文件放置在spark目录下的conf目录下。2.配置spark-defaults.conf文件:spark.master yarnspark.executor.in原创 2015-11-11 15:17:54 · 2577 阅读 · 0 评论 -
spark 的sql解决方案
Shark项目终止之后,目前spark的sql有两种解决方案。1.spark-sql,spark官方自带的服务,有cli以及hiveserver2接口,兼容大部分的hive语法。有spark社区支持。2.Hive on spark ,支持部署on yarn,spark standalone等。由hive社区进行支持。目前hive支持mr,tez,spark三种引擎。原创 2015-12-14 15:42:40 · 740 阅读 · 0 评论 -
hive on spark 环境搭建
环境: hadoop2.6.0+hive1.2.1+spark1.3.1 1.安装hive1.2.1 报错:[ERROR] Terminal initialization failed; falling back to unsupportedjava.lang.IncompatibleClassChangeError: Found class jline.Termi原创 2015-09-24 17:24:36 · 1509 阅读 · 0 评论 -
spark-streaming 编程(五)updateStateByKey
updateStateByKey(func)从名字上来看,该函数会更新根据key聚合,并不断更新value值要想使用该函数,Dstream之前的类型必须是K,V形式的二元组。 经过执行func函数后,会返回一个key的所有的聚合值得状态。以word count为例,对于每一个批的数据进行分解聚合,会得到当前的这个批的状态,经过聚合后得到值的,假设有(word1,10),(word2,15),(wo原创 2017-08-24 10:55:43 · 660 阅读 · 0 评论