spark
young_so_nice
这个作者很懒,什么都没留下…
展开
-
最新版scala2.11.8与spark1.6.1一步到位安装
一,scala安装: 先到官网下载一个scala的压缩包,它没有过多的要求,然后在Linux下按照如下步骤操作: 1,解压包: hadoop@master:/mysoftwaretar−zxvfscala−2.11.8.tgz2,配置环境变量(我在两份文件里面都配了):hadoop@master: tar -zxvf scala-2.11.8.tgz 2原创 2016-05-31 20:55:30 · 8074 阅读 · 0 评论 -
spark之DataFrame 通过反射创建
下面给大家介绍通过javaBeas反射创建DataFrame。 一,准备数据文件: 二,过程分析: 1,根据数据文件创建对应的javaBean,设置对应的set和get方法。 2,读取text文件通过map函数将文件内容分割,设置到person并返回。 3,通过返回的RDD和javaBean反射创建DataFrame。并设置表名。 4,条件查旬从该表中筛选想原创 2016-06-06 21:18:06 · 2015 阅读 · 0 评论 -
Spark之Streaming实时监听Hdfs文件目录
应用场景:我们使用Streaming实时监听指定的Hdfs目录,当该目录有新的文件增加会读取它,并完成单词计数的操作。 这里和上一篇的差别就是:上一篇用的是socketTextStream而这里用的是:textFileStream。 其他没有不同。 代码展示:import java.util.Arrays;import org.apache.spark.SparkConf;import o原创 2016-06-10 22:32:41 · 19359 阅读 · 5 评论 -
Spark之sparkStream实时监控端口读取数据存入到HDFS
sparkStream实际上就是为实时操作生成的数据提供服务的。 下面给大家介绍:通过监控虚拟机9999端口,当那边输入单词时,这边会对它进行实时的一个单词计数,并将结果存入到hdfs. 一,过程分析: maven的依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId>原创 2016-06-10 20:30:36 · 11284 阅读 · 0 评论 -
spark之DataFrame分析日志文件
场景:我们利用DataFrame对日志中出现的错误次数进行一个统计。 一,准备日志文件: 我这里是使用的hadoop的日志文件,因为以前配置文件没有配好,所有每次启动hadoop会有错误的信息,记录在日志文件。二,书写流程: 1,读取日志文件,将文件转化成RDD。 2,将日志文件通过map函数将数据转化行的格式返回。 3,创建元类型, 即创建schema,为RDD转原创 2016-06-05 17:23:45 · 3281 阅读 · 0 评论 -
spark之DataFrame的json数据实战
一,DataFrame简介: 在Spark中,DataFrame是一种以RDD为基础的分布式数据据集,类似于传统数据库听二维表格,DataFrame带有Schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。 二,准备数据: 注意:json数据的格式,每一行都算是一个节点所以不能有空格,每行只能写一条数据。这里也是按行读入的。 三,代码及过程解释:import原创 2016-06-05 10:56:06 · 10182 阅读 · 1 评论 -
spark模拟密集型计算任务
一,场景:我们随机的产生两点,测试有多少个会落在单位圆内,多少落在外面。 二,函数解释: 1,parallelize()函数是指内部导入数据。 2,filter()函数功能是对元素进行过滤,对每个元素 应用f函数,返回值为true的元素在RDD中保留,返回值为false的元素将被过滤掉。 3,count()函数,返回整个RDD的元素个数。代码展示:import j原创 2016-06-04 15:25:31 · 1425 阅读 · 0 评论 -
spark1.6.1入门api实现单词计数
刚刚学习spark,所以写个简单案列,来提升自己。 spark也会有类似于hadoop的mapreduce过程,用于数据的处理。 准备工作:先将一个写有单词的文本传上到hdfs。 函数解释: 1,flatMap: flatmap与map类似,区别是原RDD中的元素经map处理后只能生成一个元素,而原RDD中的元素经flatmap处理后可生成多个元素来构建新RDD。返原创 2016-06-03 20:24:11 · 1728 阅读 · 0 评论 -
spark sql之访问 hive 和 MySQL
一,准备工作: 1,添加mysql的驱动jar包。 将mysql-connector-java-5.0.6-bin.jar 添加到 SPARK_HOME/lib/目录下. 2, 曾加SPARK_HOME/conf目录下的文件: hive的hive-site.xml, hadoop的core-site.xml(为安全起见),hdfs-sit原创 2016-06-07 21:13:14 · 5396 阅读 · 0 评论 -
Spark之DataFrame通过编码创建
在某些情况下,我们不能通过反射的方式创建DataFrame,(反射在记录在一个字符串编码的结构和文本数据集将被解析和字段预计给不同的用户不能使用。)但是我们可以用编码的方式创建。 一,文件准备: 可以参考上一篇博客的文件。二,过程解析: 1,创建对应数据的编码. 2,对应的编码添加到格式化字段list中。 3,创建好模式类型。 4,将数据文件解析,然后以RD原创 2016-06-06 22:57:44 · 4604 阅读 · 1 评论