spark
xujingpilot
这个作者很懒,什么都没留下…
展开
-
spark中的遍历dataframe
def main(args: Array[String]) = { val spark = SparkSession.builder().appName("p2") //.master("local") .enableHiveSupport().getOrCreate() import spark.implicits._ val nowdate = Loca...原创 2020-05-07 20:14:00 · 2856 阅读 · 0 评论 -
SPARK基础4(DataFrame操作)
在上文《SPARK基础2(读入文件、转临时表、RDD与DataFrame)》中,我们简单介绍了spark中的DataFrame,我们知道了spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。在本文中我们主要介绍,DataFrame基本API常用操作。查看数据// 默认只显示20条commodityDF.show()// 是否最多只显示20个字符,默认为true...原创 2020-04-11 11:24:57 · 470 阅读 · 0 评论 -
Windows下安装spark-hadoop步骤
前言本章将介绍如何在Windows下实现spark环境搭建。本章概要1、版本说明2、环境准备:jdk配置; spark安装与配置; hadoop安装与配置; IDEA的安装与配置版本说明jdk:1.8 spark:2.4.5 hadoop:2.7.1我把的安装软件的放到云盘了,链接:https://pan.baidu.com/s/1A7CJSYHmuin...原创 2020-02-15 00:54:32 · 1829 阅读 · 0 评论 -
SCALA下的GBDT与LR融合实现
我们直接使用的ML的包对GBDT/LR进行融合首先我们需要导入的包如下所示:import org.apache.spark.sql. Rowimport scala.collection.mutableimport org.apache.spark.mllib.classification.LogisticRegressionWithLBFGSimport org.apache.spar...原创 2019-12-26 11:39:34 · 664 阅读 · 0 评论 -
spark基础3(RDD的特性与算子)
上文介绍了SPARK读入文件,RDD与DATAFRAME,本文主要介绍RDD的一些相关知识。1、RDD1.1 宽依赖与窄依赖窄依赖:父RDD中,每个分区内的数据,都只会被子RDD中特定的分区所消费,为窄依赖:宽依赖:父RDD中,分区内的数据,会被子RDD内多个分区消费,则为宽依赖:Spark的这种依赖关系设计,使其具有了天生的容错性,大大加快了Spark的执行速度。因为,RDD数据集通...原创 2019-11-20 20:16:07 · 544 阅读 · 0 评论 -
SPARK基础2(读入文件、转临时表、RDD与DataFrame)
上文介绍了spark的各种组件和入门,本文主要介绍spark读入文件以及数据格式(RDD/DataFrame)1、读入文件与转临时表1、json文件读取val df = spark.read.json("E:/people.json")df.show()//将DataFrame的内容显示到页面2、CSV文件读取(注意编码要UTF-8)df=spark.read.csv("E:/emp...原创 2019-11-19 16:14:50 · 3103 阅读 · 0 评论 -
SPARK基础1(spark基础介绍和入门)
什么是spark?网上有关spark的介绍一搜一大堆,这里就简单的说下它的优点:Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度Spark可作为独立集群部署(需要相应存储层的配合),或可与Hadoop集成并取代MapReduce引擎...原创 2019-11-19 15:49:40 · 302 阅读 · 0 评论