Scala和Spark
文章平均质量分 71
Python工程师的Scala和Spark学习之路
小基基o_O
GitHub:https://github.com/AryeYellow
码云:https://gitee.com/arye
展开
-
使用Spark模拟HIVE-SQL环境【原创首发】
文章目录应用场景WIN10搭建Spark环境代码模板pom展望应用场景练习HIVE的SQL时,可以用MySQL(8以上版本)或HIVE,进行建表和插数据,然后写SQL而本文使用SparkSQL来提供HIVE-SQL练习环境该方法 适用于 擅长写代码 而 不擅长【DDL】和【DML】 的程序员来练习SQLWIN10搭建Spark环境代码模板pomimport org.apache.spark.sql.SparkSessionimport org.apache.spark.{SparkConf原创 2021-07-31 15:01:33 · 682 阅读 · 1 评论 -
大数据(8y)Spark3.0内核
文章目录原创 2021-08-30 14:27:54 · 453 阅读 · 0 评论 -
图解Spark商品关联分析
文章目录业务分析原理按订单关联按用户关联业务分析原理按订单关联import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.ml.fpm.FPGrowthimport org.apache.spark.rdd.RDDobject Hello { def main(args: Array[String]): Un原创 2021-09-03 23:14:27 · 714 阅读 · 0 评论 -
大数据(8x)机器学习库SparkML
环境配置SparkMLlib简介内置样本ClusteringML Algorithms 机器学习算法 分类、回归、聚类、协同过滤Featurization 特征工程 特征的 抽取、转换、选择、降维Pipelines 管道Persistence 持久化 保存和加载模型Utilities 实用工具 线性代数、统计学Collaborative Filtering原创 2021-02-07 10:50:49 · 490 阅读 · 0 评论 -
大数据(8u)Spark结构化流
文章目录概念图概念图原创 2021-07-22 23:37:49 · 258 阅读 · 3 评论 -
大数据(8s)SparkStreaming分时段流量统计
文章目录原创 2021-06-11 16:12:25 · 888 阅读 · 0 评论 -
大数据(8r)图解流计算window滑窗
Window Operations滑窗运算reduceByKeyAndWindow原创 2019-11-14 10:36:07 · 586 阅读 · 0 评论 -
大数据(8q)流计算updateStateByKey
updateStateByKey示例updateStateByKey源码Option知识补充getOrElseisEmpty本文属于Spark Streaming分支章节流式处理中,分为有状态和冇状态有状态:记录之前数据流处理的信息updateStateByKey是有状态的TransformationOption译作选项,用来表示一个值是可选的(有值或无值)Option[T]是一个类型为T的可选值的容器:若值存在,Option[T]就是一个Some[T]若值不存在,Option[T]原创 2021-02-05 12:12:18 · 334 阅读 · 0 评论 -
大数据(8p)SparkStreaming精准一次消费Kafka
文章目录1、数据容错语义2、SparkStreaming消费Kafka(自动提交消费者偏移量)3、 消费者偏移量的存储3.1、存Kafka的主题3.2、存数据库4、参考文献1、数据容错语义encn说明at most once数据最多一条数据可能会丢,但不会重复at least one数据至少一条数据绝不会丢,但可能重复exactly once数据有且只有一条数据不会丢,也不会重复2、SparkStreaming消费Kafka(自动提交消费者偏移量)如原创 2021-08-23 18:13:59 · 852 阅读 · 0 评论 -
大数据(8o)流计算SparkStreaming
Spark Streaming简介环境准备入门示例队列(本地测试用,方便!)消费Kafka(工作环境常用,重点!)Spark Streaming:流式数据 实时处理 框架特点:低延时、高吞吐discretized stream:离散化流可从Kafka、TCP套接字等源摄入数据,经SparkStreaming处理,最终送到文件系统、数据库、实时仪表板…小批处理方式,会有少量延时原创 2021-02-05 09:21:13 · 305 阅读 · 0 评论 -
大数据(8n)图解Spark行转列pivot数据透视表
文章目录1、透视1.1、SQL1.2、Spark2、逆透视2.1、SQL2.2、Spark3、Appendix1、透视1.1、SQLSELECT * FROM tPIVOT (SUM(d) FOR c IN ('c1' as c1,'c2'as c2,'c3' as c3));1.2、Sparkimport org.apache.spark.sql.SparkSessionimport org.apache.spark.{SparkConf, SparkContext}//创建Spark原创 2021-08-04 14:15:10 · 527 阅读 · 0 评论 -
大数据(8m)计算1小时内最大流量
文章目录需求数据Python实现SQL实现Spark实现需求数据Python实现SQL实现Spark实现原创 2021-06-03 09:49:50 · 269 阅读 · 0 评论 -
大数据(8l)运费分摊
电商场景中,优惠、运费等是以订单为单位进行计算的若要以商品维度进行分析,就要把优惠、运费等的效果分摊到每个商品问题来了,由于除法有时除不尽,导致合计有差Python实现HIVE实现Spark实现原创 2021-02-14 10:13:37 · 1808 阅读 · 1 评论 -
大数据(8k)结构化数据处理SparkSQL
SparkSQL简介SparkSQL:Spark的结构化数据处理模块无缝地整合了SQL+Spark编程主要内容:DataFrame和DataSetDataFrame一种以RDD为基础的分布式数据集,类似于二维表格和RDD相比,多了元数据源码Dataset[Row](表明DataFrame是DataSet的特列)DataSet比DataFrame更具体用样例类来定义DataSet中数据的结构信息,样例类中每个属性的名称直接映射到字段名称RDD、DataFrame、DataSet 互转原创 2021-01-31 22:55:51 · 335 阅读 · 0 评论 -
大数据(8i)Spark练习之TopN
需求:每个城市的广告点击Top2SparkCore实现SparkSQL实现需求:省份点击数Top2数据方法1:reduceBy省份方法2:先reduceBy城市,再reduceBy省份打印自定义分区器 求TopN原创 2021-07-20 13:31:35 · 300 阅读 · 1 评论 -
大数据(8h)Spark页面单跳转化率
用户行为分析页面单跳转化率Spark实现Python实现Scala实现原创 2021-01-30 14:30:07 · 497 阅读 · 2 评论 -
大数据(8g)图解共享变量:累加器 and 广播变量
共享变量(Shared Variables)累加器(Accumulator)Spark自带累加器自写累加器累加器的基类abstract class AccumulatorV2广播变量(Shared Variables)原创 2021-01-29 16:43:56 · 372 阅读 · 2 评论 -
大数据(8f)RDD分组求均值
groupByKeyreduceByKeycombineByKey2、排序sortBysortByKeycombineByKeyWithClassTag原创 2021-01-31 23:46:13 · 714 阅读 · 0 评论 -
大数据(8e)RDD常用算子
发出火花的目录0、概述1、转换算子(Transformations)1.1、分区内元素汇聚成数组:glom1.2、两个RDD运算2、行动算子(Actions)2.1、collect2.2、reduce、take、sum、countByValue0、概述RDD算子:RDD里面实现的方法包括转换算子和行动算子1、转换算子(Transformations)转换算子执行后,会返回新RDD,但不会立即执行计算(惰性加载)方法名(参数)说明map(func)将源RDD的每个元素原创 2021-05-31 11:07:45 · 363 阅读 · 0 评论 -
大数据(8d)RDD原理
文章目录概述概述全称:Resilient Distributed Dataset译名:弹性分布式数据集原创 2021-05-31 10:51:35 · 246 阅读 · 0 评论 -
大数据(8c)RDD编程指南Scala版
Resilient Distributed Dataset弹性分布式数据集存储弹性:数据可在内存和磁盘间切换分区弹性支持并行计算血缘:记录各RRD间关系,支持数据丢失恢复和计算出错重试RDD类是个抽象类(源码见abstract class RDD)具体方法需要子类实现RDD封装了计算逻辑,并不存储实际数据combineByKeymapPartitionsWithIndexmakeRDD的默认分区规则RDD算子转换算子Transformation行动算子Action原创 2021-01-27 10:03:23 · 637 阅读 · 0 评论 -
大数据(8b)Spark历史服务配置
网络配置和免密登录环境变量MySQL安装解压Java,Hadoop,ZooKeeper,HIVE,Spark配置文件Hadoop配置ZooKeeper配置Spark配置文件分发初次启动HIVESpark on YARN原创 2021-01-23 13:55:27 · 286 阅读 · 0 评论 -
大数据(8a)CentOS7安装Spark集群(YARN模式)
Apache SparkTM是大数据分析引擎在Scala语言中实现更基于内存(相对于MapReduce),适用于实时计算软件安装解压到指定目录、修改用户组spark-submitspark-shellpysparkStandalone集群部署配置文件slavesspark-env.shlog4j.properties(可选)分发到各节点启停命令查看集群状态运行官方案例基于yarn的集群部署方式原创 2020-11-21 16:46:58 · 649 阅读 · 1 评论 -
WIN10配置Spark+IDEA+Maven开发环境
发出火花的目录1、配置IDEA+Maven+Scala开发环境2、配置WIN10上Hadoop开发环境3、pom.xml 添加 Spark4、关联Spark源码5、日志等级修改6、试运行7、打包+提交到集群1、配置IDEA+Maven+Scala开发环境2、配置WIN10上Hadoop开发环境log4j-core原创 2021-04-29 14:13:22 · 537 阅读 · 0 评论 -
大数据(7z)Scala手写中文分词
徒手写中文分词scala实现Scala不调包实现中文分词贝叶斯网络+动态规划Spark中文分词中文分词+Spark词频统计中文分词+Spark文本分类原创 2021-01-21 21:48:04 · 658 阅读 · 0 评论 -
大数据(7n)Scala隐式转换
文章目录原创 2021-05-25 20:10:07 · 140 阅读 · 0 评论 -
大数据(7m)Scala日期和时间
文章目录 import java.time.LocalDate val now = LocalDate.now() println("LocalDate.now() -> 现在时间:" + LocalDate.now()) println("now.plusDays -> 明天:" + now.plusDays(1)) println("now.minusDays -> 昨天:" + now.minusDays(1)) println("no原创 2021-05-22 16:49:58 · 346 阅读 · 0 评论 -
大数据(7k)比较Scala、Java、SQL、Python的case模式匹配
匹配常量匹配类型匹配数组匹配元组for匹配元组map匹配元组关键词:match和case类似Java的switch原创 2021-01-25 15:12:38 · 325 阅读 · 0 评论 -
大数据(7j)比较Python和Scala的yield
以Python为参照速查Scala语法简单的yieldyield+判断简单的yieldPython的yield在函数中,遍历函数取值def f(): for i in range(5): yield i ** 2Scala的yield配合for用来赋值val vector = for (i <- 1 to 5) yield { i * i}print(vector) // Vector(1, 4, 9, 16, 25)yield+判断Python:原创 2021-05-20 14:37:57 · 222 阅读 · 0 评论 -
大数据(7i)比较Python和Scala的collection常用方法
帅气的目录常用方法过滤(filter)映射(map)扁平化(flatten)映射后扁平化(flatMap)分组(group)归约(reduce)折叠(fold)词频统计示例词频统计示例(带权重)常用方法val a = Range(1,9).toList// 长度a.length// 是否包含:falsea.contains(9)// 生成字符串a.mkString("-")// 迭代器a.iterator// 反转a.reverse// 拉链:List((1,1), (2,2),原创 2021-05-19 11:43:35 · 196 阅读 · 0 评论 -
大数据(7h)比较Python和Scala的数据容器
以Python为参照,理解和速查Scala语法iterable collectionSet(set)Map(dict)两个Map合并List(list)元组Range(range)Array队列collection常用函数基础过滤(filter)映射(map)扁平化(flatten)映射后扁平化(flatMap)分组(group)归约(reduce)折叠(fold)词频统计示例并行collectioniterable collectioncollection继承Iterable特质collectio原创 2021-05-20 10:42:16 · 212 阅读 · 0 评论 -
大数据(7f)比较Python和Scala面向对象
类型层次结构类型判断和强转iterable collectionSet(set)Map(dict)List(list)元组Range(range)ArrayAnyAnyRefNothingNullUnitBooleanIntDoubleFloatStringLongByte原创 2021-01-20 23:03:37 · 305 阅读 · 0 评论 -
大数据(7e)Scala方法和函数的简化过程
带参函数无参函数函数作为参数匿名函数函数写法补充比较Scala和Python的函数写法下划线 用法原创 2021-01-17 10:47:28 · 340 阅读 · 0 评论 -
大数据(7d)比较Python和Scala的方法和函数
文章目录PythonScalaPython原名methodfunction译名方法函数调用方式对象名.方法名()函数名()f2 = lambda: Nonedef f1(): passclass C: def __init__(self): pass def m1(self): pass @staticmethod def m2(): pass @classme原创 2021-05-19 18:50:54 · 250 阅读 · 1 评论 -
大数据(7c)比较Python和Scala的流程控制
前言:以Python为参照,理解和速查Scala用法文章目录判断循环:for循环:break(没有Python那种continue功能)异常导入:import类:class继承抽象类:abstract单例对象特质(多继承):trait封装属性(property)附录判断if a > 9: print(9)elif a > 4: print(4)else: print('python')if (a > 9) { print(9)}else i.原创 2021-05-19 09:55:13 · 104 阅读 · 0 评论 -
大数据(7b)比较Python和Scala语法
object函数匿名函数赋值字符串判断循环:for循环:break(没有Python那种continue功能)异常import类继承抽象类单例对象特质(多继承)封装属性(property)abstractoverridetrait原创 2021-01-19 22:17:05 · 396 阅读 · 0 评论 -
大数据(7a)Scala入门和安装
全称:Scalable Language是一门多范式编程语言(支持面向对象和函数式编程)基于Java之上Spark是Scala写的,所以学Spark前要学Scala计算机语言发展过程机器语言–汇编语言–高级语言(解释型语言、编译型语言)解释型语言(JavaScript)要想运行多次,需要进行多次解释支持跨平台编译型语言(C\C++)要想运行多次,不需要进行多次编译不支持跨平台IDE配置SparkIDE关联源码原创 2021-01-18 09:54:33 · 430 阅读 · 0 评论