![](https://img-blog.csdnimg.cn/20190918135101160.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Apache基础知识
文章平均质量分 94
探究Apache的相关知识
奋斗的源
伸手摘星,即使徒劳无功,亦不致一手污泥。
展开
-
Spark的介绍、特点、核心术语、运行过程及安装
文章目录一.Spark介绍二.Spark特点一.Spark介绍Spark 是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,其用于大规模数据处理的统一分析引擎。它提供了 Scala、Java、Python 和 R 中的高级 API,以及支持用于数据分析的通用计算图的优化引擎。它还支持丰富的高级工具集,包括用于 SQL 和 DataFrames 的 Spark SQL、用于 Pandas 工作负载的 Pandas API原创 2021-10-25 09:31:36 · 2260 阅读 · 0 评论 -
Spark SQL(二):DataFrame APIs
文章目录一.输入与输出1.DataFrameReader.csv一.输入与输出方法概述DataFrameReader.csv(path[, schema, sep, …])加载一个CSV文件并以DataFrame的形式返回结果。DataFrameReader.format(source)指定输入数据源格式。DataFrameReader.jdbc(url, table[, column, …])构造一个 DataFrame,它表示通过 JDBC URL 和连接属性可原创 2021-10-28 11:43:22 · 877 阅读 · 0 评论 -
Spark SQL(一):核心类、Spark Session APIs、Configuration、Input and Output
文章目录一.核心类二.Spark Session APIs1.SparkSession.builder.config2.SparkSession.builder.getOrCreate3.SparkSession.createDataFrame4.SparkSession.getActiveSession5.SparkSession.range6.SparkSession.table三.配置四.输入与输出一.核心类类名概述SparkSession(sparkContext[, jsp原创 2021-10-24 10:30:00 · 1224 阅读 · 0 评论 -
Python安装spark
文章目录一.配置版本二.配置环境1.配置JDK2.配置Spark三.配置Hadoop说明: 本文使用anconda+pycharm安装spark一.配置版本Java JDK 1.8.0_111Python 3.9.6Spark 3.1.2Hadoop 3.2.2二.配置环境1.配置JDK从官网下载相应JDK的版本安装,并进行环境变量的配置(1)在系统变量新建JAVA_HOME,根据你安装的位置填写变量值(2)新建CLASSPATH变量值:.;%JAVA_HOME%\lib\原创 2021-10-12 13:56:40 · 3337 阅读 · 1 评论 -
Apache Beam中python常用函数(二):聚合函数
文章目录一.聚合函数1.CoGroupByKey二.其他函数一.聚合函数函数描述CoGroupByKey获取多个键控元素集合并生成一个集合,其中每个元素都包含一个键和与该键关联的所有值。CombineGlobally变换以组合元素。CombinePerKey转换以组合每个键的元素。CombineValues转换以组合键控迭代。Count计算每个聚合中的元素数。Distinct生成一个包含来自输入集合的不同元素的集合。GroupByK翻译 2021-10-11 16:27:00 · 797 阅读 · 0 评论 -
Apache Beam中python常用函数(一):基本函数(Filter、FlatMap、Map、ParDo、Keys、Values...)
文章目录一.argparse1.2.parse_args一.argparseargparse模块使编写用户友好的命令行界面变得容易。程序定义了它需要的参数,argparse将找出如何从sys.argv解析这些参数。argparse模块还会自动生成帮助和用法消息,并在用户向程序提供无效参数时发出错误。1.2.parse_args...翻译 2021-07-08 10:52:05 · 1081 阅读 · 1 评论 -
Apache Beam简介及相关概念
文章目录一.简介二.基本概念1.Pipelines2.PCollection3.Transforms4.ParDo5.Pipeline I/O6.Aggregation7.User-defined functions (UDFs)8.Runner三.高级概念1.Event time2.Windowing3.Watermarks4.Trigger四.工作原理一.简介Apache Beam 是一个开放源码的统一模型,用于定义批处理和流数据并行处理管道。Apache Beam 编程模型简化了大规模数据处理的机原创 2021-07-08 10:50:59 · 1215 阅读 · 0 评论