- 博客(10)
- 资源 (2)
- 收藏
- 关注
原创 reduceByKey与groupByKey的区别
reduceByKeyt与groupByKey的区别?[优化代码的最基本思路](1)当采用reduceByKeyt时,Spark可以在每个分区移动数据之前将待输出数据与一个共用的key结合。借助下图可以理解在reduceByKey里究竟发生了什么。 注意在数据对被搬移前同一机器上同样的key是怎样被组合的(reduceByKey中的lamdba函数)。然后lamdba函数在每个区上被再次调用来将所有值reduce成一个最终结果。整个过程如下:ReduceByKey(2)当采用groupByKey时
2020-06-23 15:40:21 376
原创 Spark,常用Transformation类算子
map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应val conf = new SparkConf()conf.setAppName("count")conf.setMaster("local")val sc = new SparkContext(conf)val a = sc.parallelize(1 to 9, 3) # x =>*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值val
2020-06-23 15:33:59 221
转载 Spark基本架构及原理
基本架构及原理 Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求官方
2020-06-21 13:10:44 476
原创 spark,常用action算子实例
count/** * count 统计RDD共有多少行数据 */object Action_count { def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.setAppName("count") conf.setMaster("local") val sc = new SparkContext(conf) val lines = sc.textFile(".
2020-06-20 17:55:09 181
原创 Docker nginx安装,部署web项目集群,负载均衡
拉取镜像docker pull nginx创建目录mkdir -p /data/nginx/{conf,conf.d,html,logs}在conf目录下创建nginx.conf并编辑编辑nginx.conf文件# For more information on configuration, see:# * Official English Documentation: http://nginx.org/en/docs/# * Official Russian Documenta
2020-06-10 20:34:51 444
原创 Docker推送镜像到自己的阿里云卡住,也不报错
Docker推送镜像到自己的阿里云容器,一直卡住。Pushing,也不报错,也不上传。be5668ce5ec1: Layer already exists 5f70bf18a086: Layer already exists bab207619a1b: Pushing [======> ] 940.3MB/6.848GB解决办法:重启docker服务。重新上传镜像systemctl restart docker...
2020-06-09 18:09:56 2319 2
转载 深入理解Hadoop YARN中的Container概念
深入理解Hadoop YARN中的Container概念在学习Hadoop YARN—Hadoop 2.0新引入的通用资源管理系统过程中,总会遇到Container这一概念,由于中文资料的缺乏,很多人对Container这一概念仍非常的模糊。它与Linux Container是什么关系,它是否能像Linux Container那样为任务提供一个隔离环境?它代表计算资源,还是仅仅是一个任务处理进程?本文将尝试介绍Container这一概念。步骤1:用户将应用程序提交到ResourceManager上;
2020-06-09 13:06:48 886
原创 jdbc连接数据库,增删查改,日志配置
获取连接public static Properties readValue() { Properties props = new Properties(); try { PropertyConfigurator.configure("src/log4j.properties"); // 配置文件位于当前目录中的config目录下 InputStream in = new BufferedInputStream(new FileInputSt
2020-06-01 17:13:01 197
导出excel和csv格式模板.zip
2021-05-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人