自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (2)
  • 收藏
  • 关注

原创 reduceByKey与groupByKey的区别

reduceByKeyt与groupByKey的区别?[优化代码的最基本思路](1)当采用reduceByKeyt时,Spark可以在每个分区移动数据之前将待输出数据与一个共用的key结合。借助下图可以理解在reduceByKey里究竟发生了什么。 注意在数据对被搬移前同一机器上同样的key是怎样被组合的(reduceByKey中的lamdba函数)。然后lamdba函数在每个区上被再次调用来将所有值reduce成一个最终结果。整个过程如下:ReduceByKey(2)当采用groupByKey时

2020-06-23 15:40:21 376

原创 Spark,常用Transformation类算子

map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应val conf = new SparkConf()conf.setAppName("count")conf.setMaster("local")val sc = new SparkContext(conf)val a = sc.parallelize(1 to 9, 3) # x =>*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值val

2020-06-23 15:33:59 221

转载 Spark基本架构及原理

基本架构及原理       Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求官方

2020-06-21 13:10:44 476

原创 spark,常用action算子实例

count/** * count 统计RDD共有多少行数据 */object Action_count { def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.setAppName("count") conf.setMaster("local") val sc = new SparkContext(conf) val lines = sc.textFile(".

2020-06-20 17:55:09 181

原创 Spark资源调度和任务调度

Spark资源调度和任务调度

2020-06-19 09:11:07 196

原创 spark,RDD的宽窄依赖

2020-06-19 09:09:40 186

原创 Docker nginx安装,部署web项目集群,负载均衡

拉取镜像docker pull nginx创建目录mkdir -p /data/nginx/{conf,conf.d,html,logs}在conf目录下创建nginx.conf并编辑编辑nginx.conf文件# For more information on configuration, see:# * Official English Documentation: http://nginx.org/en/docs/# * Official Russian Documenta

2020-06-10 20:34:51 444

原创 Docker推送镜像到自己的阿里云卡住,也不报错

Docker推送镜像到自己的阿里云容器,一直卡住。Pushing,也不报错,也不上传。be5668ce5ec1: Layer already exists 5f70bf18a086: Layer already exists bab207619a1b: Pushing [======> ] 940.3MB/6.848GB解决办法:重启docker服务。重新上传镜像systemctl restart docker...

2020-06-09 18:09:56 2319 2

转载 深入理解Hadoop YARN中的Container概念

深入理解Hadoop YARN中的Container概念在学习Hadoop YARN—Hadoop 2.0新引入的通用资源管理系统过程中,总会遇到Container这一概念,由于中文资料的缺乏,很多人对Container这一概念仍非常的模糊。它与Linux Container是什么关系,它是否能像Linux Container那样为任务提供一个隔离环境?它代表计算资源,还是仅仅是一个任务处理进程?本文将尝试介绍Container这一概念。步骤1:用户将应用程序提交到ResourceManager上;

2020-06-09 13:06:48 886

原创 jdbc连接数据库,增删查改,日志配置

获取连接public static Properties readValue() { Properties props = new Properties(); try { PropertyConfigurator.configure("src/log4j.properties"); // 配置文件位于当前目录中的config目录下 InputStream in = new BufferedInputStream(new FileInputSt

2020-06-01 17:13:01 197

导出excel和csv格式模板.zip

用EasyExcel导出excel和用opencsv导出csv格式模板(含前端),只需改写入数据即可。 导出excel博客:https://blog.csdn.net/weixin_43614067/article/details/116262853 导出csv博客:https://blog.csdn.net/weixin_43614067/article/details/116273446

2021-05-11

settings.zip

IDEA设置下载,包含,快捷键设置同eclipse,主题,字体大小等。 IDEA直接File->import Settings选中要导入的设置

2019-08-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除