自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Spark 2.X RPC通信原理

Spark RPC层设计概况spark2.0的RPC框架是基于优秀的网络通信框架Netty开发的,我们先把Spark中与RPC相关的一些类的关系梳理一下,为了能够更直观地表达RPC的设计,我们先从类的设计来看,如下图所示:从上图左半边可以看出,RPC通信主要有RpcEnv、RpcEndpoint、RpcEndpointRef这三个核心类。RpcEndpoint是一个通信端,例如Spark集群中的Master,或Worker,都是一个RpcEndpoint。但是,如果想要与一个RpcEndpoint端

2020-09-18 10:46:15 201

原创 ElasticSearch相关概念及原理

一、基本概念索引(Index)ES将数据存储于一个或多个索引中,索引是具有类似特性的文档的集合,类比传统关系型数据库的一个数据库(database),或者一个数据存储方案(schema)。索引由其名称(必须全小写字符)进行标识,并通过引用此名称完成文档的创建、搜索、更新及删除操作。类型(Type)类型是索引内部的逻辑分区(category/partition),一个索引内部可定义一个或多个类型(type)。类比传统关系型数据库的一张表。文档(Document)文档是索引和搜索的原子单位,它是包含

2020-09-13 15:20:48 244

原创 Spark整合Hive(IDEA远程连接集群运行)

一. 前置准备1.1 下载windows环境所需的hadoop-common-2.2.0-bin-master插件下载地址1.2 确保远程的hadoop集群已启动二. 代码实现2.1 引入spark整合hive的依赖2.1 拷贝集群中hive-site.xml文件到IDEA的resource目录下2.2 拷贝集群中hive-site.xml文件到IDEA的resour...

2020-03-26 16:54:16 773

原创 用户画像标签体系建设(简易版)

用户画像标签体系建设(简易版)一. 项目背景及概要在互联网逐步步入大数据时代后,不可避免的给企业和用户行为带来一系列改变与重塑;其中最大的变化莫过于,用户的一切行为在企业面前是“可视化”的.随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精细化运营及精准营销服务,进而深入挖掘潜在的商业价值.于是,用户画像的概念也就应运而生二. 项目目标全业务运营下,用户画像及应用基...

2020-03-18 17:16:42 2222 1

原创 Spark开发问题点

问题现象一 :Reason: Container killed by YARN for exceeding memory limits. 3.0 GB of 2.5 GB physical memory used问题分析 :此报错与堆外内存有关解决方案 :设置参数 --conf “spark.yarn.executor.memoryOverhead=4G”程序里设置 set(“spa...

2019-11-30 10:14:44 308

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除