自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xy_hgtc的博客

一起学习,一起进步

  • 博客(7)
  • 收藏
  • 关注

原创 元数据管理-Atlas

传送门:https://atlas.apache.org/Apache Atlas 为组织提供开放的元数据管理和治理功能,构建其数据资产的目录,对这些资产进行分类和治理,为数据科学家、分析师和数据治理团队等提供数据资产管理的相关功能。

2023-12-03 19:33:19 855 1

原创 Spark SQL的运行机制

DAG调度器(DAGScheduler)接收到Job任务以后,对Job形成DAG有向无环图和划分Stage阶段,会确定每个Stage阶段需要多少个Task(线程),并且将这些Task放在了一个叫TaskSet集合里。Spark SQL底层依然运行的是Spark RDD的程序,所以说Spark RDD程序的运行的流程,在Spark SQL中依然是存在的,只不过在这个流程的基础上增加了从SQL翻译为RDD的过程。3-对(未优化前的)逻辑计划进行各种优化操作,Spark SQL提供了一两百种优化规则。

2023-12-02 20:38:03 520 1

原创 Kafka的基本介绍

Kafka是一款消息队列的中间件产品, 来源于领英公司, 后期贡献给了Apache, 目前是Aapche旗下的顶级开源项目, 采用语言是Scala官方地址:kafka的特点:可靠性:Kafka集群是分布式的,并且有多副本的机制。数据可以自动复制可扩展性:Kafka集群可以灵活的调整,在线扩容耐用性:Kafka数据保存在磁盘上面,数据并且有多副本的机制。数据持久化,而且可以一定程度上防止数据丢失。

2023-12-01 18:30:24 1198 1

原创 Flume

在整个数据的传输的过程中,流动的是 event,它是 Flume 内部数据传输的最基本单元。event 将传输的数据进行封装。Flume 的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume 再删除自己缓存的数据。Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。

2023-11-30 16:50:17 859

原创 决策树算法

决策树算法是一种监督学习算法,英文是Decision tree。决策树是一个类似于流程图的树结构:其中,每个内部结点表示一个特征或属性,而每个树叶结点代表一个分类。树的最顶层是根结点。使用决策树分类时就是将实例分配到叶节点的类中。该叶节点所属的类就是该节点的分类。决策树思想的来源非常朴素,试想每个人的大脑都有类似于if-else这样的逻辑判断,这其中的if表示的是条件,if之后的then就是一种选择或决策。

2023-11-29 15:25:53 184

原创 【Elasticsearch介绍】

5.愿意参加公益活动,具有爱心和感恩之心。2.成长陪伴:一对一的师徒辅导 3.线上自主学习平台:乐有家学院,专业团队制作,每周大咖分享 4.储备及管理课堂: 干部训练营、月度/季度管理培训会 【晋升发展】 营销【精英】发展规划:A1置业顾问-A6资深置业专家 营销【管理】发展规划:(入职次月后就可竞聘) 置业顾问-置业经理-店长-营销副总经理-营销副总裁-营销总裁 内部【竞聘】公司职能岗位:如市场、渠道拓展中心、法务部、按揭经理等都是内部竞聘 【联系人】 黄媚主任15017903212(微信同号)"

2023-11-28 18:06:58 1208

原创 Hive优化相关

代码优化原则:理透需求原则,这是优化的根本;把握数据全链路原则,这是优化的脉络;坚持代码的简洁原则,这让优化更加简单;没有瓶颈时谈论优化,这是自寻烦恼。

2023-11-28 11:01:32 244 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除