xy_hgtc-CSDN博客

原创元数据管理-Atlas

传送门：https://atlas.apache.org/Apache Atlas 为组织提供开放的元数据管理和治理功能，构建其数据资产的目录，对这些资产进行分类和治理，为数据科学家、分析师和数据治理团队等提供数据资产管理的相关功能。

2023-12-03 19:33:19 950 1

DAG调度器（DAGScheduler）接收到Job任务以后，对Job形成DAG有向无环图和划分Stage阶段，会确定每个Stage阶段需要多少个Task（线程），并且将这些Task放在了一个叫TaskSet集合里。Spark SQL底层依然运行的是Spark RDD的程序，所以说Spark RDD程序的运行的流程，在Spark SQL中依然是存在的，只不过在这个流程的基础上增加了从SQL翻译为RDD的过程。3-对（未优化前的）逻辑计划进行各种优化操作，Spark SQL提供了一两百种优化规则。

2023-12-02 20:38:03 631 1

原创 Kafka的基本介绍

Kafka是一款消息队列的中间件产品, 来源于领英公司, 后期贡献给了Apache, 目前是Aapche旗下的顶级开源项目, 采用语言是Scala官方地址:kafka的特点:可靠性：Kafka集群是分布式的，并且有多副本的机制。数据可以自动复制可扩展性：Kafka集群可以灵活的调整，在线扩容耐用性：Kafka数据保存在磁盘上面，数据并且有多副本的机制。数据持久化，而且可以一定程度上防止数据丢失。

2023-12-01 18:30:24 1324 1

原创 Flume

在整个数据的传输的过程中，流动的是 event，它是 Flume 内部数据传输的最基本单元。event 将传输的数据进行封装。Flume 的核心是把数据从数据源(source)收集过来，再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume 再删除自己缓存的数据。Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。

2023-11-30 16:50:17 915

原创决策树算法

决策树算法是一种监督学习算法，英文是Decision tree。决策树是一个类似于流程图的树结构：其中，每个内部结点表示一个特征或属性，而每个树叶结点代表一个分类。树的最顶层是根结点。使用决策树分类时就是将实例分配到叶节点的类中。该叶节点所属的类就是该节点的分类。决策树思想的来源非常朴素，试想每个人的大脑都有类似于if-else这样的逻辑判断，这其中的if表示的是条件，if之后的then就是一种选择或决策。

2023-11-29 15:25:53 919 1

原创【Elasticsearch介绍】

5.愿意参加公益活动，具有爱心和感恩之心。2.成长陪伴：一对一的师徒辅导 3.线上自主学习平台：乐有家学院，专业团队制作，每周大咖分享 4.储备及管理课堂：干部训练营、月度/季度管理培训会【晋升发展】营销【精英】发展规划：A1置业顾问-A6资深置业专家营销【管理】发展规划：（入职次月后就可竞聘）置业顾问-置业经理-店长-营销副总经理-营销副总裁-营销总裁内部【竞聘】公司职能岗位：如市场、渠道拓展中心、法务部、按揭经理等都是内部竞聘【联系人】黄媚主任15017903212（微信同号）"

2023-11-28 18:06:58 1406 1

原创 Hive优化相关

代码优化原则：理透需求原则，这是优化的根本；把握数据全链路原则，这是优化的脉络；坚持代码的简洁原则，这让优化更加简单；没有瓶颈时谈论优化，这是自寻烦恼。

2023-11-28 11:01:32 269 1

xy_hgtc的博客