- 博客(7)
- 收藏
- 关注
原创 元数据管理-Atlas
传送门:https://atlas.apache.org/Apache Atlas 为组织提供开放的元数据管理和治理功能,构建其数据资产的目录,对这些资产进行分类和治理,为数据科学家、分析师和数据治理团队等提供数据资产管理的相关功能。
2023-12-03 19:33:19
950
1
原创 Spark SQL的运行机制
DAG调度器(DAGScheduler)接收到Job任务以后,对Job形成DAG有向无环图和划分Stage阶段,会确定每个Stage阶段需要多少个Task(线程),并且将这些Task放在了一个叫TaskSet集合里。Spark SQL底层依然运行的是Spark RDD的程序,所以说Spark RDD程序的运行的流程,在Spark SQL中依然是存在的,只不过在这个流程的基础上增加了从SQL翻译为RDD的过程。3-对(未优化前的)逻辑计划进行各种优化操作,Spark SQL提供了一两百种优化规则。
2023-12-02 20:38:03
631
1
原创 Kafka的基本介绍
Kafka是一款消息队列的中间件产品, 来源于领英公司, 后期贡献给了Apache, 目前是Aapche旗下的顶级开源项目, 采用语言是Scala官方地址:kafka的特点:可靠性:Kafka集群是分布式的,并且有多副本的机制。数据可以自动复制可扩展性:Kafka集群可以灵活的调整,在线扩容耐用性:Kafka数据保存在磁盘上面,数据并且有多副本的机制。数据持久化,而且可以一定程度上防止数据丢失。
2023-12-01 18:30:24
1324
1
原创 Flume
在整个数据的传输的过程中,流动的是 event,它是 Flume 内部数据传输的最基本单元。event 将传输的数据进行封装。Flume 的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume 再删除自己缓存的数据。Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。
2023-11-30 16:50:17
915
原创 决策树算法
决策树算法是一种监督学习算法,英文是Decision tree。决策树是一个类似于流程图的树结构:其中,每个内部结点表示一个特征或属性,而每个树叶结点代表一个分类。树的最顶层是根结点。使用决策树分类时就是将实例分配到叶节点的类中。该叶节点所属的类就是该节点的分类。决策树思想的来源非常朴素,试想每个人的大脑都有类似于if-else这样的逻辑判断,这其中的if表示的是条件,if之后的then就是一种选择或决策。
2023-11-29 15:25:53
919
1
原创 【Elasticsearch介绍】
5.愿意参加公益活动,具有爱心和感恩之心。2.成长陪伴:一对一的师徒辅导 3.线上自主学习平台:乐有家学院,专业团队制作,每周大咖分享 4.储备及管理课堂: 干部训练营、月度/季度管理培训会 【晋升发展】 营销【精英】发展规划:A1置业顾问-A6资深置业专家 营销【管理】发展规划:(入职次月后就可竞聘) 置业顾问-置业经理-店长-营销副总经理-营销副总裁-营销总裁 内部【竞聘】公司职能岗位:如市场、渠道拓展中心、法务部、按揭经理等都是内部竞聘 【联系人】 黄媚主任15017903212(微信同号)"
2023-11-28 18:06:58
1406
1
原创 Hive优化相关
代码优化原则:理透需求原则,这是优化的根本;把握数据全链路原则,这是优化的脉络;坚持代码的简洁原则,这让优化更加简单;没有瓶颈时谈论优化,这是自寻烦恼。
2023-11-28 11:01:32
269
1
空空如也
DataGrip连接CDH版hive
2024-03-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人