- 博客(9)
- 收藏
- 关注
原创 Hive函数详解
最初Hive函数分为 内置函数 和 用户自定义函数两大类, 其中用户自定义函数又被分为3类, 分别是:内置函数: 属于Hive自带的.用户自定义函数:UDF: 全称叫 User Defined Functions, 普通函数, 即: 一进一出.例如: select * from stu;UDAF: 全称叫 User Defined Aggregation Functions, 聚合函数, 即: 多进一出.例如: select count(id) from stu;
2023-09-08 11:36:24
261
1
原创 HQL DDL语句详解(操作数据库)
它指的是 数据定义语言, 主要是用来 操作数据库, 数据表, 字段等的. 这里我们学习DDL语句, 主要就是学习 Hive如何建表. 它(Hive如何建表)非常重要, 是你学好Hive的第1课.建表语法:create [external] table [if not exists] 表名(列名 数据类型 [ comment '描述信息'],列名 数据类型 [ comment '描述信息'],列名 数据类型 [ comment '描述信息'],......
2023-09-07 09:20:36
665
1
原创 用户画像简单描述
此外,用户画像还可以帮助企业更好地了解用户的行为特征和需求,建立更为精准的用户模型,为企业的决策提供更为精准的数据支持。同时,用户画像还可以帮助企业进行数据挖掘和分析,发现用户的潜在需求和行为模式,为企业的产品设计和营销策略提供更为精准的数据支持。总之,用户画像是各领域中用于理解用户需求和行为特征的重要工具,可以帮助企业更好地制定产品设计和营销策略,实现个性化推荐,提高用户满意度和企业的竞争力。:用户画像提供的数据可以帮助企业和组织进行数据分析和挖掘,发现用户的潜在需求和行为模式,为决策提供数据支持。
2023-09-05 17:01:06
302
1
原创 HDFS的压缩方式及应用场景
或者对单个很大的文本文件想压缩减少存储空间,同时又需要支持split,而且兼容之前的应用程序(即应用程序不需要修改)的情况。优点:压缩/解压速度也比较快,合理的压缩率;应用场景:当Mapreduce作业的Map输出的数据比较大的时候,作为Map到Reduce的中间数据的压缩格式;应用场景:一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。应用场景:适合对速度要求不高,但需要较高的压缩率的时候,可以作为mapreduce作业的输出格式;缺点:不支持split;
2023-09-03 15:12:04
251
原创 yarn的执行流程
当MapTask任务执行结束后,AppMaster会通知ReduceTast开始执行,当ReduceTask执行结束后,整个计算任务就执行完成。1.客户端提交计算任务(如:MR任务、Spark任务、Flink任务)给到ResourceManager。5.ResourceManager接收的AppMaster的请求后,会找一些nodemanager,在其上。,并通过心跳包的方式获取到要执行的计算任务的信息,之后会计算执行该任务所需的资源。了,并启动自毁,至此,整个执行流程结束。实时监听计算任务的状态。
2023-09-02 17:12:22
457
原创 HDFS读写文件流程
3. 客户端, 根据namenode返回的datanode地址列表, 可以选择并行的方式, 或者串行的方式连接各个DataNode开始读取数据, 采用IO流的方。如果没有, 直接报错, 返回不存在此文件, 如果有, 接着判断是否有读取数据的权限, 如果没有, 直接报错, 如果有, 那。文件, 如果有理解报错, 说写入的文件以存在, 如果不存在, 还会校验是否有写入数据权限, 如果没有, 直接报错, 报权。限不足, 如果既不存在, 也有权限, 就会给客户端返回可以写入。
2023-09-02 16:28:06
172
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人