0lanfeng0-CSDN博客

原创安装Jupyter Lab

资源管理器中浏览到希望作为文件存储的目录，选择空白处，在按下。等待网站启动后，将自动打开浏览器，并且展现。等待网站启动后，将自动打开浏览器，并且展现。包时，将会从阿里云下载，速度会增快。包时，将会从阿里云下载，速度会增快。在终端中运行下列命令以安装必要的。依次运行下列命令以安装必要的。右键，然后选择【点击此处打开。运行安装程序，接受默认安装。多次，即可关闭网站服务。文件夹下创建一个名为。以管理员权限打开一个。文件夹下创建一个名为。在命令行中，连续按下。

2024-01-10 17:01:31 1189

原创 6.Hive优化-SQL优化

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，如果union all的部分个数大于2，或者每个union部分数据量大，应该拆成多个insert into 语句，实际测试过程中，执行时间能提升50%尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段。对历史库的计算经验 (这项是说根据不同的使用目的优化使用方法)可以使用中间表来完成复杂的逻辑。

2023-08-17 18:30:00 102 1

原创 5.Hive优化-数据倾斜

Hive在进行join时，按照join的key进行分发，而在join左边的表的数据会首先读入内存，如果左边表的key相对分散，读入内存的数据会比较小，join任务执行会比较快。数据倾斜主要表现在，map/reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多)，这条Key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完。

2023-08-17 14:10:59 89 1

原创 2.Hive UDF

UDF：进来一个出去一个，row mapping。是row级别操作开发。创建UDF函数 udf123。4.2拷贝到Linux上。添加jar包到hive中。evaluate方法。

2023-08-17 14:09:29 85 1

原创 3.Hive UDTF

UDTF(User-Defined Table-Generating Functions)用来解决输入一行输出多行(one-to-many maping)的需求。（4）初始化完成后会调用process()方法，对传入的参数进行处理，可以通过forward()方法把结果返回。（3）UDTF首先会调用initialize()方法，此方法返回UDTF的返回行的信息(返回个数，类型)。（2）实现initialize()，process()，close()三个方法。4.2拷贝到Linux上。分割爱好字段，多行显示。

2023-08-17 14:08:40 53 1

原创 maven关联Spark

- 设置false后是去掉 MySpark-1.0-SNAPSHOT-jar-with-dependencies.jar 后的 “-jar-with-dependencies” -->-- 在maven项目中既有java又有scala代码时配置 maven-scala-plugin 插件打包时可以将两类代码一起打包 -->file->Porject Structure->Artifacts->绿色的加号->JAR->from modules...-- 指定hadoop-client API的版本 -->

2023-08-17 14:05:12 171 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

zl1582330223的专栏

原创安装Jupyter Lab

原创 6.Hive优化-SQL优化

原创 5.Hive优化-数据倾斜

原创 2.Hive UDF

原创 3.Hive UDTF

原创 maven关联Spark

原创更改Maven源

原创 2.spark集群部署

原创 1.Saprk原理

原创第二章：hadoop安装

原创第二章：hadoop安装

原创第一章：hadoop介绍

原创 JavaScript基础知识学习笔记（适合懂得一定开发的人员学习，都是与java不同的一些小知识点）

转载 JDBC深度封装的工具类（具有高度可重用性）

转载 Eclipse常用快捷键总结

原创 java笔记心得2

原创 java笔记心得1

XshellXftpPortable.zip

SwitchHosts.zip

securcrt.zip

linux环境编译源码\hadoop-2.7.2-src.tar.gz

jdk-8u144-windows-x64.zip

hadoop各种环境编译后jar包.tar.gz

Google.Android.SDK开发范例大全

空空如也