自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 全国职业院校技能大赛-大数据 离线数据处理模块-指标计算

编写Scala代码,使用Spark根据dwd层的fact_change_record表关联dim_machine表统计每个车间中所有设备运行时长(即设备状态为“运行”)的中位数在哪个设备(为偶数时,两条数据原样保留输出)

2024-01-10 17:04:55 1454

原创 全国职业院校技能大赛-大数据 离线数据处理模块-数据清洗

编写Scala代码,使用Spark将ods库中相应表数据全量抽取到Hive的dwd库中对应表中。表中有涉及到timestamp类型的,均要求按照yyyy-MM-dd HH:mm:ss,不记录毫秒数,若原数据中只有年月日,则在时分秒的位置添加00:00:00,添加之后使其符合yyyy-MM-dd HH:mm:ss

2024-01-10 16:15:09 684 3

原创 全国职业院校技能大赛-大数据 离线数据处理模块-数据抽取

编写Scala代码,使用Spark将MySQL库中表ChangeRecord,BaseMachine,MachineData, ProduceRecord全量抽取到Hive的ods库中对应表changerecord,basemachine, machinedata,producerecord中

2024-01-10 12:38:36 564

原创 全国职业院校技能大赛-大数据 离线数据处理模块-环境准备

创建一个能够编写Spark代码的项目,需要引入再pom文件中引入spark对应的依赖和mysql的驱动,对创建的项目进行了基本的测试,测试了如何从mysql中读取数据,并将读取到的数据写入的指定的hive的表中

2024-01-09 19:42:30 1046 1

原创 全国职业院校技能大赛-大数据 离线数据处理模块-指标计算

指标计算部分的难点就是多表查询的部分已经开窗函数的合理运用,因此熟练掌握HiveSQL中高级函数的部分是非常重要的

2024-01-07 00:32:10 1616 1

原创 全国职业院校技能大赛-大数据 离线数据处理模块-数据清洗

赛题来源2023年全国职业院校技能大赛赛题第1套任务B中数据清洗模块。

2024-01-05 21:26:50 1157 5

原创 HTML+CSS实现打字机效果

可以看到已经出现为文字随着打字标逐个出现的效果了,此时只要将before属性的背景颜色修改为文字的背景颜色即可。通过after伪类元素在文字上方添加背景颜色覆盖文字, 并添加动画效果即可实现文字逐个出现的效果。想要实现文字打字机的效果可以有很多方式,今天分享的是使用css的方式来实现这个效果。可以通过animation的steps属性来实现文字停顿出现文字的效果。首先准备一个html文件,并准备要实现打字机效果的文字。此时已经完整的文字打印机效果了,完整代码如下。给文字添加伪类元素的绝对定位。

2023-12-30 23:50:27 895 1

原创 全国职业院校技能大赛-大数据 离线数据处理模块-指标计算

在Linux的MySQL命令行中根据设备id降序排序,查询出前2条。这里由于没有数据字段,无法写SQL,只能做一个大致的分析。每生产一件产品产生一条数据。设备生产一个产品平均耗时。

2023-12-22 21:41:49 992

原创 全国职业院校技能大赛-大数据 离线数据处理模块-数据清洗

4. 抽取ods库中producerecord的全量数据进入Hive的dwd库中表fact_produce_record,分区字段为etldate且值与ods库的相对应表该值相等,并添加dwd_insert_user、dwd_insert_time、dwd_modify_user、dwd_modify_time四列,其中dwd_insert_user、dwd_modify_user均填写“user1”,dwd_insert_time、dwd_modify_time均填写当前操作时间,并进行数据类型转换。

2023-12-22 20:02:33 1803

原创 全国职业院校技能大赛-大数据 离线数据处理模块-数据抽取

编写Scala代码,使用Spark将MySQL库中表EnvironmentData,ChangeRecord,BaseMachine,MachineData,ProduceRecord全量抽取到Hive的ods库中对应表environmentdata,changerecord,basemachine, machinedata, producerecord中。数据抽取的题目的代码是非常相似的,只要掌握创建spark对象和连接mysql的方法,那么抽取数据到ods层就不是很难了。

2023-12-22 17:29:02 1024

原创 Spark完全分布式搭建

下面的配置默认在Hadoop集群搭建成功的基础上进行搭建,如果没有搭建Hadoop,可以参考另一篇文章。将slaves.template文件和spark-env.sh.template文件的后缀去掉。在从节点中将spark中conf/spark-env.sh文件的本节点IP修改一下。在slaves文件中将三台服务器的名称配置上。配置完成后将主节点的spark分发到其他节点。将spark的安装包下载后解压到指定目录。进入spark的conf目录。查看所有进程 配置成功!进入spark安装目录。

2023-11-27 09:04:01 346

原创 Hadoop完全分布式搭建

在配置hadoop集群时总会遇到各种各样的问题,这里将完整的hadoop完全分布式的配置过程做一次完整的总结,希望能够帮助到更多人。

2023-11-10 22:27:35 118

原创 集群化环境前置配置

Linux有一个安全模块:SELinux,用以限制用户和程序的相关权限,来确保系统的安全稳定, 这里需要关闭它。集群化软件之间需要通过端口互相通讯,为了避免出现网络不通的问题,这里需要提前关闭防火墙。配置前置环境的操作都是需要root权限的,下面执行的操作默认以root用户执行命令。在每台Linux的/etc/hosts文件中,填入以下内容,每一台都要添加。可以使用VMware提供的克隆功能,将一个纯净的虚拟机克隆出三台来使用。这里的配置每台主机除了主机名和地址不一样外,其余的配置都是一样的。

2023-10-26 10:06:20 89 1

原创 Ubuntu系统在配置ssh免密登录时出现Permission denied, please try again

在完成上面的操作后,使用ssh-copy-id命令将公钥复制到远程服务器,结果出现了以下错误。在配置hadoop集群的前置准备,配置ssh的免密登录时,出现了以下错误。在打开的文件中找到 PermitRootLogin 一项。重新执行ssh-copy-id node1 配置成功!使用下面这行代码生成远程服务器登录秘钥。执行命令查看是否配置成功。

2023-10-19 14:32:21 726

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除