大数据
文章平均质量分 66
总写bug的程序员
代码搬运工,小白一个
展开
-
linux /dev/mapper/rhel-root分区扩容
linux分区扩容原创 2022-12-29 17:22:28 · 3500 阅读 · 1 评论 -
如何打造一个流式数据湖
利用Flink cdc+Flink+Hudi构建流式数据胡原创 2022-12-28 20:45:34 · 688 阅读 · 1 评论 -
将Apache Hudi数据写入oss对象存储
pom依赖<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-aliyun</artifactId> <version>3.2.1</version></dependency><dependency> <groupId>com.aliyun.oss</group原创 2022-01-17 21:07:28 · 889 阅读 · 0 评论 -
使用linux命令行创建oss的bucket和上传文件
下载命令行工具ossutil网址下载linux版本的下载安装1、运行以下命令下载ossutilwget http://gosspublic.alicdn.com/ossutil/1.7.8/ossutil64 2、运行以下命令下载ossutilchmod 755 ossutil643、使用交互式配置生成配置文件。./ossutil64 config具体配置细节见上面的下载链接创建Bucket name命令格式./ossutil64 mb oss://bucket使用示原创 2022-01-17 17:51:27 · 1284 阅读 · 0 评论 -
连接xshell遇到的坑,超出DHCP初始ip地址
虚拟机网络配置好以后连接xshell,总是连接不上,排查错误可以ping自己,也可以ping外网,说明网络配置没问题就是连不上xshell后来才发新我的ip虽然和我主机一个网段,但是我最后一个时101,初始的Ip起始地址不包括101,所以一致无法连接,真的是费了老大劲,排查了各种错误,我把ip起始地址修改为192.168.31.3,这样就可以了最终完美解决...原创 2022-01-06 15:35:11 · 1217 阅读 · 0 评论 -
详细讲清楚Flink中使用EventTime+Watermark解决乱序问题
一般来说,以事件时间为时间语义,如果一个时间流不按事件时间递增的顺序到达Flink作业中,则称此流数据为乱序(out-of-order)数据流。下面给出一个乱序数据流的示意图现假设所有传感器的时间是同步的,那么传感器中监测到的事件数据,理论上的顺序为1、2、3、3、5、6、7、9.但经过网络传输后到达Flink作业时的顺序为2、3、1、7、3、5、9、6,不少事件时间次序颠倒,形成乱序。其中有两个时间戳为3的事件数据,有是不同可能Key的时间戳,也可能是传感器重发了两次3.因此,在真正的分布式环境中,要原创 2021-12-24 16:29:33 · 1895 阅读 · 0 评论 -
flink的checkpoint配置
Flink默认不启用Checkpoint机制。一般在生产环境下,都需要开启Checkpoint机制,此时可以通过如下方式开启,并进行相关配置:StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); //每间隔2000ms进行CheckPoint env.enableCheckpointing(2000); //原创 2021-12-23 16:29:29 · 3976 阅读 · 0 评论 -
hudi详解并集成spark实现快照查询和增量读取数据
1.什么是Hudi?2.Hudi对HDFS可以实现哪些操作?3.Hudi与其它组件对比有哪些特点?Hudi是在HDFS的基础上,对HDFS的管理和操作。支持在Hadoop上执行upserts/insert/delete操作。这里大家可能觉得比较抽象,那么它到底解决了哪些问题?Hudi解决了我们那些痛点1.实时获取新增数据你是否遇到过这样的问题,使用Sqoop获取Mysql日志或则数据,然后将新增数据迁移到Hive或则HDFS。对于新增的数据,有不少公司确实是这么做的,比较高级点的,通过She.原创 2021-12-12 17:31:31 · 7060 阅读 · 0 评论 -
实现flink集成hudi,将数据写入到hdfs中,并解决一些问题
本机环境在集成之前首先你的服务器必须具有jdk,hadoop,scala,flink,maven环境。其中jdk1.8以上,hadoop最好用3.0以上,至于scala和flink的版本受限于hudi的版本,我这里使用的是0.9版本,对应flink-1.12.2,scala-2.11.12。首先从hudi官网下载hudi源码,上传到服务器上,进行编译mvn clean package -DskipTests注意:默认是用scala-2.11编译的如果我们用的是flink1.12.2-2.12原创 2021-12-09 21:16:18 · 2505 阅读 · 1 评论 -
安装VMware RedHat Linux 7.4教程
1.创建新的虚拟机2.选择“自定义(高级)”3.选择“下一步”4.选择“稍后安装操作系统”5.选择操作系统的类型6.设置虚拟机名称和保存路径7.下一步8.下一步9.设置网络类型,选择“使用仅主机模式网络”10.下一步11.下一步12.下一步13.设置硬盘容量,可以适当大一些14.下一步15.点击“完成”16.加载ISO光盘,并启动虚拟机17.选择第一个选项,并回车18.选择“Continue”19.选择“设置时区”20.配置安装选项原创 2021-12-02 19:57:53 · 2025 阅读 · 0 评论 -
VMware如何配置网络连接xshell和xftp
启动对于VMvare的安装,可以查看我的VMware虚拟机安装教程。安装成功后,启动一个虚拟机,如图所示打开终端,通过命令获取管理员权限sudo su上图需要输入密码,密码是一开始安装虚拟机时设置的,一般为123456配置首先进入network-scripts路径下cd /etc/sysconfig/network-scripts/vim ifcfg-ens33 这里需要把IPADDR改成和下图IP地址同一个网段,下图是点击主界面的编辑->虚拟网络编辑器->更改设原创 2021-12-02 19:49:55 · 1739 阅读 · 0 评论 -
SourceFunction中生成TimeStamp和Watermark
SourceFunction中定义了一个void run(SourceContext ctx)方法来启动数据源,SourceContext对象中定义了数据源发送事件数据并生成TimeStamp的方法:void collectWithTimeStamp(T element,long timestamp)第一个参数element代表要发送的元素,第二个参数timestamp代表这个元素对应的时间戳。这个方法只有在设置TimeCharacteristic为EventTime时才有效。当设置为Processi原创 2021-11-30 11:16:12 · 451 阅读 · 0 评论 -
数据可视化:了解数据的五个简单图
构建数据科学工作流时有许多不同的场景。无论数据分析多么复杂,每个数据科学家都需要处理一个重要的最后一步:将他们的发现传达给不同的利益相关者——决策者、经理或客户。这最后一步至关重要,因为如果无法理解、信任或重视调查结果,那么整个分析将被丢弃和遗忘。除了通常的软技能外,数据科学家还可以使用数据可视化在几张幻灯片中传达清晰的信息。数据可视化使用颜色、形状、位置和其他视觉通道对信息进行编码,这样人类可以比阅读一些文本或查看 Excel 电子表格更快地理解数据。您将在下面找到我个人最喜欢的五个可视化数据图表。这原创 2021-11-24 21:10:45 · 945 阅读 · 0 评论 -
数据湖产品国内重点厂商介绍
亚马逊云科技(1)企业简介14年来,亚马逊云科技(Amazon Web Services)一直是世界上服务丰富、应用广泛的云服务平台。亚马逊云科技提供超过175项全功能的服务,涵盖计算、存储、数据库、联网、分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面,遍及25个地理区域的81个可用区(AZ),并已公布计划在澳大利亚、印度、印度尼西亚、以色列、西班牙、瑞士和阿拉伯联合酋长国(UAE)新增7个亚马逊云科技区域、21个可用区。全球数百万原创 2021-11-22 15:52:23 · 3514 阅读 · 0 评论 -
数据湖探索DLI
什么是DLI数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、openLooKeng(基于Apache Presto)生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、原创 2021-10-29 09:31:21 · 517 阅读 · 0 评论 -
“数据湖”架构的基础话语体系
“数据湖”是一种由大数据实践驱动的技术架构,其理论体系的形成相对较晚。2016 年,“数据仓库之父”美国学者比尔·恩门(Bill Inmon)出版《数据湖架构(Data Lake Architecture)》一书,对“数据湖”相关话语体系进行了系统性梳理 [14]。现综合多个文献的内容对领域主要术语总结如下:第一,数据湖(data lake)。数据湖是一种可以接纳多种原始格式数据资源并面向用户需求提供整体性数据服务的集中式、可扩展存储基础设施。数据湖与数据仓库(data warehouse)的区别原创 2021-10-25 21:30:49 · 1472 阅读 · 0 评论 -
大数据、快速数据和数据湖概念
作者:娜塔莉亚·米洛斯拉夫斯卡娅和亚历山大·托尔斯泰国立核研究大学MEPhI(莫斯科工程物理研究所)摘要今天,我们见证了大数据的另外两个概念的出现:数据湖和快速数据。它们只是旧大数据IT的新营销标签,还是真正的新标签?因此,本文的主要目标是确定这三个概念之间的关系。关键词:大数据,快速数据,数据湖1介绍在过去的几十年里,用于更好的决策和更有效的运营的企业数据正在急剧增长。几乎所有现代企业都获得了大量关于其IT基础架构(ITI)当前状态的数据。这些数据需要及时正确地处理,以识别对业务需求有用的信翻译 2021-10-25 17:22:30 · 373 阅读 · 0 评论