数据开发
文章平均质量分 54
用于发表关于大数据开发相关学习的知识内容
技匠三石弟弟
当你的才华还撑不起你的野心时,就应该静下心来学习;当你的能力还驾驭不了你的目标时,就应该沉下心来历练。梦想不是浮躁,而是沉淀和积累。
展开
-
本地环境idea进行远程debug调试flume代码
主要讲述本地idea如何远程调试flume程序;原创 2022-08-10 10:14:50 · 946 阅读 · 0 评论 -
解决本地使用Dbeaver工具连接Hive报错问题
主要讲述本地使用Dbeaver工具如何成功连接linux服务器端hive的过程描述;原创 2022-07-23 12:09:05 · 10407 阅读 · 2 评论 -
Linux环境完成Hadoop lzo压缩配置的编译、安装和部署
主要讲述如何通过linux服务器进行编译源码;原创 2022-07-22 10:35:16 · 626 阅读 · 0 评论 -
Hive3.1.2 on Tez0.10.1的安装部署
完成Hive On Tez的安装部署;原创 2022-07-22 09:15:21 · 1402 阅读 · 1 评论 -
MySQL Binlog解析工具之Maxwell使用
主要讲述MySQL Binlog解析工具Maxwell使用情况;原创 2022-07-11 21:39:24 · 492 阅读 · 0 评论 -
日志消费工具之Flume实操-下
主要讲述使用flume工具来消费日志;原创 2022-07-11 16:28:26 · 356 阅读 · 0 评论 -
日志采集工具之Flume实操-上
主要讲述使用flume工具采集日志;原创 2022-07-11 10:58:15 · 1503 阅读 · 0 评论 -
数据同步工具之DataX实操
一、DataX部署上传DataX压缩文件至/opt/software/目录下,并解压文件至/opt/module/下。自测检查DataX,出现如下截图内容,说明安装成功二、DataX使用DataX使用概述DataX使用还是十分简单的,用户只需要根据自己同步数据的数据源和目的地来选择相应的Reader和Writer,并将Reader和Writer的信息配置在一个json文件中,然后执行下述命令进行提交数据同步任务即可。DataX配置文件格式可以通过下述命令进行查看DataX配置文件模板ht原创 2022-07-08 13:24:15 · 3068 阅读 · 2 评论 -
数据同步工具之DataX理论
主要讲述增量、全量表数据同步所需的工具。原创 2022-07-08 10:01:47 · 2867 阅读 · 0 评论 -
Spark Streaming实战之WordCount计算
一、需求从TCP Socket数据源实时消费数据,对每批次Batch数据进行词频统计WordCount,流程图如下:二、准备工作本地使用nc命令,利用它向8888端口发送数据(备注:nc是netcat的简称,原本是设置路由器),输入命令如下所示:spark streaming实现逻辑具体代码,如下所示:package com.ml.streamingimport org.apache.spark.SparkConfimport org.apache.spark.strea原创 2022-03-27 15:08:48 · 2204 阅读 · 0 评论 -
hive完成数据入库和多边形坐标串中心点的计算
一、需求介绍目前需要对客户提供的数据坐标串进行数据的入库和计算中心点。文件是以txt格式提供,数据内容各字段是通过分号来分割,坐标串每个经纬度是逗号隔开,点与点之间是空格来分割。二、数据入库操作数据内容如下所示:123;北京;xxx19号;116.393069920046 39.8794358298622,116.392284281065 39.8794240227275,116.392278945594 39.8799218737309,116.393069989912 39.87993原创 2022-01-18 21:46:59 · 1361 阅读 · 0 评论 -
hadoop yarn命令下载运行日志和结束yarn任务命令笔记
一、查看yarn日志下载日志到本地yarn logs -applicationId application_1640325130027_76754less命令查看日志less application_1640325130027_76754.txt.success结束yarn任务yarn application -kill application_1640325130027_75655...原创 2021-12-31 10:44:53 · 3295 阅读 · 0 评论 -
Hive实现模糊匹配多个关键字
一、需求说明今天工作当中需要对一个清单表中所列取的数据进行在hive指定表进行相应列的模糊匹配,来最终查询出表中是否存在该值。二、案例实操首先阐述一下本次所要用到的Hive SQL语法关键字…select * from table where 字段 regexp 'key1|key2';具体SQL代码实现select distinct cell_keyfrom dwd_db.dwd_lbs_4g_anal_realwhere day_id = 20211229 and pr原创 2021-12-30 15:57:03 · 9075 阅读 · 0 评论 -
解决Hive动态分区小文件过多问题
一、问题描述为了支撑相应的业务需求,本次生产环境通过Hive SQL来完成动态插入分区表数据的脚本开发。但是,动态分区的插入往往会伴随产生大量的小文件的发生。而小文件产生过多的影响主要分为以下两种情况:(1) 从Hive的角度看,小文件会开很多map,一个map开一个JVM去执行,所以这些任务的初始化,启动,执行会浪费大量的资源,严重影响性能。(2)在HDFS中,每个小文件对象约占150byte,如果小文件过多会占用大量内存。这样NameNode内存容量严重制约了集群的扩展。所以,我们必须要解决上原创 2021-12-05 18:02:16 · 4351 阅读 · 0 评论 -
Hive科学技术法转换
一、需求描述今日下午在对hive库表进行数值统计,发生一件很有意思的一件事,统计求和的结果出现科学技术法。出现的原因待核查,因为主要是我的字段设置是字符串类型string。所以有点费解其实…二、解决方案我这边主要利用的是Hive函数中regexp_extract、regexp_replace以及rpad三个组合完成本次的科学技术法转换操作。函数语法介绍·函数名称:正则表达式解析函数·语法1:regexp_extract(string subject, string pattern, in原创 2021-12-01 23:23:44 · 3655 阅读 · 0 评论 -
Hive TextFile、OrcFile存储格式以及相应压缩算法的测试
一、存储格式介绍TextFile·存储格式:作为hive当中默认的存储格式·存储方式:行式存储·缺点:磁盘开销大,数据解析开销大。·用处:可结合Gzip、Bzip2使用(系统自 动检查,执行查询时自动解压),但使用这种方式,压缩后的文件不支持split,Hive不会对数据进行切分,从而无法对数据进行并行操作。SequenceFile·格式支持:SequenceFile是Hadoop API提供的一种二进制文件支持·存储方式:行式存储·优点:其具有使用方便、可分割、 可压缩的特点·压缩选原创 2021-11-28 23:05:36 · 2866 阅读 · 0 评论 -
Hive SQL实现数组中map的拆分以及计算
一、需求背景本次任务主要是完成对表中的每一行数据进行求和计算。涉及的表数据如下所示:["Emc:0","MoVoiceCall:0","Mt:0","MoSig:2","MoData:1","HighPri:0","MoVideoCall:0","MoSms:0","MpsPri:0","McsPri:0"]["Emc:0","MoVoiceCall:1","Mt:0","MoSig:26","MoData:1","HighPri:0","MoVideoCall:0","MoSms:0","Mp原创 2021-11-27 22:34:04 · 4254 阅读 · 0 评论 -
hive分区partition介绍
一、简要概述Hive分区更方便于数据管理,常见的有时间分区和业务分区。二、hive分区原理通过实例来理解Hive分区的原理:(一)多分区操作:创建分区表CREATE TABLE default.DWA_LBS_FUSE_SCIC_XXX(time string comment '时间戳',mdn string comment '手机号码',lon string comment '经度',lat string comment '纬度',cityCode string comment '地原创 2021-01-30 10:50:04 · 638 阅读 · 0 评论 -
Hadoop HDFS命令知识
一、简要概述目前在工作中用到的hdfs命令大概分为以下几种:读取文件、新建目录、移动文件、复制文件、删除目录、上传文件、下载文件、列出目录等;二、分别陈述查看HDFS目录hadoop fs -ls /查看 HDFS 中的非压缩文件的内容hadoop fs -cat /data02/data.txt修改 HDFS 中文件或目录的访问权限,-R 选项可以修改目录下的所有子目录的访问权限,执行此命令的用户必须是文件或目录的所有者或超级用户hadoop fs -chmod 70原创 2021-02-28 22:46:52 · 271 阅读 · 0 评论 -
hive表数据按照手机号去除重复,每个手机号只保留一条记录
一、简要介绍样例数据:mdnimeiimsivprovId106494893012986701203440557144601111285803231231064948930129867012034405571446011112858032312310649486054048666660207679900460110662972417234需求:表数据按照手机号去除重复,每个手机号只保留一条记录二、HSQL编写思路使用ROW_NUM原创 2021-03-14 16:05:53 · 1566 阅读 · 0 评论 -
简述kafka生产者ack确认机制
一、总结该章节主要探讨造成数据丢失问题生产者ack确认机制(目的是要有多少个分区副本收到消息,生产者才认为该消息写入成功;acks参数对数据是否丢失起重要的作用)(1)ack = 0,就是表示生产者不会和broker确认消息是否写入成功。这就有可能造成服务器broker因出现问题,导致没有接收到生产者的消息,而生产者却无从得知。这也就造成数据的丢失。 --较低延迟和高吞吐量,但是以消息丢失的高风险为代价。(2)ack = 1,是表示,生产者是以broker集群leader分区副本接收到消息并向生原创 2021-07-06 18:01:09 · 474 阅读 · 0 评论