小涛手记-CSDN博客

原创 flinksql kafka到mysql累计指标练习

数据流向：kafka ->kafka ->mysql。模拟写数据到kafka topic：wxt中。

2023-10-26 16:36:54 1446 1

原创 mysql自定义函数求第n高的薪资

3.力扣上面执行却输出100，绝对是力扣上的bug。本地mysql操作没问题。原表：Employee。字段：id int,

2023-06-28 15:13:49 232

原创 hivesql 将数据处理成复杂json

原数据：bankid是array类型。

2023-06-27 14:42:29 749

原创 hivesql 炸裂函数

可以在两个字段集合同时炸裂后再关联商品维表取正确的数据。实际情况根据自己业务场景考虑。

2023-06-25 18:56:29 722 1

原创 dataworks 同步任务及表批量删除

dataworks->数据地图->数据专辑->创建专辑。将需要删除的表（开发+生产都可以）添加到创建的专辑中。然后批量移动专辑中的表到类目中。然后发布选中线完成任务下线。筛选需要批量操作的任务。数据开发->批量操作。

2023-06-19 17:35:08 603

原创 spark任务优化

优化思路就是增加并行写的能力，修改代码中充分区数为400，repartition(400)，设置executer数20个，task数为400，12分钟跑完了。查看yarn运行计划，是写数据到redis这个阶段特别慢，一共是10个executer，总共是20个task。1.线上spark程序写数据到redis 每天离线执行一次跑完一次要3个小时。

2023-06-09 17:17:51 141

原创删除redis大量前缀相同的key

通过获取前缀相同的key ，遍历设置key的过期时间来删除key。数据太大会超时，线上环境自己看吧。

2023-06-09 16:48:02 745

原创 spark on maxcomputer读取dataworks表数据写入redis

1.idea中新建maven项目，在pom文件中添加依赖<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 ht

2023-06-01 11:57:34 410

原创 dataworks python3将数仓结果数据以excel文件发送邮件

dataworks python3将数仓结果数据以excel文件发送邮件

2023-01-09 18:04:12 439

原创 dataworks python邮件发送

dataworks python邮件发送

2022-12-16 02:54:27 391

原创 dataworks删除大量从hive拉过来的临时表

dataworks删除大量从hive拉过来的临时表

2022-12-15 12:32:44 523

原创 hive array[bigint]转string

hive array[bigint]转string

2022-09-19 18:18:40 6316

原创 spark读取es数据写入hive

spark读取es数据写入hive

2022-07-08 11:30:32 909

原创 spark将hive表数据写入kafka

spark将hive表数据写入kafka

2022-07-07 23:51:01 1542

原创 spark模式匹配使用

package com.kaishu.warehouse.ks.adsimport com.kaishu.tools.{DateUtils, SparkManager}import org.apache.spark.SparkConfimport org.apache.spark.sql.{SaveMode, SparkSession}/** * 创建人: xiaotao * 创建日期: Created on 2022-05-26 * 数据开发功能描述: 新用户收入日报表2 * 目标

2022-05-27 00:05:31 423

原创数仓ads层表脚本

#!/bin/bashsource /etc/profileif [ -n "$2" ] ;then do_date=$2else do_date=`date -d "-1 day" +%F`fi# 创建人: xiaotao# 创建日期: Created on 2022-04-24# 数据开发功能描述: 兑换码兑换商品打卡数据（习惯熊打卡数据）ads_ks_redeem_code_df="set hive.exec.dynamic.partition=true;s

2022-04-25 22:25:42 733

原创 sparksql将hive数据写入tidb【2】

1500万数据13分钟写完，比第一版效率提升n呗package com.xxx.warehouse.serviceimport org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.execution.datasources.jdbc.JDBCOptionsobject Test_tidb2 { def main(args: Array[String]) { val spark = SparkSession.bu

2022-03-15 23:54:59 1702 3

原创 spark程序将hive表亿条数据写入tidb

import java.sql.{Connection, DriverManager, PreparedStatement, SQLException}import com.alibaba.fastjson.JSONimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{IntegerType, LongType, StringType, StructField, StructType}import org.apache.s

2022-03-10 00:01:35 2861 4

原创 spark读取hive数据写入redis

import java.utilimport org.apache.commons.pool2.impl.GenericObjectPoolConfigimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SparkSession}import redis.clients.jedis.{Jedis, JedisPool}import redis.clients.util.Poolimport scala.

2022-02-24 17:37:23 3696 1

原创 sparksql特殊符号转义

1. 符号 .sqlsplit(app_version, '\\.')[1]sparksqlsplit(app_version, '\\\\.')[1]

2022-01-30 13:45:16 2761

原创 MR程序在yarn上运行流程机制

1.客户端提交job到ResourceManager2.RM中的MRApplication分配一个jobid和临时的工作目录返回给客户端3.客服端进行初始化1.创建工作目录2.构建配信息conf.xml3.上传jor包到hdfs中4.读取文件计算切片(遍历输入路径下的所有文件,根据文件大小计算任务切片,文件<=128M*1.1就切分为一个任务切片,得到多个任务切片数,假如有3个任务切片就是3个maptask任务)4.客户端请求RM创建一个初始化的容器(存运算资源,cpu的个数,内存的.

2021-11-04 13:48:25 424

原创 hive rows between和range between使用

create table tmp( name string, class tinyint, cooperator_name string, score tinyint)row format delimited fields terminated by '|';adf|3|测试公司1|45asdf|3|测试公司2|55cfe|2|测试公司2|743dd|3|测试公司5|nfda|1|测试公司7|80gds|2|测试公司9|92ffd|1|测试公司10|95dss

2021-11-01 16:27:48 2217

原创 hive 模拟定位数据倾斜到具体sql

用户信息表select * from b;+-------+---------+--+| b.id | b.name |+-------+---------+--+| 1 | 张三 || 2 | 李四 || 3 | 赵六 |+-------+---------+--+用户爱好记录表select * from c;+-------+----------+--+| c.id | c.aihao |+-------+----

2021-08-05 21:01:34 732 2

原创 hive行列转换

1.一行转多行--数据vi test.txta b 1,2,3c d 4,5,6-- 建表create table test(col1 string,col2 string,col3 string)comment'一行转多行测试表'row format delimited fields terminated by '\t'stored as textfile;-- 加载数据load data local inpath '/root/col_to_row.tx

2021-08-05 18:04:19 527

原创 hive四个排序

数据准备-- 测试表select * from test;+--------------+--------------+--------------+--+| test.field1 | test.field2 | test.field3 |+--------------+--------------+--------------+--+| 1 | 6 | 14 || 2 | 3

2021-08-05 16:10:58 905

原创 hive小文件合并CombineHiveInputFormat

1.数据准备测试表create table test( field1 int, field2 int, field3 int)comment'小文件合并及排序测试表';数据insert into table test values(1,6,14);insert into table test values(2,3,4);insert into table test values(6,2,6);insert into table test values(1,3,2

2021-08-05 15:30:10 2879

原创 hive解析json

-- json数据{"OTHER_INFO":{"MOBILE_ADDR":"四川省内江市潘咱陛路1233号闷羞小区19单元484室","DATA2":{"CERT_ADDR":"宁夏回族自治区固原市薄精路3992号裸糕氏小区9单元1092室"},"DATA1":{"MOBILE_NUM":"15360425546"},"MOBILE_NUM":"15902875723"},"APP_NO":"RVVG5252500393","CHANNEL_SOURCE":"微信","BUSINESS_CODE":"T

2021-08-04 18:27:21 268

空空如也

空空如也