要努力学习啊男神-CSDN博客

原创 centos7安装mongodb

chartgpt生成的，记录备份一下。7.2 添加普通用户。

2024-07-12 14:41:38 325 1

原创解决mac电脑下excel的中文乱码问题

【代码】解决mac电脑下excel的中文乱码问题。

2024-05-27 09:32:19 429

原创 python pip安装特定包，网络慢的问题

文件requirements.txt。将文件放入任意一个目录下。cd 到该目录下执行。

2023-11-13 18:05:08 245

原创记-从Doris大表整成csv文件到本地的过程

任务是需要同步服务器上的一张大表里面的数据整理成csv的方式到本地，表数据量1.7个亿。因为数据量和csv大小不成线性关系，更像指数递增，故切分为小文件来做。因为vpn连接公司内网不稳定，故使用公司服务器跑数。代码输出的结果为177个100万的csv文件。在本地电脑上打开termterxxx。然后就得到一个大的csv文件。

2023-11-03 09:11:22 309

原创 Centos7.9安装Docker

【代码】Centos7.9安装Docker。

2023-07-08 21:14:31 221

原创 Python 压测Mysql、Doris

【代码】Python 压测Mysql、Doris。

2023-06-14 15:51:49 561

原创 Doris 连接mysql外表

【代码】Doris 连接mysql外表。

2023-06-13 22:31:55 739

原创 java连接Phoenix获取hbase原数据

【代码】java连接Phoenix获取hbase原数据。

2023-05-29 10:16:04 432

原创 CDH集成Doris（基于非AVX平台）

这是借鉴大佬的文章原来的文章，shell有错误，并不能直接运行，这里使用小白的视角来运行编译一下。

2023-05-22 17:34:02 609 17

原创从0搭建CDH，非root用户版本

更多选项 ----> http://192.168.124.120/cloudera-repos/cdh6/看了很多文章，觉得和实操还是有些出入，就手搭建了一次看看，也算做个备忘。hadoop hadoop[非root用户]提供 SSH 登录凭据。

2023-04-29 20:44:33 1357

原创腾讯云安装mysql5、8

【代码】腾讯云安装mysql5、8。

2023-04-25 16:30:29 242

原创 Python-大文件入Doris方案（切割方式）

【代码】Python-大文件入Doris方案（切割方式）

2023-04-19 14:52:24 1010

原创 SQL刷题有感-持续

然后使用COUNT(DISTINCT b.user_id)计算当天有登录记录的用户数，使用COUNT(DISTINCT a.user_id)计算次日有登录记录的用户数。该SQL语句中，首先通过LEFT JOIN将当天和次日的登录记录进行关联，并筛选出当天和次日均有登录记录的用户。最后将次日有登录记录的用户数除以当天有登录记录的用户数并乘以100，得到次日留存率。问题一：求次日留存率。

2023-04-14 18:06:12 84

如ATLAS首页的SEARCH、CLASSIFICATION、GLOSSARY、Basic、Advanced 诸如此类的，整个Atlas页面的一级按钮标签或者二级按钮都是这样的，先把关键字标出。Atlas汉化需要更改dashboardv2、3里面的数据内容，它是一个图形化的界面，用于展示数据资源的元数据信息和数据治理的状态，见下图。以此类推，其中，button为按钮操作，需全部查出（V2、V3）并自行检查更改。如SEARCH替换为搜索，如下图(我这边已经更改完成)优点：汉化彻底，报错日志也可以汉化。

2023-04-11 18:37:13 518

原创某x x x atlas汉化

由于是乏味的工作，直接分享出来。

2023-02-21 13:56:51 452 1

原创 CDH6.3.2编译atlas-2.1

会报包缺失，info日志上面会给出包路径，网上下载一下放入maven路径里面就可以了。完整安装包，大小约3G。

2023-02-20 14:57:19 275 5

原创 dlink平台上面flink-connect-kudu开发

数仓实时链路需要接入flink、kudu在dlink平台上面进行无代码开发。

2022-12-14 11:50:40 282

原创 Dlink安装注意点

1.Mysql的版本、鉴权、赋权mysql8安装参考Mysql安装Mysql GPG密钥过期问题2.plugins jar包的选择 – 重要参考上图其中flink-sql-connect 是连通包flink-table 是主包stax、woodstox是依赖的补充需要添加mysql-connect-java.jar Version= 8.0.313.conf文件更改下面展示一些。配置开启后直接配置集群实例即可下面展示一些。下面展示一些。下面展示一些。

2022-12-06 14:30:10 199

原创 fuser -km问题

然后xshell断开链接，集群报错，datanode启动不起来。执行了 fuser -km /home。1.启动节点的rpc服务。

2022-09-19 10:29:10 670

原创 Mysql实现ROWNUMBER与RANKNUMBER的代码实现

CREATE TABLE `players` ( `pid` int(20) NOT NULL AUTO_INCREMENT, `name` varchar(50) NOT NULL, `age` int(20) NOT NULL, PRIMARY KEY (`pid`)# UNIQUE KEY `name` (`name`)) ENGINE=InnoDB DEFAULT CHARSET=latin1;# drop table players;INSERT INTO `pl

2021-06-16 10:08:35 405 1

原创 spark写入到mysql（C3p0连接池方式）

emmm总共四个文件MysqlPool文件获取连接数mysqlutils文件处理连接池逻辑propertyutils文件获取mysql配载文件信息mysql-user.properties 供propertils获取连接信息Mysql-user.propertiesmysql.pool.jdbc.url=xxxmysql.pool.jdbc.userName=xxxmysql.pool.jdbc.passWord=xxxmysql.pool.jdbc.driv

2021-05-08 16:02:43 513 1

原创分区表写入分区

set hive.exec.dynamic.partition.mode=nonstrict;insert overwrite table fts_test.ads_efficiency_whole_aging_hv_i partition(opt_mon,opt_day,opt_hour) select * from fts_pro.ads_efficiency_whole_aging_hv_i where opt_mon='202104' and opt_day>='2021041

2021-04-23 15:07:29 151

原创 maven手动导包

产生场景：maven手动导包出现在项目所用jar包版本过低，maven云端无此版本的依赖场景解决案例：mvn install:install-file -Dmaven.repo.local=D:\software\maven\DB_group -DgroupId=org.apache.kudu -DartifactId=kudu-spark_2.10 -Dversion=1.6.0-cdh5.14.99 -Dpackaging=jar -Dfile=D:\software\maven\kudu-spar

2020-11-02 14:30:32 194

原创 java根据excel表格生成切片表模板文件

上图就是开发需求，直接上代码package tst;import org.apache.poi.xssf.usermodel.XSSFRow;import org.apache.poi.xssf.usermodel.XSSFSheet;import org.apache.poi.xssf.usermodel.XSSFWorkbook;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.

2020-09-16 17:25:50 282

原创 hive udf 中实现周岁算法，并对入参日期做判定

package com.ebscn.cdh.udfs;import org.apache.arrow.flatbuf.Int;import org.apache.hadoop.hive.ql.exec.UDF;import sun.rmi.runtime.Log;import java.io.*;import java.math.RoundingMode;import java.text.DecimalFormat;import java.text.NumberFormat;import

2020-09-05 18:53:03 262

原创 Map集合三种输出方式

import java.util.*;public class test { public static void main(String[] args) { HashMap<Integer,String> hashMap=new HashMap<>(); hashMap.put(10,"a"); hashMap.put(5,"c"); hashMap.put(18,"b"); //三种遍历

2020-07-23 09:23:12 2494

原创 JAVA操作excel生成Hive表

package Excel_Deal;import org.apache.poi.xssf.usermodel.XSSFRow;import org.apache.poi.xssf.usermodel.XSSFSheet;import org.apache.poi.xssf.usermodel.XSSFWorkbook;import java.io.FileInputStream;import java.io.IOException;import java.util.ArrayList;

2020-07-14 15:11:25 336

原创操作excel生成oracle数据库

package Excel_Deal;import org.apache.poi.xssf.usermodel.XSSFRow;import org.apache.poi.xssf.usermodel.XSSFSheet;import org.apache.poi.xssf.usermodel.XSSFWorkbook;import java.io.FileInputStream;import java.io.IOException;import java.util.ArrayList;i

2020-07-13 20:34:08 308

原创 Spark 知识点

Spark小文件处理1.通过Spark中的repartition()方法进行从分区。2.降低spark的并行度，减少文件数量。3. 新增一个并行化任务，以 group by 文件的形式合并小文件spark接收kafka的两种方式区别Receive的方式（通过zk连接kafka队列获取数据）保证数据高可用的情况下，要开启预写日志，才能保证数据0丢失。Direct的方式（直接到kafka节点上取数据）这种方式会周期性的查询Kafka，来获得topic+partition的最新offset，优

2020-06-22 15:18:14 208

转载转载来的文章

一、修改IP地址前需要准备的工作1、虚拟机需要使用NAT的网络模式虚拟机关机状态下，点击"编辑虚拟机设置"，点击"网络适配器"，选择"NAT模式"二、虚拟机NAT模式网络设置1、选中需要设置网络的虚拟机，然后分别点击“编辑”——“虚拟网络编辑器”打开虚拟网络编辑器窗口，点击“更改设置”说明： 1、选择VMnet8网卡，NAT模式； 2、选择NAT模式； 3、取消勾选使用本地DHCP服务将IP地址分配给虚拟机。若勾选，则每次开机，地址是动态的，会变的，故取消勾选。IP地址，后面通过

2020-06-12 10:06:04 159

原创 Kafka知识瞎编搞起来

为什么需要消息队列在高并发的应用场景中，由于来不及同步处理请求，接收到的请求往往会发生阻塞，例如高并发的数据库应用场景，就会有大量的插入，更新请求同时到达数据库，这会导致行或者表被锁住，最后会因为请求堆积过多触发 “连接数过多的异常”错误。什么是消息队列从字面上来看，是一个队列，拥有先进先出的特性，用于不同进程间的通信，详细队列采用异步通信机制，即，生产者消费者无需同时与消息队列进行数据交互，消息会一直在队列中，直到被接收者读取。消息队列主要有哪些作用应用解耦：多个应用可通过消息队列对相同的消息进

2020-06-10 16:18:30 321

debain安装wkhtml， 一键完成，童叟无欺，dpkg -i *

CDH6.3.2安装包全+Flink+Doris2.0 都是CDH适配的，采用阿里网盘的方式

Flink-connect-mongodb

dlink集成phoenix的包-dlink-connector-pho/Users/soenix-1.14-0.6.7.jar

CDH6.3.2集成atlas2.1，亲测可用

LDAP Mac安装包下载，亲测可用

哈喽，可以帮我看下这个问题吗？

debain安装wkhtml，一键完成，童叟无欺，dpkg -i *