自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (8)
  • 收藏
  • 关注

原创 数据湖iceberg和spark集成

为了解决数据存储和计算引擎之间的适配的问题,Netflix开发了Iceberg,2018年11月16日进入Apache孵化器,2020 年5月19成为Apache的顶级项目。Iceberg是一个面向海量数据分析场景的开放表格式(Table Format)可以理解为元数据以及数据文件的一种组织方式,处于计算框架(Flink,Spark…)之下,数据文件之上。

2024-06-25 15:52:41 1016

原创 No appropriate protocol -- Mysql

将VM options的TLSv1改为TLSv1.1。

2023-11-21 17:03:26 492

原创 大数据分析仓库Kylin

Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的 Hive 表。

2023-11-21 16:32:10 232

原创 安装系统--SecureBoot需要关闭

当在BIOS里不能关闭,可以使用命令关闭。

2023-11-20 10:20:19 435

原创 数据仓库建设-数仓分层

数据仓库能够帮助企业做出更好的决策,提高业务效率和效益;在数据仓库建设时,绕不开的话题就是数仓分层。

2023-07-19 18:19:06 2251

原创 MacOS在终端中使用sshpass命令登录服务器

解决MacOS在终端中登录堡垒密码交互输入的麻烦。目前堡垒机不支持密钥,使用sshpass命令可以较便捷地连接服务器。

2023-07-05 14:58:05 1406 1

原创 弃用本地分支所有代码,获取远程分支最新代码

git弃用本地已commit的代码,比如操作失误master分支pull了远程的dev分支;此时想恢复到远程的master分支,当前分支所有修改过的代码将全部丢失。请确保在执行这些操作之前,你已经备份了重要的代码,以防万一。

2023-06-06 18:19:51 758

原创 手机号归属地和运营商数据(471452条)

中国手机号前七位可以确定手机号归属地;手机后缀为csv,可导入hive、mysql等数据库。整理的数据有471452条,涵盖95%的归属地数据。

2023-05-19 17:57:08 2039

原创 Hadoop或hive用户名和本地主机用户名不一样,不能读写

解决Hadoop集群用户名和程序运行主机用户名不一样不能读写,配置了HADOOP_USER_NAME不生效的问题。

2022-11-17 12:09:27 3481

原创 idea插件GenerateAllSetter

发现个好用的插件,可以自动列出对象的set方法

2022-08-23 17:33:00 430

原创 StopWatch统计耗时

StopWatch耗时统计

2022-08-23 17:15:58 319

原创 HBase集群修复工具HBCK2

HBCK2目前是一个简单的工具,一次只做一件事。在hbase-2.x中,Master是所有状态的最终决定者,所以大多数HBCK2命令原则是要求Master实现对hbase进行修复。这意味着在你运行HBCK2命令之前,Master必须已经启动。HBCK2的实现方法是利用Master的HbckService服务,该服务发布了一些方法供HBCK2工具使用。因此,HBCK2依赖Master的HbckService服务,HBCK2做的第一件事是探查集群以确保服务是可用的。...

2022-07-18 11:50:19 2494

原创 HBase&Spark集成 -- DataFrame

HBase&Spark集成 – DataFrame​ Apache HBase 是一个成熟的 NoSQL 存储系统,已在大规模生产部署中得到证明。尽管 HBase 是一个键值存储,但对于像 SQL 一样更轻松地访问数据的需求很高。Apache Spark SQL 提供了基本过滤和插入数据的强大支持。hbase-connectors子项目提供了HBase 与SparkSQL 的集成。​ hbase -spark 集成 利用 Spark-1.2.0 版本中引入的DataSource API。HB

2022-04-24 09:32:08 4036

原创 Spark分布式弹性数据集RDD、DataFrame和DataSet

Spark分布式弹性数据集RDD、DataFrame和DataSet首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。DataSet会逐步取代RDD和DataFrame成为唯一的API接口。RDDRDD是一个懒执行的不可变的可以支持Lambda表达式的并行数据集合。RDD的最大好处就是简

2022-01-27 18:00:25 911

原创 Mac电源适配器充不上电解决方案

Mac电源充电问题1、将电源适配器连接到电源和MAC。2、在内建键盘上,同时按下左侧Shift+Control+Option键和电源按钮3、同时松开所有键和电源按钮4、打开电脑问题就解决了就这样解决了

2022-01-25 09:29:42 3728

原创 org.roaringbitmap.InvalidRoaringFormat: I failed to find one of the right cookies.

org.roaringbitmap.InvalidRoaringFormat: I failed to find one of the right cookies.这个错误的解决方案如下: RoaringBitmap rbm = new RoaringBitmap(); // 序列化为byte数组,就可以保存到数据库了 byte[] array = new byte[rbm.serializedSizeInBytes()]; rbm.serialize(ByteBuffer.wrap(array)

2021-12-21 16:12:00 1258

原创 Linux快速入门

Linux1.Linux的引言Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和Unix的多用户、多任务、支持多线程和多CPU的操作系统。伴随着互联网的发展,Linux得到了来自全世界软件爱好者、组织、公司的支持。它除了在服务器操作系统方面保持着强劲的发展势头以外,在个人电脑、嵌入式系统上都有着长足的进步。目前Linux存在着许多不同的Linux发行版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、台式计算机。2.L

2021-09-30 17:53:15 377 1

原创 git快速入门

Git笔记1.Git解决现有项目中的哪些问题1.安全性太低2.项目无端报错3.项目版本混乱4.很难进行协同开发2.Git概念Git是一个分布式的版本控制及****协同开发工具3.版本控制工具的分类3.1.集中式的版本控制工具 cvs svn3.2.分布式的版本控制 Git4.下载,安装4.1.下载官网下载地址:https://git-scm.com/downloads在Windows上使用Git,可以从Git官网直接下载安装程序,然后按默认选项安装即可。4.2

2021-09-30 16:41:03 2516

原创 CentOS7常用命令

Linux常见配置防火墙配置1、查看服务状态[root@CentOS ~]# systemctl status firewalld● firewalld.service - firewalld - dynamic firewall daemon Loaded: loaded (/usr/lib/systemd/system/firewalld.service; disabled; vendor preset: enabled) Active: active (running) sinc

2021-09-30 15:23:36 354

原创 ClickHouse编程指南

概述ClickHouse 是一个快速的的开源的OLAP大数据管理系统,该系统面向列存储,并且允许使用SQL实现实时查询生成分析报表。ClickHouse会充分利用所有可用的硬件,以尽可能快地处理每个查询。单个查询的峰值处理性能超过每秒2 TB(解压缩后,仅使用的列)。在分布式设置中,运行状况良好的副本之间的读取会自动保持平衡,以避免增加延迟。ClickHouse DBMS可以配置为位于独立节点上的纯分布式系统,而没有任何单点故障。它还包括许多企业级安全功能和针对人为错误的故障安全机制。ClickHo

2021-09-30 14:59:01 191

原创 Docker快速入门

Docker引言Docker的思想来自于集装箱,集装箱解决了什么问题?在一艘大船上,可以把货物规整的摆放起来。并且各种各样的货物被集装箱标准化了,集装箱和集装箱之间不会互相影响。那么我就不需要专门运送水果的船和专门运送化学品的船了。只要这些货物在集装箱里封装的好好的,那我就可以用一艘大船把他们都运走。docker就是类似的理念。现在都流行云计算了,云计算就好比大货轮。docker就是集装箱。1.不同的应用程序可能会有不同的应用环境,比如.net开发的网站和php开发的网站依赖的软件就不一样,如果把他

2021-09-30 14:41:52 472

原创 HashMap性能提升

Java 8 中 HashMap 的性能提升​ HashMap是一个高效通用的数据结构,它在每一个Java程序中都随处可见。先来介绍些基础知识,大家应该都知道,HashMap使用key的hashCode()和equals()方法来将值划分到不同的桶里。桶的数量通常要比map中的记录的数量要稍大,这样 每个桶包括的值会比较少(最好是一个)。当通过key进行查找时,我们可以在常数时间内迅速定位到某个桶(使用hashCode()对桶的数量进行取模)以及要找的对象。这些东西你应该都已经知道了。你可能还知道哈希碰

2021-09-10 17:19:27 450 3

原创 Redis快速入门

Redis1. NoSQL的引言NoSQL(Not Only SQL ),意即不仅仅是SQL, 泛指非关系型的数据库。Nosql这个技术门类,早期就有人提出,发展至2009年趋势越发高涨。2. 为什么是NoSQL随着互联网网站的兴起,传统的关系数据库在应付动态网站,特别是超大规模和高并发的纯动态网站已经显得力不从心,暴露了很多难以克服的问题。如商城网站中对商品数据频繁查询、对热搜商品的排行统计、订单超时问题、以及微信朋友圈(音频,视频)存储等相关使用传统的关系型数据库实现就显得非常复杂,虽然能实现

2021-08-21 23:39:03 142

原创 解决HBase一个cell存储超10M的异常

解决Hbase KeyValue size too large或 Cell with size 25000046 exceeds limit of 10485760 bytes at的异常。​HBase默认一个cell(单元格)只能存10M,有一些需求一个cell存大于10M的数据,比如将BitSet、BitMap对象存在HBase上。BitSet或BitMap存一亿个整数只需要11.9M,如存Integer需要381M,总之就是能节省很多空间。下一篇文章会讲BitSet、BitMap的算法这里就不多

2021-07-15 23:14:51 4918 4

原创 Bitmap、BitSet、RoaringBitmap持久化存储

Bitmap、BitSet持久化存储​ 关于Bitmap的算法我在这里就不写了,这里主要提供一个持久化存储的思想。BitSet实现了Bitmap,BitSet还有很多方法可以查阅API。 // 创建BitSet对象 BitSet bitSet = new BitSet(10000000); // 将BitSet对象转换为long或byte类型的数组 //就可以将数组存储在HBase、MongoDB等数据库, long[] longs = bitSet.toLongAr

2021-06-26 12:36:07 2300

原创 flink实时计算热门商品

注意:以下文章转自:伍 翀(WuChong),小编纯属收藏好文章不做任何商业用途,如有侵权请私信小编删除!!!原文链接:http://wuchong.me/blog/2018/11/07/use-flink-calculate-hot-items/​ 在上一篇入门教程中,我们已经能够快速构建一个基础的 Flink 程序了。本文会一步步地带领你实现一个更复杂的 Flink 应用程序:实时热门商品。在开始本文前我们建议你先实践一遍上篇文章,因为本文会沿用上文的my-flink-project项目框架。通

2021-03-14 20:43:09 243

原创 TCP协议,不一样的视觉体验

注意:以下文章转自微信公众号:码哥字节,小编纯属收藏好文章不做任何商业用途,如有侵权请私信小编删除!!!原文链接:https://mp.weixin.qq.com/s/muRxpfE5KGZPlGo0PelPfgTCP​ 你是一台电脑,你的名字叫 A​ 只要你知道另一位伙伴 B 的 IP 地址,且你们之间的网络是通的,无论多远,你都可以将一个数据包发送给你的伙伴 B​ ​ 这就是物理层、数据链路层、网络层这三层所做的事情。站在第四层的你,就可以不要脸地利用下

2021-03-14 11:40:21 236 2

原创 idea远程调试tomcat

idea tomcat 远程调试2020-07-16阅读 1120编辑 tomcat/bin/catalina.sh把 localhost 改 0.0.0.0,否则 tomcat远程调试只能本机访问if [ "$1" = "jpda" ] ; then if [ -z "$JPDA_TRANSPORT" ]; then JPDA_TRANSPORT="dt_socket" fi if [ -z "$JPDA_ADDRESS" ]; then JPDA_ADDRESS="l

2021-02-14 12:59:14 1349

原创 spqrk 读取parquet文件按月、按季、按年统计

按月、按季、按年读取parquet文件案列// 启动spark yarnspark_yarn目录:./bin/spark-shell --master yarn --deploy-mode client --executor-cores 4 --num-executors 3// 设置基础目录:parquet文件时按日期分片存储scala> val basePath = "hdfs://192.168.88.1:8020/data/userzyk.parquet/"// 读取一个不同

2021-01-29 18:55:02 515

原创 MongoDB Shell 指南

介绍MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引.安装①安装MongoDB服务

2021-01-02 18:45:58 311

原创 dubbo快速入门

P1.dubbo的引言dubbo= RPC + 服务治理+ 资源调度RPC(Remote Procedure Call)远程过程调用,简单的理解是一个节点请求另一个节点提供的服务SOA(Service Oriented Architecture)“面向服务的架构”:他是一种设计方法,其中包含多个服务, 服务之间通过相互依赖最终提供一系列的功能。一个服务 通常以独立的形式存在与操作系统进程中。各个服务之间 通过网络调用。微服务架构:其实和 SOA 架构类似,微服务是在 SOA 上做的

2021-01-02 18:43:39 159

原创 Flink Datastream实时计算

概述Flink是构建在数据流之上的有状态计算的流计算框架,通常被人们理解为是第三代大数据分析方案。第一代 - Hadoop的MapReduce计算(静态)、Storm流计算(2014.9) ;两套独立计算引擎,使用难度大第二代 - Spark RDD 静态批处理(2014.2)、DStream|Structured Streaming 流计算;统一计算引擎,难度系数小第三代 - Flink DataStream(2014 .12) 流计算框架、Flink Dataset 批处理;统一计算

2020-12-07 17:17:01 891

原创 SpringBootMyBatis自定义Redis二级缓存

SpringBootMyBatis自定义Redis二级缓存pom.xml导入依赖 <!--SpringWeb Test--> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> &lt

2020-11-27 18:28:17 265 4

原创 Spark Stanalone集群构建 HA

Standalone集群构建基础环境准备物理资源:CentOSA/B/C-6.10 64bit 内存2GB主机名IPCentOSA192.168.221.136CentOSB192.168.221.137CentOSC192.168.221.138节点与主机映射关系主机节点服务CentOSANameNode、ZKFC、Zookeeper、journalnode、DataNode、master、worker、brokerCe

2020-11-27 17:05:54 143 1

原创 Spark结构化流

概述Structured Stream是基于Spark SQL引擎构建的可伸缩且容错的流处理引擎。使得用户可以像使用Spark SQL操作静态批处理计算一样使用Structured Stream的SQL操作流计算。当流数据继续到达时,Spark SQL引擎将负责递增地,连续地运行它并更新最终结果。使用 Dataset/DataFrame API 实现对实时数据的聚合、event-time 窗口计算以及流到批处理的join操作。最后,系统通过检查点和预写日志来确保端到端(end to end)的一次容错保证

2020-11-27 16:50:39 991

原创 Spark SQL BI分析

Spark SQL 编程指南Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地 信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如Dataset API和SQL等,这两种API可以混合使用。Spark SQL的一个用途是执行SQL查询。 Spark SQL还可用于从现有Hive安装中读取数据。从其他编程语言中运行SQL时,结

2020-11-27 16:46:00 969

原创 Phoenix代码集成、Phoenix集成MapReduce和GUI使用

Phoenix集成Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。下载apache-phoenix-4.10.0-HBase-1.2-bin.tar.gz,注意下载的Phoenix版本必须和hbase目标版本保持一致。

2020-11-26 20:00:42 554

原创 mysql主从复制(读写分离)CentOS7

一、 Mysql主从复制​ 搭建mysql主从复制,需要两台到多台机器之间相互通信1、测试两台机器要相互联通直接给密码和指定端口登录,注意:端口的-P为大写的Pmysql -u root -proot -h 192.168.87.150 -P 3306或mysql -u root -p -h 192.168.87.150150连接151151连接1502、 数据库主从搭建Master配置①修改/etc/my.cnf[mysqld] [mysqld]datadir=/var

2020-11-10 21:27:18 225 2

原创 CentOS7安装mysql,yum安装

一、安装mysqlcentos操作系统独有的yum 安装,可以在有外网的情况下,直接使用命令安装,并自动安装依赖第一步:安装从网上下载文件的wget命令[root@master ~]# yum -y install wget第二步:下载mysql的repo源[root@master ~]# wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm 第三步:安装mysql-community-release-el7-

2020-11-10 21:23:28 164

原创 SpringCloud Alibaba Nacos&sentinel使用

Spring Cloud Alibaba 微服工具集版本: 2.2.11.简介Spring Cloud Alibaba provides a one-stop solution for distributed application development. It contains all the components required to develop distributed applications, making it easy for you to develop your applica

2020-11-07 18:28:32 1404

四大运营商手机归属地数据

四大运营商手机归属地数据(471452条): 移动:134、135、136、137、138、139、147、148、150、151、152、157、158、159、165、172、178、182、183、184、187、188、195、197、198 联通:130、131、132、145、146、155、156、166、167、170、171、175、176、185、186、196 电信:133、141、149、153、162、173、174、177、180、181、189、190、191、193、199 广电:192 2023年5月整理,文件后缀:csv,可直接导入hive和mysql等数据库

2023-05-22

新年倒计时代码html

html

2021-12-28

azkaban精简安装包.tar

Centos azkanban精简安装包,解压即可用:azkaban-solo-server、azkaban-exec-server、azkaban-web-server

2020-12-10

azkaban编译版.tar.gz

Azkaban是由Linkedin公司推出的一个批量工作流任务调度器。下载解压即可使用,版本:3.91.0,这是整个编译文件,如需下载精简版请到作者博客查找

2020-12-09

2020年最新Java面试题.pdf

2020年最新Java面试题:1.JAVA基础 2.JVM 知识 3.开源框架知识 4.多线程 5.数据库知识

2020-11-22

spark-hive-thriftserver_2.11-2.4.5.jar

spark和hive结合依赖,如何使用请看我博客https://blog.csdn.net/z1987865446/article/details/109372818

2020-11-21

spark-hive_2.11-2.4.5.jar

spark和hive结合依赖,如何使用请看我博客https://blog.csdn.net/z1987865446/article/details/109372818

2020-11-21

hive-hbase-handler-1.2.2.jar

hive和hbase整合的时候,如果出现不兼容的情况需要手动编译:hive-hbase-hander-1.2.2.jar把这个jar替换掉hive/lib里的那个jar包

2020-11-20

apache-hive-1.2.2-bin_编译版本.tar.gz

CentOS系统已经编译好的hive数据仓库,安装使用详细步骤请参考博客:https://blog.csdn.net/z1987865446/article/details/109136651

2020-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除