- 博客(56)
- 资源 (8)
- 收藏
- 关注
原创 数据湖iceberg和spark集成
为了解决数据存储和计算引擎之间的适配的问题,Netflix开发了Iceberg,2018年11月16日进入Apache孵化器,2020 年5月19成为Apache的顶级项目。Iceberg是一个面向海量数据分析场景的开放表格式(Table Format)可以理解为元数据以及数据文件的一种组织方式,处于计算框架(Flink,Spark…)之下,数据文件之上。
2024-06-25 15:52:41 1016
原创 大数据分析仓库Kylin
Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop/Spark 之上的 SQL 查询接口及多维分析能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的 Hive 表。
2023-11-21 16:32:10 232
原创 MacOS在终端中使用sshpass命令登录服务器
解决MacOS在终端中登录堡垒密码交互输入的麻烦。目前堡垒机不支持密钥,使用sshpass命令可以较便捷地连接服务器。
2023-07-05 14:58:05 1406 1
原创 弃用本地分支所有代码,获取远程分支最新代码
git弃用本地已commit的代码,比如操作失误master分支pull了远程的dev分支;此时想恢复到远程的master分支,当前分支所有修改过的代码将全部丢失。请确保在执行这些操作之前,你已经备份了重要的代码,以防万一。
2023-06-06 18:19:51 758
原创 手机号归属地和运营商数据(471452条)
中国手机号前七位可以确定手机号归属地;手机后缀为csv,可导入hive、mysql等数据库。整理的数据有471452条,涵盖95%的归属地数据。
2023-05-19 17:57:08 2039
原创 Hadoop或hive用户名和本地主机用户名不一样,不能读写
解决Hadoop集群用户名和程序运行主机用户名不一样不能读写,配置了HADOOP_USER_NAME不生效的问题。
2022-11-17 12:09:27 3481
原创 HBase集群修复工具HBCK2
HBCK2目前是一个简单的工具,一次只做一件事。在hbase-2.x中,Master是所有状态的最终决定者,所以大多数HBCK2命令原则是要求Master实现对hbase进行修复。这意味着在你运行HBCK2命令之前,Master必须已经启动。HBCK2的实现方法是利用Master的HbckService服务,该服务发布了一些方法供HBCK2工具使用。因此,HBCK2依赖Master的HbckService服务,HBCK2做的第一件事是探查集群以确保服务是可用的。...
2022-07-18 11:50:19 2494
原创 HBase&Spark集成 -- DataFrame
HBase&Spark集成 – DataFrame Apache HBase 是一个成熟的 NoSQL 存储系统,已在大规模生产部署中得到证明。尽管 HBase 是一个键值存储,但对于像 SQL 一样更轻松地访问数据的需求很高。Apache Spark SQL 提供了基本过滤和插入数据的强大支持。hbase-connectors子项目提供了HBase 与SparkSQL 的集成。 hbase -spark 集成 利用 Spark-1.2.0 版本中引入的DataSource API。HB
2022-04-24 09:32:08 4036
原创 Spark分布式弹性数据集RDD、DataFrame和DataSet
Spark分布式弹性数据集RDD、DataFrame和DataSet首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。DataSet会逐步取代RDD和DataFrame成为唯一的API接口。RDDRDD是一个懒执行的不可变的可以支持Lambda表达式的并行数据集合。RDD的最大好处就是简
2022-01-27 18:00:25 911
原创 Mac电源适配器充不上电解决方案
Mac电源充电问题1、将电源适配器连接到电源和MAC。2、在内建键盘上,同时按下左侧Shift+Control+Option键和电源按钮3、同时松开所有键和电源按钮4、打开电脑问题就解决了就这样解决了
2022-01-25 09:29:42 3728
原创 org.roaringbitmap.InvalidRoaringFormat: I failed to find one of the right cookies.
org.roaringbitmap.InvalidRoaringFormat: I failed to find one of the right cookies.这个错误的解决方案如下: RoaringBitmap rbm = new RoaringBitmap(); // 序列化为byte数组,就可以保存到数据库了 byte[] array = new byte[rbm.serializedSizeInBytes()]; rbm.serialize(ByteBuffer.wrap(array)
2021-12-21 16:12:00 1258
原创 Linux快速入门
Linux1.Linux的引言Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和Unix的多用户、多任务、支持多线程和多CPU的操作系统。伴随着互联网的发展,Linux得到了来自全世界软件爱好者、组织、公司的支持。它除了在服务器操作系统方面保持着强劲的发展势头以外,在个人电脑、嵌入式系统上都有着长足的进步。目前Linux存在着许多不同的Linux发行版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、台式计算机。2.L
2021-09-30 17:53:15 377 1
原创 git快速入门
Git笔记1.Git解决现有项目中的哪些问题1.安全性太低2.项目无端报错3.项目版本混乱4.很难进行协同开发2.Git概念Git是一个分布式的版本控制及****协同开发工具3.版本控制工具的分类3.1.集中式的版本控制工具 cvs svn3.2.分布式的版本控制 Git4.下载,安装4.1.下载官网下载地址:https://git-scm.com/downloads在Windows上使用Git,可以从Git官网直接下载安装程序,然后按默认选项安装即可。4.2
2021-09-30 16:41:03 2516
原创 CentOS7常用命令
Linux常见配置防火墙配置1、查看服务状态[root@CentOS ~]# systemctl status firewalld● firewalld.service - firewalld - dynamic firewall daemon Loaded: loaded (/usr/lib/systemd/system/firewalld.service; disabled; vendor preset: enabled) Active: active (running) sinc
2021-09-30 15:23:36 354
原创 ClickHouse编程指南
概述ClickHouse 是一个快速的的开源的OLAP大数据管理系统,该系统面向列存储,并且允许使用SQL实现实时查询生成分析报表。ClickHouse会充分利用所有可用的硬件,以尽可能快地处理每个查询。单个查询的峰值处理性能超过每秒2 TB(解压缩后,仅使用的列)。在分布式设置中,运行状况良好的副本之间的读取会自动保持平衡,以避免增加延迟。ClickHouse DBMS可以配置为位于独立节点上的纯分布式系统,而没有任何单点故障。它还包括许多企业级安全功能和针对人为错误的故障安全机制。ClickHo
2021-09-30 14:59:01 191
原创 Docker快速入门
Docker引言Docker的思想来自于集装箱,集装箱解决了什么问题?在一艘大船上,可以把货物规整的摆放起来。并且各种各样的货物被集装箱标准化了,集装箱和集装箱之间不会互相影响。那么我就不需要专门运送水果的船和专门运送化学品的船了。只要这些货物在集装箱里封装的好好的,那我就可以用一艘大船把他们都运走。docker就是类似的理念。现在都流行云计算了,云计算就好比大货轮。docker就是集装箱。1.不同的应用程序可能会有不同的应用环境,比如.net开发的网站和php开发的网站依赖的软件就不一样,如果把他
2021-09-30 14:41:52 472
原创 HashMap性能提升
Java 8 中 HashMap 的性能提升 HashMap是一个高效通用的数据结构,它在每一个Java程序中都随处可见。先来介绍些基础知识,大家应该都知道,HashMap使用key的hashCode()和equals()方法来将值划分到不同的桶里。桶的数量通常要比map中的记录的数量要稍大,这样 每个桶包括的值会比较少(最好是一个)。当通过key进行查找时,我们可以在常数时间内迅速定位到某个桶(使用hashCode()对桶的数量进行取模)以及要找的对象。这些东西你应该都已经知道了。你可能还知道哈希碰
2021-09-10 17:19:27 450 3
原创 Redis快速入门
Redis1. NoSQL的引言NoSQL(Not Only SQL ),意即不仅仅是SQL, 泛指非关系型的数据库。Nosql这个技术门类,早期就有人提出,发展至2009年趋势越发高涨。2. 为什么是NoSQL随着互联网网站的兴起,传统的关系数据库在应付动态网站,特别是超大规模和高并发的纯动态网站已经显得力不从心,暴露了很多难以克服的问题。如商城网站中对商品数据频繁查询、对热搜商品的排行统计、订单超时问题、以及微信朋友圈(音频,视频)存储等相关使用传统的关系型数据库实现就显得非常复杂,虽然能实现
2021-08-21 23:39:03 142
原创 解决HBase一个cell存储超10M的异常
解决Hbase KeyValue size too large或 Cell with size 25000046 exceeds limit of 10485760 bytes at的异常。HBase默认一个cell(单元格)只能存10M,有一些需求一个cell存大于10M的数据,比如将BitSet、BitMap对象存在HBase上。BitSet或BitMap存一亿个整数只需要11.9M,如存Integer需要381M,总之就是能节省很多空间。下一篇文章会讲BitSet、BitMap的算法这里就不多
2021-07-15 23:14:51 4918 4
原创 Bitmap、BitSet、RoaringBitmap持久化存储
Bitmap、BitSet持久化存储 关于Bitmap的算法我在这里就不写了,这里主要提供一个持久化存储的思想。BitSet实现了Bitmap,BitSet还有很多方法可以查阅API。 // 创建BitSet对象 BitSet bitSet = new BitSet(10000000); // 将BitSet对象转换为long或byte类型的数组 //就可以将数组存储在HBase、MongoDB等数据库, long[] longs = bitSet.toLongAr
2021-06-26 12:36:07 2300
原创 flink实时计算热门商品
注意:以下文章转自:伍 翀(WuChong),小编纯属收藏好文章不做任何商业用途,如有侵权请私信小编删除!!!原文链接:http://wuchong.me/blog/2018/11/07/use-flink-calculate-hot-items/ 在上一篇入门教程中,我们已经能够快速构建一个基础的 Flink 程序了。本文会一步步地带领你实现一个更复杂的 Flink 应用程序:实时热门商品。在开始本文前我们建议你先实践一遍上篇文章,因为本文会沿用上文的my-flink-project项目框架。通
2021-03-14 20:43:09 243
原创 TCP协议,不一样的视觉体验
注意:以下文章转自微信公众号:码哥字节,小编纯属收藏好文章不做任何商业用途,如有侵权请私信小编删除!!!原文链接:https://mp.weixin.qq.com/s/muRxpfE5KGZPlGo0PelPfgTCP 你是一台电脑,你的名字叫 A 只要你知道另一位伙伴 B 的 IP 地址,且你们之间的网络是通的,无论多远,你都可以将一个数据包发送给你的伙伴 B 这就是物理层、数据链路层、网络层这三层所做的事情。站在第四层的你,就可以不要脸地利用下
2021-03-14 11:40:21 236 2
原创 idea远程调试tomcat
idea tomcat 远程调试2020-07-16阅读 1120编辑 tomcat/bin/catalina.sh把 localhost 改 0.0.0.0,否则 tomcat远程调试只能本机访问if [ "$1" = "jpda" ] ; then if [ -z "$JPDA_TRANSPORT" ]; then JPDA_TRANSPORT="dt_socket" fi if [ -z "$JPDA_ADDRESS" ]; then JPDA_ADDRESS="l
2021-02-14 12:59:14 1349
原创 spqrk 读取parquet文件按月、按季、按年统计
按月、按季、按年读取parquet文件案列// 启动spark yarnspark_yarn目录:./bin/spark-shell --master yarn --deploy-mode client --executor-cores 4 --num-executors 3// 设置基础目录:parquet文件时按日期分片存储scala> val basePath = "hdfs://192.168.88.1:8020/data/userzyk.parquet/"// 读取一个不同
2021-01-29 18:55:02 515
原创 MongoDB Shell 指南
介绍MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引.安装①安装MongoDB服务
2021-01-02 18:45:58 311
原创 dubbo快速入门
P1.dubbo的引言dubbo= RPC + 服务治理+ 资源调度RPC(Remote Procedure Call)远程过程调用,简单的理解是一个节点请求另一个节点提供的服务SOA(Service Oriented Architecture)“面向服务的架构”:他是一种设计方法,其中包含多个服务, 服务之间通过相互依赖最终提供一系列的功能。一个服务 通常以独立的形式存在与操作系统进程中。各个服务之间 通过网络调用。微服务架构:其实和 SOA 架构类似,微服务是在 SOA 上做的
2021-01-02 18:43:39 159
原创 Flink Datastream实时计算
概述Flink是构建在数据流之上的有状态计算的流计算框架,通常被人们理解为是第三代大数据分析方案。第一代 - Hadoop的MapReduce计算(静态)、Storm流计算(2014.9) ;两套独立计算引擎,使用难度大第二代 - Spark RDD 静态批处理(2014.2)、DStream|Structured Streaming 流计算;统一计算引擎,难度系数小第三代 - Flink DataStream(2014 .12) 流计算框架、Flink Dataset 批处理;统一计算
2020-12-07 17:17:01 891
原创 SpringBootMyBatis自定义Redis二级缓存
SpringBootMyBatis自定义Redis二级缓存pom.xml导入依赖 <!--SpringWeb Test--> <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web</artifactId> <
2020-11-27 18:28:17 265 4
原创 Spark Stanalone集群构建 HA
Standalone集群构建基础环境准备物理资源:CentOSA/B/C-6.10 64bit 内存2GB主机名IPCentOSA192.168.221.136CentOSB192.168.221.137CentOSC192.168.221.138节点与主机映射关系主机节点服务CentOSANameNode、ZKFC、Zookeeper、journalnode、DataNode、master、worker、brokerCe
2020-11-27 17:05:54 143 1
原创 Spark结构化流
概述Structured Stream是基于Spark SQL引擎构建的可伸缩且容错的流处理引擎。使得用户可以像使用Spark SQL操作静态批处理计算一样使用Structured Stream的SQL操作流计算。当流数据继续到达时,Spark SQL引擎将负责递增地,连续地运行它并更新最终结果。使用 Dataset/DataFrame API 实现对实时数据的聚合、event-time 窗口计算以及流到批处理的join操作。最后,系统通过检查点和预写日志来确保端到端(end to end)的一次容错保证
2020-11-27 16:50:39 991
原创 Spark SQL BI分析
Spark SQL 编程指南Spark SQL是用于结构化数据处理的一个模块。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多地 信息,例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和Spark SQL进行交互,例如Dataset API和SQL等,这两种API可以混合使用。Spark SQL的一个用途是执行SQL查询。 Spark SQL还可用于从现有Hive安装中读取数据。从其他编程语言中运行SQL时,结
2020-11-27 16:46:00 969
原创 Phoenix代码集成、Phoenix集成MapReduce和GUI使用
Phoenix集成Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。下载apache-phoenix-4.10.0-HBase-1.2-bin.tar.gz,注意下载的Phoenix版本必须和hbase目标版本保持一致。
2020-11-26 20:00:42 554
原创 mysql主从复制(读写分离)CentOS7
一、 Mysql主从复制 搭建mysql主从复制,需要两台到多台机器之间相互通信1、测试两台机器要相互联通直接给密码和指定端口登录,注意:端口的-P为大写的Pmysql -u root -proot -h 192.168.87.150 -P 3306或mysql -u root -p -h 192.168.87.150150连接151151连接1502、 数据库主从搭建Master配置①修改/etc/my.cnf[mysqld] [mysqld]datadir=/var
2020-11-10 21:27:18 225 2
原创 CentOS7安装mysql,yum安装
一、安装mysqlcentos操作系统独有的yum 安装,可以在有外网的情况下,直接使用命令安装,并自动安装依赖第一步:安装从网上下载文件的wget命令[root@master ~]# yum -y install wget第二步:下载mysql的repo源[root@master ~]# wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm 第三步:安装mysql-community-release-el7-
2020-11-10 21:23:28 164
原创 SpringCloud Alibaba Nacos&sentinel使用
Spring Cloud Alibaba 微服工具集版本: 2.2.11.简介Spring Cloud Alibaba provides a one-stop solution for distributed application development. It contains all the components required to develop distributed applications, making it easy for you to develop your applica
2020-11-07 18:28:32 1404
四大运营商手机归属地数据
2023-05-22
azkaban精简安装包.tar
2020-12-10
azkaban编译版.tar.gz
2020-12-09
spark-hive-thriftserver_2.11-2.4.5.jar
2020-11-21
spark-hive_2.11-2.4.5.jar
2020-11-21
hive-hbase-handler-1.2.2.jar
2020-11-20
apache-hive-1.2.2-bin_编译版本.tar.gz
2020-11-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人