大数据
文章平均质量分 93
中国好胖子、
学不死就往死里学,比你优秀的人比你还努力,你还拿什么和别人拼
展开
-
M3DB安装指南以及一些问题
1、M3DB介绍Uber 之前开源了已在内部使用多年的指标平台 —— M3 ,这是一个基于分布式时序数据库 M3DB 构建的度量平台,可每秒聚合 5 亿个指标,并且以每秒 2000 万笔的速度持续存储这些结果。Uber 表示,为促进在全球的运营发展,他们需要能够在任何特定时间快速存储和访问后端系统上的数十亿个指标。一直到 2014 年底,Uber 的所有服务、基础设施和服务器都是将指标发送到基于 Graphite 的系统中,该系统将这些资料以 Whisper 档案格式储存到分片 Carbon 丛集。此原创 2021-04-30 14:09:01 · 2338 阅读 · 4 评论 -
M3DB原理概述
M3DBUber 近日开源了已在内部使用多年的指标平台 —— M3 ,这是一个基于分布式时序数据库 M3DB 构建的度量平台,可每秒聚合 5 亿个指标,并且以每秒 2000 万笔的速度持续存储这些结果。Uber 表示,为促进在全球的运营发展,他们需要能够在任何特定时间快速存储和访问后端系统上的数十亿个指标。一直到 2014 年底,Uber 的所有服务、基础设施和服务器都是将指标发送到基于 Graphite 的系统中,该系统将这些资料以 Whisper 档案格式储存到分片 Carbon 丛集。此外,还将原创 2021-04-23 16:19:14 · 3440 阅读 · 0 评论 -
TDengine概述以及架构模型
TDengineTDengine是一个高效的存储、查询、分析时序大数据的平台,专为物联网、车联网、工业互联网、运维监测等优化而设计。您可以像使用关系型数据库MySQL一样来使用它。TDengine介绍TDengine是涛思数据面对高速增长的物联网大数据市场和技术挑战推出的创新性的大数据处理产品,它不依赖任何第三方软件,也不是优化或包装了一个开源的数据库或流式计算产品,而是在吸取众多传统关系型数据库、NoSQL数据库、流式计算引擎、消息队列等软件的优点之后自主开发的产品,在时序空间大数据处理上,原创 2021-03-30 19:55:55 · 5502 阅读 · 2 评论 -
一款普适的实时数仓应该如何设计?
一、实时数仓的架构背景首先我们来聊一聊实时数仓是怎么诞生的,在离线数仓的时候数据是T+1的也就是隔一天才能看到昨天的数据,这种形式持续了很久的时间,但是有些场景真的只有实时的数据才有用武之地。例如推荐、风控、考核等。那么这个时候实时指标也就应运而生,在最开始的时候,采用flink\spark streaming来进行数据的指标统计。在这个时候,数据存在哪里又是一个问题。例如大屏计算结果可能存储在redis中,可以参考如下图所示的,实时大屏架构图。那么这个时候问题来了,你有多少指标?业务的需求是 无穷无原创 2020-12-15 23:07:47 · 564 阅读 · 6 评论 -
FLink整合Nacos进行动态配置更新
Sourcepublic class FlinkNacosSource extends RichSourceFunction<String> { private Properties properties; private ConfigService configService; private String config; private String dataId; private String group; private String原创 2020-06-18 02:11:49 · 641 阅读 · 0 评论 -
Centos7.8虚拟机安装以及克隆后修改静态ip
虚拟机下载和安装下载VMware百度云下载地址:https://pan.baidu.com/s/13Yl_Qexu4hxY40mT6EShfw提取码:re6b安装(确保电脑开启虚拟化)许可证:VG5HH-D6E04-0889Y-QXZET-QGUC8虚拟机安装前往自己最大的硬盘上建立一个文件夹Machines将我们的Linux镜像放入其中配置VMware和windows配置windos的hosts192.168.1.101 cdh01原创 2020-05-30 14:39:56 · 995 阅读 · 0 评论 -
clickhouse报错-joined_subquery_requires_alias
clickhouse报错原始报错已经找不到了,但是错误中有这个指示set joined_subquery_requires_alias=0,但是我在19的版本上运行sql 没有问题,但是在20.3运行就有错误,我感觉应该是版本问题,于是就去找clickhouse的更新日志然后找到了这个问题,这个问题意思是什么呢,就是join子查询后面必须要跟别名,这样可能会更规范,但是在我们有时候根本不写表...原创 2020-04-26 17:34:39 · 2155 阅读 · 0 评论 -
Clickhouse性能(三)
性能根据 Yandex 公司的内部测试结果,对于可供测试的同类系统中的可比操作场景,ClickHouse 显示了最佳性能(长查询的吞吐量最高,短查询的延迟最低)。 您可以在单独的页面上查看测试结果。许多独立的基准也证实了这一点。 使用互联网搜索并不难找到它们,或者你可以看到我们收集的相关链接。单个大型查询的吞吐量吞吐量可以用行/秒或兆字节/秒来衡量。如果数据放在内存中,则在现代硬件上以大约...原创 2020-03-05 09:51:45 · 1113 阅读 · 0 评论 -
Clickhouse的特色(二)
真正的面向列的数据库管理系统在一个真正的列式数据库数据库中,没有额外的数据与值一起存储。 其中,这意味着必须支持常量长度值,以避免将它们的长度“数字”存储在值旁边。 例如,10亿个 uint8类型的值实际上应该消耗大约1gb 的未压缩空间,否则将严重影响 CPU 的使用。 即使在未压缩的情况下,紧凑地存储数据(没有任何“垃圾”)也非常重要,因为解压缩的速度(CPU 使用率)主要取决于未压缩数据的...原创 2020-02-24 16:18:39 · 193 阅读 · 0 评论 -
Clickhouse概览(一)
什么是clickhouseClickHouse是一个面向列的数据库管理系统(DBMS),用于联机分析处理查询(OLAP)在“普通”面向行的数据库管理系统中,数据按以下顺序存储:换句话说,与一行相关的所有值在物理上紧挨着存储。面向行的 DBMS 的例子有 MySQL、 Postgres 和 MS SQL Server。在列式数据库中,数据是这样存储的:这些示例仅显示数据的排列顺序。来...原创 2020-02-24 16:05:03 · 360 阅读 · 0 评论 -
Flink实时当日净销售额、毛利额、消费会员数
1. 需求我们想统计:1.当日净销售额2.当日毛利额3.当日消费会员数(去重)4.后期map操作关联redis 进行拉宽,例如毛利率,前台毛利率,同比,环比等2. 逻辑当我拿到需求的时候,这个是需要keyby 和 state的,当初想的是采用redis存储当日用户,后来感觉不好,flink内部自带的就有mapstate,故采用mapstate,来进行存储。窗口大小,我们设定为ev...原创 2019-12-31 18:09:13 · 2126 阅读 · 3 评论 -
Druid单节点安装
1、前往druid官网下载druid二进制压缩包2、将压缩包上传到linux服务器上的制定位置[root@hadoop109 data]# cd /opt/data/[root@hadoop109 data]# rz -be等待上传完成…3、将压缩包解压并改名(因为名字太长了,不好操作)[root@hadoop109 data]# mkdir -p /opt/apps[root@ha...原创 2019-12-27 16:20:29 · 355 阅读 · 1 评论 -
Spark基于FP算法计算品牌关联度
/** * Copyright (c) 2019 bigdata ALL Rights Reserved * * Project: bi-bigdata-spark-ml * Package: com.bi.bigdata.ml.app * Version: 1.0 * Created by HeartisTiger on 16:03 */object BrandCo...原创 2019-12-27 16:10:30 · 254 阅读 · 4 评论 -
Redis单机6节点集群模式安装
一、Redis单节点安装1.1 下载rediswget http://download.redis.io/releases/redis-4.0.2.tar.gz1.2 安装gccyum install gcc-c++1.3 解压redistar -zxvf redis-4.0.2.tar.gz1.4 编译cd redis-4.0.2make make instal...原创 2019-12-20 17:41:41 · 162 阅读 · 0 评论 -
Hive下什么是数据倾斜问题?
Hive下的数据倾斜的场景在我们的学习,还是生活中,经常会出现数据倾斜的问题,那么什么是数据倾斜问题呢,让我们来复现一下我们的要求。首先,我写了两个表,其中user表5000万数据量,观影表2亿条数据,现如今需要的是,各个年龄段的观影数量排名。环境:hadoop 2.7hive 1.2.1centos 6.8 虚拟机 1核 8G来吧让我们愉快的去创造数据把import java...原创 2019-09-08 23:50:28 · 468 阅读 · 0 评论 -
Spark机器学习库-矩阵or向量的布尔函数
package com.sparktest.demoimport breeze.linalg.{DenseVector, all, any}/** * Created by HeartisTiger on 2019/7/8 */object Demo06 { def main(args: Array[String]): Unit = { val v1 = Dens...原创 2019-07-08 23:29:37 · 193 阅读 · 0 评论 -
Hadoop-MapReduce
自定义bean对象实现序列化接口(Writable)在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象,那么该对象就需要实现序列化接口。具体实现bean对象序列化步骤如下7步。(1)必须实现Writable接口(2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造public FlowBean() { super();}(...原创 2020-09-02 11:26:47 · 1571 阅读 · 0 评论 -
Spark机器学习库-矩阵or向量的获取
1、数据准备 val vector = DenseVector(1,2,4,4,5,6) val matrix = new DenseMatrix[Int](2,3,Array(1,2,3,4,5,6))2、获取指定位置的元素//访问指定位置的元素 println(vector.valueAt(0)) println(matrix(0,0))3、获取矩阵或...原创 2019-07-07 23:31:25 · 261 阅读 · 0 评论 -
Spark机器学习库-矩阵or向量的操作
0、数据准备var m1 = new DenseMatrix[Int](3,3,Array(1,2,3,4,5,6,7,8,9))var m2 = new DenseMatrix[Int](3,3,Array(11,22,33,44,55,66,77,88,99))1 4 72 5 83 6 911 44 7722 55 8833 66 991、调整...原创 2019-07-07 23:52:30 · 165 阅读 · 0 评论 -
Spark机器学习库-矩阵or向量的数值计算
package com.sparktest.demoimport breeze.linalg.{DenseVector, argmax, max}/** * Created by HeartisTiger on 2019/7/8 */object Demo04 { def main(args: Array[String]){ val v1 = DenseVector...原创 2019-07-08 23:14:21 · 346 阅读 · 0 评论 -
Spark机器学习库-矩阵or向量的求和函数
package com.sparktest.demoimport breeze.linalg.{Axis, DenseMatrix, DenseVector, accumulate, sum, trace}/** * Created by HeartisTiger on 2019/7/8 */object Demo05 { def main(args: Array[Stri...原创 2019-07-08 23:22:00 · 733 阅读 · 0 评论