自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 离线数仓总结

离线数仓总结一、1、背景介绍(某APP上线后,由于业务模式新颖,市场需求量大,经过一段时间的精心运营后,逐渐积累起了上千万会员,以及三四百万的日活量, app的业务功能和产品种类、数量也急速膨胀;主要问题有:营销分析断层;产品迭代无法量化;用户运营不精准;全局运营指标监控不实时)2、需求总览:流量域分析2.1、基础数据分析(整体概况、用户获取、活跃与留存、事件转化、用户特征)2.2、基础数据分析指标概览整体概况:产品整体的使用情况,包括用户量、访问情况、留存等帮助对产品整体指标有一个大致的了解(累

2020-08-17 19:38:45 3727

原创 hbase

hbaseHBASE简介1.是什么HBase是Apache的Hadoop项目的子项目,用于存储海量的结构化或者半结构,非结构化的数据。存储结构化和非结构数据的分布式数据库系统将数据存储在不同的机器上利用不用机器来处理并发请求2.特点1).高可靠性 , 分布式的数据库 , 存储的数据是安全的, 集群对外服务是可靠的2).高性能, 处理数据的速度,效率, 分布式的数据库就可以利用集群中所有机器的运算资源处理数据3).可伸缩性 从存储能力和运算能力处理 ,可以通过添加节点来扩展存储容量和添加运算资源

2020-07-04 22:02:52 238

原创 kafka

kafka1.什么是kafka消息队列,消息中间件2.kafka的特点1.解耦:  允许你独⽴的扩展或修改两边的处理过程,只要确保它们遵守同样的接⼝约束。2.冗余:  消息队列把数据进⾏持久化直到它们已经被完全处理,通过这⼀⽅式规避了数据丢失⻛险。许多消息队列所采⽤的"插⼊-获取-删除"范式中,在把⼀个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从⽽确保你的数据被安全的保存直到你使⽤完毕。3.扩展性:  因为消息队列解耦了你的处理过程,所以增⼤消息⼊队和处理的

2020-07-04 21:29:05 218

原创 scala

scala总结1.scala简介和SDK的安装1.1(1)(初级)熟练使用scala编写Spark程序(2)(中级)动手编写一个简易Spark通信框架(3)(高级)为阅读Spark内核源码做准备(4)Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机)(JS平台),并兼容现有的Java程序。1.2为什么要学Scala(1)优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直接影响

2020-07-04 20:57:28 4112

原创 redis

1.NoSql1.1什么是NoSqlNoSql是为了解决高并发、高可扩展、高可用以及高写入而产生的数据库解决方案。NoSql就是Not Only sql。Nosql是非关系型数据库,它是关系型数据库的良好补充,而不能替代关系型数据库。1.2Nosql数据库分类(了解)a.键值(Key-Value)存储数据库相关产品: Tokyo Cabinet/Tyrant、Redis、Voldemort、Berkeley DB典型应用:内容缓存,主要用于处理大量数据的高访问负载。数据模型:一系列键值对优

2020-07-03 21:09:56 156

原创 排序

package com.doit.day25;import java.util.ArrayList;import java.util.Collections;import java.util.Comparator;import java.util.Scanner;public class PaiXuDemo12 { public static void main(String[] args) { Scanner sc = new Scanner(System.in); ArrayL

2020-06-23 20:48:01 147

原创 hive

hive1.什么是hive,hive的作用Hive一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类似于SQL查询(HQL),本质是将Hive SQL转化成MapReduce程序.2.hive工作原理在hive中创建一张表,这张表要映射到hdfs中的数据(结构化的静态数据),形成映射关系;表结构是根据要处理的数据来决定的,(描述表结构的信息,指定处理数据的位置)元数据,元数据存储在mysql中;当在hive客户端中写sql语句时;首先要加载mysql中的元数据;然后解析sql语句

2020-06-23 20:40:23 479

原创 hive01

1.hive是什么有什么用什么是hive:Hive一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类似于SQL查询(HQL),本质是将Hive SQL转化成MapReduce程序.2.hive工作原理在hive中创建一张表,这张表要映射到hdfs中的数据(结构化的静态数据),形成映射关系;表结构是根据要处理的数据来决定的,(描述表结构的信息,指定处理数据的位置)元数据,元数据存储在mysql中;当在hive客户端中写sql语句时;首先要加载mysql中的元数据;然后解析sql语句,

2020-06-17 21:49:25 180

原创 Zookeeper总结

Zookeeper总结Zookeeper(Zookeeper是一个底层的分布式协调服务!它是hadoop生态体系中很多分布式系统(HDFS、YARN、HBASE、KAFKA…)的基础组件)1.什么是zookeeper(Zookeeper是一个底层的分布式协调服务!它是hadoop生态体系中很多分布式系统(HDFS、YARN、HBASE、KAFKA…)的基础组件)2.基本的功能1.为客户提供写数据功能2.为客户提供读取据功能3.为用户提供数据变化时的监控功能3.作用(Zookeeper的功能

2020-06-11 21:39:49 271

原创 HADOOP总结

HADOOP总结Hadoop(Hadoop的特点:(1) 高可靠性 : Hadoop底层将数据以多个副本的形式存储在不同的机器上,保证数据的安全可靠。(2) 高扩展性 :当存储hdp集群的存储能力和运算资源不足时,可以横向的扩展机器节点来达到扩容和增强运算能力 。(3) 高效性 :在MapReduce的思想下能够在节点之间动态地移动运算,且是分布式并行工作的,所以运海量数据非常高效。(4) 高容错性 : Hadoop能够自动保存数据的多个副本,当有存储数据的节点宕机以后, 会自动的复制副本维持集

2020-06-11 21:30:22 340

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除