自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 2021-04-15

第1章 数仓分层1.1 为什么要分层1.2 数据集市与数据仓库概念1.3 数仓命名规范1.3.1 表命名 ODS层命名为ods_表名 DWD层命名为dwd_dim/fact_表名 DWS层命名为dws_表名 DWT层命名为dwt_表名 ADS层命名为ads_表名 临时表命名为xxx_tmp 用户行为表,以log为后缀。1.3.2 脚本命名 数据源_to_目标_db/log.sh 用户行为脚本以log为后缀;业务数据脚本以db为后缀。1.3.3 表字段类型

2021-04-15 11:32:17 388

原创 2021-04-15

第1章 电商业务简介1.1 电商业务流程电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品无疑都是存储在后台的管理系统中的。当用户寻找到自己中意的商品,可能会想要购买,将商品添加到购物车后发现需要登录,登录后对商品进行结算,这时候购物车的管理和商品订单信息的生成都会对业务数据库产生影响,会生成相应的订单数据和支付数据。订单正式生成之后,还会对订单进行跟踪处理,直到订单全部完成。电商的主要业务流程包括用户

2021-04-15 11:31:01 981

原创 zookeeper的了解和API的使用

1. zookeeper的数据模型ZooKeeper 的数据模型,在结构上和标准文件系统的非常相似,拥有一个层次的命名空间,都是采用树形层次结构.ZooKeeper 树中的每个节点被称为—个Znode。和文件系统的目录树一样,ZooKeeper 树中的每个节点可以拥有子节点。但也有不同之处:Znode 兼具文件和目录两种特点。既像文件一样维护着数据、元信息、ACL、 时间戳等...

2020-04-17 17:22:24 178

原创 大数据开发环境的搭建(原生版)

1.1、大数据的特点1)Volume(大量):截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的话的数据 量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近 EB量级。2)Velocity(高速):这是大数据区分于传统数据挖掘的显著特征。根据IDC的“数字宇宙”的报告,预计到2020 年,全球数据使用量将达到35.2ZB。在如...

2020-04-17 13:57:53 998

原创 Hadoop的核心--HDFS

Hadoop1、 Hadoop的介绍Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS),可用于处理海量网页的存储——分布式计算框架M...

2020-03-21 17:55:16 361

原创 CM---Hadoop的安装

Hadoop的安装首先登录CM管理平台 账号admin 密码 admin勾选图示按钮选择继续,选择图示版本点击继续选择当前管理的主机

2020-03-21 12:27:07 326

原创 CM的环境搭建

为什么要安装CM的hadoop版本ClouderaManagme在大型互联网企业中用的较多。相比于安装原生的apache版本的Hadoop来说,CM版本的Hadoop需要考虑Hadooop生态圈各个不同版本之间的兼容性问题,原生版本还需要改动更多的配置文件。CM集群的管理也相对的简单。1.2 cloudera manager的功能管理:对集群进行管理,如添加、删除节点等操作。监控:监控集...

2020-03-20 19:36:46 678

原创 大数据开发环境搭建之linux服务器的安装搭建

VM12虚拟机安装首先完成VM12的安装,有需要的请去下方链接下载需要的文件,里面有vm12的安装教程和破解文件,在这里不做过多的教程。本片主要是linux系统的安装教程。链接:https://pan.baidu.com/s/19fGgOU-hsiErQJ9QdGCMZw提取码:46dmLinux系统的安装(桌面版)1 检查BIOS虚拟化支持2 新建虚拟机3 新建虚拟机向导4 创建...

2020-03-16 20:42:59 595

原创 大数据之从Hadoop框架讨论大数据生态

Hadoop是什么Hadoop发展历史Hadoop三大发行版本Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。Apache Hadoop官网地址:http://hadoop.apache.org/releas...

2020-03-16 16:18:29 145

原创 什么是大数据

1.1、大数据概念大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最小的基本单位是bit,按顺序给出所有单位:bit 、Byte、KB、MB、GB、TB、PB、EB、 ZB、YB、BB、NB、DB。1 Byte = 8 bit 1K = 1024B...

2020-03-16 15:37:18 1210 1

原创 大数据---从入门到精通

最近一段时间会整理、更新大数据的一些基本的生态圈和经常会用到一些常用到的项目架构,以及经常碰到的错误和解决办法,还有一些软件,jar包放在百度网盘里,需要的小伙伴可以自行下载。希望在接下来的日子里能共同进步,从大数据入门小白成长为大神,工资涨涨涨。...

2020-03-16 15:03:43 82

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除