大数据
文章平均质量分 79
noworldling
这个作者很懒,什么都没留下…
展开
-
大数据----Zookeeper学习(2)---ZooKeeper集群操作
Zookeeper原创 2022-07-12 11:01:45 · 682 阅读 · 0 评论 -
大数据----Zookeeper学习(1)
Zookeeper是一个开源的分布式的,为分布式框架提供协调服务的项目。Zookeeper是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已注册的观察者做出相应的反应。...原创 2022-07-11 14:51:18 · 297 阅读 · 0 评论 -
大数据之路----3.数据同步
关系型数据库的结构化数据:MySQL、Oracle、DB2、SQL Server非关系型数据库的非结构化数据:OceanBase、HBase、MongoDB、来源于文件系统的结构化或非结构化数据(通常以文件形式存储)通过定义好的规范接口API和**基于动态链接库的方式(ODBC/JDBC等)**连接业务库。...原创 2022-07-07 15:50:32 · 1259 阅读 · 0 评论 -
大数据----Hadoop与数据仓库
传统数据仓库一般建立在Oracle、MySQL这样的关系数据库系统之上。关系数据库主要的问题是不好扩展,但Hadoop的数据和计算都是分布式的,可以处理海量数量。原创 2022-07-01 17:34:04 · 2966 阅读 · 0 评论 -
大数据----Hadoop----Spark入门介绍
Hadoop生态圈包含多种组件,貌似各不相同,但是都有三种共同的特征:1.依赖于Hadoop的YARN、HDFS、MapReduce;2.都是处理大数据的工具,并提供建立端到端数据流水线所需的各种功能;3.建立分布式的理念相通。......原创 2022-07-01 16:23:50 · 915 阅读 · 0 评论 -
大数据----数据仓库设计基础(实列演示)
大数据----数据仓库设计基础原创 2022-07-01 15:50:38 · 1781 阅读 · 0 评论 -
大数据----数据仓库架构
把数据仓库架构理解成构成数据仓库的组件及其之间的关系图中显示的整个数据仓库环境包括操作型系统和数据仓库系统两大部分。操作型系统的数据由各种形式的业务数据组成,这其中可能有关系数据库、TXT或CSV文件、HTML或XML文档,还可能存在外部系统的数据,比如网络爬虫抓取来的互联网数据等,数据可能是结构化、半结构化、非结构化的。这些数据经过抽取、转换和装载(ETL)过程进入数据仓库系统。在数据仓库技术演化过程中,产生了几种主要的架构方法,包括数据集市架构、Inmon企业信息工厂架构...原创 2022-06-30 17:36:45 · 5875 阅读 · 3 评论 -
数据中台详解
各种信息系统大多是独立建设的,无法做到信息的互联互通,导致形成了多个数据孤岛。数据中台的作用是融合新老信息,整合各个孤岛上的信息,快速形成数据服务能力,为企业经营决策、精细化运营提供支持。数据中台和业务中台的区别: 业务中台是抽象业务流程的共性形成通用业务服务能力,数据中泰是抽象数据能力的共性形成通用数据服务能力。数据仓库的主要场景是支持管理决策和业务分析,而数据中台则是将数据服务化之后提供给业务系统,目标是将数据能力渗透到各个业务环节,不限于决策分析类场景。数据中台的建设包含数据仓库的完整内容,数据中原创 2022-06-30 13:58:39 · 26252 阅读 · 1 评论 -
笔试题--URL输入浏览器后经历的过程
URL输入浏览器后经历的过程原创 2022-06-13 23:04:54 · 156 阅读 · 0 评论 -
大数据学习---数据仓库概述2
文章目录1 表的分类维度建模中的表类型1.1事实表1.2维度表1.3事务事实表1.4周期快照事实表1.5累计快照事实表1.6拉链表2 ETL策略2.1 全量同步2.2 增量同步3 任务调度3.1为什么需要任务调度?3.2常见任务类型3.3常见调度工具1 表的分类维度建模中的表类型事实表维度表事务事实表周期快照事实表累计快照事实表1.1事实表一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等1.2维度表一般是指对应一些业务状态,代码的解释表。也可以称为码表通常使用维度对事原创 2022-04-24 19:02:18 · 1024 阅读 · 0 评论 -
大数据学习---数据仓库概述1
文章目录数据仓库1.数据仓库概念2.数据仓库特点3.数据仓库VS数据库4.技术实现4.1 传统数据仓库4.2大数据数据仓库5.数据仓库架构设计5.1 ETL---- Extract、Transform、Load5.2 ODS(操作数据源层)5.3 CDM(公共维度层):5.3.1DWD(数据明细层)5.3.2DWD(数据汇总层)5.4 ADS(数据应用层)6 建模方法6.1 OLTP系统建模方法6.1.1 OLAP(在线联机分析)数据仓库1.数据仓库概念数据仓库( Data Warehouse ),是原创 2022-04-24 16:43:06 · 3049 阅读 · 0 评论 -
MapReduce面试题总结1
文章目录1.介绍一下MR2.Split2.1 分片概念2.2 分片数量与Map Task数量的关系2.3 由谁来划分分片?2.4 分片的大小2.5 默认分片大小与Block分块大小相同的原因是什么?3. Map4. Shuffle4.1 Map端的Shuffle4.2 Reduce 端的 Shuffle 阶段5. Reduce阶段1.介绍一下MRMapReduce是Hadoop中负责计算部分。主要分为split、map、shuffle、reduce四个阶段,以wordcounter为例解释:1)Spl原创 2022-04-12 15:47:39 · 3299 阅读 · 2 评论 -
大数据----Hive学习(6)----Hive 基本操作4
函数原创 2022-04-07 22:31:29 · 1389 阅读 · 0 评论 -
大数据----Hive学习(5)----Hive 基本操作3
文章目录分区表和分桶表1 分区表1.1 分区表基本操作1.2 二级分区1.3 动态分区调整2 分桶表分区表和分桶表1 分区表分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所 有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区,这样的查询效率 会提高很多。1.1 分区表基本操作1)引入分区表(需要根据日期对日志进行管理, 通过部门信息模拟)dept_20200原创 2022-04-06 22:40:28 · 153 阅读 · 0 评论 -
大数据----Hive学习(4)----Hive 基本操作2
文章目录DML数据操作**1 数据导入****2 数据导出**查询DML数据操作1 数据导入1.1 向表中装载数据(Load)1)语法 hive> load data [local] inpath '数据的 path' [overwrite] into table student [partition (partcol1=val1,...)];(1)load data:表示加载数据(2)local:表示从本地加载数据到 hive 表;否则从 HDFS 加载数据到 hive 表(3)i原创 2022-03-31 23:31:44 · 1949 阅读 · 0 评论 -
大数据----Hive学习(3)----Hive 基本操作1
文章目录Hive数据类型DDL数据定义1 创建数据库2 查询数据库5 创建表5.1 管理表5.2 外部表5.3 管理表与外部表的互相转换6 修改表7 删除表Hive数据类型1 基本数据类型2 集合数据类型Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT。ARRAY 和 MAP 与 Java 中的 Array 和 Map 类似,而 STRUCT 与 C 语言中的 Struct 类似,它封装了一个命名字段集合,复杂数据 类型允许任意层次的嵌套。基于上述数据结构,我们在 Hive原创 2022-03-31 23:10:25 · 2427 阅读 · 0 评论 -
大数据----Hive学习(2)----Hive 安装部署
Hive 安装部署下载地址http://archive.apache.org/dist/hive/先搭建Hadoop集群详情:1.https://blog.csdn.net/weixin_46002001/article/details/1235861552.https://blog.csdn.net/weixin_46002001/article/details/1235869213.https://blog.csdn.net/weixin_46002001/article/details/原创 2022-03-25 22:01:32 · 3147 阅读 · 1 评论 -
MapReduce学习总结(6)-----Hadoop 数据压缩
数据压缩压缩的好处和坏处压缩的优点:以减少磁盘 IO、减少磁盘存储空间。压缩的缺点:增加 CPU 开销。压缩原则(1)运算密集型的 Job,少用压缩(2)IO 密集型的 Job,多用压缩压缩算法Gzip 压缩优点:压缩率比较高;缺点:不支持 Split;压缩/解压速度一般;Bzip2 压缩优点:压缩率高;支持 Split;缺点:压缩/解压速度慢Lzo 压缩优点:压缩/解压速度比较快;支持 Split;缺点:压缩率一般;想支持切片需要额外创建索引。Snappy 压缩优点:原创 2022-03-22 16:57:44 · 791 阅读 · 0 评论 -
MapReduce学习总结(5)-----MapReduce工作机制
1.MapTask 工作机制如果觉得术语太多的话,建议细看粗体字部分。(1)**Read 阶段:MapTask 通过 InputFormat(用来读取数据)获得的 RecordReader,从输入 InputSplit 中 解析出一个个 key/value。(2)Map 阶段:该节点主要是将解析出的 key/value 交给用户编写 map()函数处理**,并 产生一系列新的 key/value。(3)Collect 收集阶段:在用户编写 map()函数中,当数据处理完成后,一般会调用 Outpu原创 2022-03-22 16:50:45 · 1321 阅读 · 1 评论 -
MapReduce学习总结(4)-----MapReduce框架原理
MapReduce框架原理1. InputFormat数据输入1.1切片与MapTask并行度决定机制MapTask 的并行度决定 Map 阶段的任务处理并发度,进而影响到整个 Job 的处理速度。1G 的数据,启动8 个 MapTask,可以提高集群的并发处理能力。但是 1K 的数据,也启动 8 个 MapTask,并不会提高集群性能。数据块: Block 是 HDFS 物理上把数据分成一块一块。数据块是 HDFS 存储数据单位。数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其原创 2022-03-22 16:03:45 · 885 阅读 · 0 评论 -
MAC利用VM进行Hadoop集群搭建保姆级教程(4)-----配置集群
前期准备:1)准备 3 台客户机(关闭防火墙、静态 IP、主机名称) 2)安装 JDK3)配置环境变量4)安装 Hadoop5)配置环境变量1.编写集群分发脚本 xsync需求:循环复制文件到所有节点的相同目录下(1)在/home/username/bin 目录下创建 xsync 文件cd /home/atguigumkdir bincd binvim xsync在该文件中编写如下代码:if [ $pcount -lt 1 ]then echo Not Enough Ar原创 2022-03-19 10:49:06 · 1049 阅读 · 0 评论 -
MAC利用VM进行Hadoop集群搭建保姆级教程(3)-----安装JDK和Hadoop和配置环境变量
在 hadoop2 安装 JDK1卸载现有 JDK在上一章已经写过了2用Termius 传输工具将 JDK 导入到 username 目录下面的 software 文件夹下面3解压 JDK 到/username/module 目录下software]$ tar -zxvf jdk-8u212-linux- x64.tar.gz -C /username/module/4配置 JDK 环境变量(1)新建/etc/profile.d/my_env.sh 文件sudo vim /etc/prof原创 2022-03-19 09:50:29 · 505 阅读 · 0 评论 -
MAC利用VM进行Hadoop集群搭建保姆级教程(2)-----静态IP配置
克隆虚拟机利用模板机 hadoop1,克隆三台虚拟机:hadoop2 hadoop3 hadoop4记得先将hadoop1关机,然后选择创建完整克隆。静态IP配置以hadoop2举例:1.在 /Library/Preferences/VMware\ Fusion/networking 查看网络配置的ip 范围192.168.110.0 就是虚拟的ip 范围地址2.需改虚拟linux下的网卡配置在Linux终端中运行如下命令vim /etc/sysconfig/network-scripts原创 2022-03-18 23:42:26 · 1844 阅读 · 1 评论 -
MAC利用VM进行Hadoop集群搭建保姆级教程(1)-----模板虚拟机环境准备
所需软件:VMware下载地址:https://www.vmware.com/cn/products/fusion/fusion-evaluation.html所需环境:CentOS-7-x86_64-DVD-2009下载地址:https://mirrors.bfsu.edu.cn/centos/7.9.2009/isos/x86_64/CentOS-7-x86_64-DVD-2009.iso模板虚拟机环境准备安装完VMware后选择创建自定虚拟机,然后系统选择Linux-CentOS7,然后一原创 2022-03-18 23:18:43 · 1722 阅读 · 1 评论 -
MapReduce学习总结(2)
Hadoop序列化1.什么是序列化序列化就是把内存中的对象,转换成字节序列以便于存储到磁盘和网络传输。反序列化就是将收到字节序列或者是磁盘的持久化数据,转换成内存中的对象。2.为什么要序列化一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储“活的” 对象,可以将“活的”对象发送到远程计算机。3.为什么不用 Java 的序列化Java 的序列化是一个重量级序列化框架(Serializable),一原创 2022-03-18 15:16:54 · 115 阅读 · 0 评论 -
MapReduce学习总结(1)
MapReduce理解(带案例)原创 2022-03-17 21:45:19 · 2644 阅读 · 0 评论