大数据
文章平均质量分 89
大数据学习
枫茗、
HELLO,WORLD!
展开
-
Redis学习记录
Redis是用C语言开发的一个开源的高性能键值对(key-value)数据库。字符串类型散列类型(map)列表类型集合类型有序集合类型。原创 2022-07-24 21:09:38 · 1245 阅读 · 0 评论 -
SparkStreaming学习记录
大数据中的计算的数据通常可分为以下三大类1、一种是离线数据(T+1,周、月、季度、年等指标)2、一种是实时数据(一条数据触发一次计算、较短时间触发一次计算、最近几秒、最近几分钟、最近几十分钟)3、一种是准实时(交互式)(较短时间触发一次计算、最近几分钟、最近几十分钟)SparkStreaming,和SparkSQL一样,也是Spark生态栈中非常重要的一个模块,主要是用来进行流式计算的框架。流式计算框架,从计算的延迟上面,又可以分为纯实时流式计算和准实时流式计算,。...原创 2022-07-21 21:17:34 · 943 阅读 · 0 评论 -
Kafka学习记录
一种类别,每一条发送到kafka集群的消息都可以有一个类别,这个类别叫做topic,不同的消息会进行分开存储,如果topic很大,可以分布到多个broker上,例如pageview日志、click日志等都可以以topic的形式存在,Kafka集群能够同时负责多个topic的分发。在Kafka中,消息是需要存储与主题中的,Producer会将消息写入到指定的Topic中,而消费者会从指定的Topic中读取数据。包括收集各种分布式应用的数据,生产各种操作的集中反馈,比如报警和报告。............原创 2022-07-20 20:54:18 · 409 阅读 · 0 评论 -
SparkSql学习记录
主要通过两种方式操作SparkSQL,一种就是SQL,另一种为DataFrame和Dataset。SQLSQL不用多说,就和Hive操作一样,但是需要清楚一点的时候,SQL操作的是表,所以要想用SQL进行操作,就需要将SparkSQL对应的编程模型转化成为一张表才可以。同时支持,通用SQL和HQL。DataFrame和DatasetDataFrame和Dataset是SparkSQL中的编程模型。DataFrame和Dataset我们都可以理解为是一张mysql中的二维表,表有什么?............原创 2022-07-19 21:15:12 · 1004 阅读 · 0 评论 -
MongoDB学习记录
MongoDB是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。在高负载的情况下,添加更多的节点,可以保证服务器性能。MongoDB旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB文档类似于JSON对象。字段值可以包含其他文档,数组及文档数组。............原创 2022-07-18 21:42:27 · 673 阅读 · 0 评论 -
Spark学习记录2
RDD(ResilientDistributedDataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,这极大地提升了查询速度。a.存储的弹性内存与磁盘的自动切换;b.容错的弹性数据丢失可以自动恢复;c.计算的弹性计算出错重试机制;d.分片的弹性可根据需要重新分片。分布式。.........原创 2022-07-18 16:08:53 · 1395 阅读 · 0 评论 -
虚拟机网络模式(Bridge,Nat)简介
如果你建一个虚拟机,只是给自己用,不需要给局域网其他人用,那么可以选择NAT,毕竟NAT模式下的虚拟系统的TCP/IP配置信息是由VMnet8(NAT)虚拟网络的DHCP服务器提供的,只要虚拟机的网路配置是DHCP,那么你不需要进行任何其他的配置,只需要宿主机器能访问互联网即可,就可以让虚拟机联网了。在桥接模式下,例如在windows下使用vmware时,明显看到会生成多个虚拟网卡出来,但却没有一个网卡是属于桥接的,原因是虚拟机采用桥接方式时,是不需要虚拟网卡的,这时候。网线访问网内任何一台机器。.....原创 2022-07-16 15:41:39 · 1945 阅读 · 0 评论 -
Vmware虚拟机文件介绍、克隆及文件名称更改方法
vmx文件 虚拟机配置文件。可以用任何文本编辑工具打开。 vmdk文件是虚拟磁盘文件(VMWare Virtual Machine Disk Format),即虚拟机的数据都存储在这两个文件中。 VMDK是一种文件格式,它描述了虚拟磁盘在VMware Workstation 和 VirtualBox等虚拟机中使用的容器。该格式最初是由 VMware 为其虚拟设备产品开发的,在VMDK 5.0版发布之后成为一种开放格式,是开放虚拟机格式文件中用于虚拟设备的磁盘格式之一。即有不少软件都原创 2022-07-10 21:25:01 · 8563 阅读 · 0 评论 -
Hadoop学习记录6--YARN学习2
目录六、YARN的三种调度器6.1 什么是Scheduler(调度器) 6.2 YARN提供的三种内置调度器:6.2.1 FIFO Scheduler(FIFO调度器)6.2.2 Capacity Scheduler(容量调度器)6.2.3 Fair Scheduler(公平调度器)七、YARN的队列配置7.1 配置任务队列7.2 分发配置到各个节点 7.3 提交任务7.4 查看任务编辑7.5 默认队列设置如下图所示,只有当job1全部执行完毕,才能开始执行job2 如图所示,专门留了一部分资源给小任务原创 2022-07-02 21:17:34 · 336 阅读 · 0 评论 -
Hadoop学习记录5--YARN学习1
YARN是一个全局的资源管理器和作业调度平台。YARN的基本思想是将资源管理和作业调度/监视功能划分为单独的守护进程。其思想是拥有一个全局ResourceManager (RM),以及每个应用程序拥有一个ApplicationMaster (AM)。应用程序可以是单个作业,也可以是一组作业。 一个ResourceManager和多个NodeManager构成了YARN资源管理框架。他们是YARN启动后长期运行的守护进程,来提供核心服务。YARN属于Hadoop的核心组件,不需要单独安装,只需要修改一些配置文原创 2022-07-02 13:18:27 · 804 阅读 · 0 评论 -
linux查看根目录下的目录结构
1 /dev:是Linux内核的设备管理器,该文件夹中存放的都是一些关于设备的文件,例如光驱、硬盘、U盘、以及一些IDE(hd开头)和SATA(sd开头)、SCSI(sd开头)、USB(sd开头)相关的文件。2 /etc:存放所有的系统管理所需要的配置文件和子目录,它必须是静态的,不能是可执行二进制文件。3 /home:4 /lib:存放着系统最基本的动态连接共享库,其作用类似于 Windows 里的 DLL 文件。几乎所有的应用程序都需要用到这些共享库。5 /opt:可选的目录。6 /proc:伪文件系统原创 2022-07-01 15:15:48 · 7104 阅读 · 0 评论 -
Hadoop学习记录4--Maven、HDFS API编程
目录1.Windows下安装hadoop2. Maven2.1 Maven简介2.2 Maven安装与配置2.3 通过pom文件下载hadoop的客户端依赖3.API之文件操作 3.1 API之文件系统对象3.3 API之文件下载 3.4 API之创建目录 3.5 API之删除目录 3.6 API之文件状态 1.Windows下安装hadoop①解压到本地磁盘② 配置环境变量③添加winutils.exe和hadoop.dll ④修改hadoop-env.cmd Maven主要原创 2022-07-01 14:38:21 · 898 阅读 · 0 评论 -
Hadoop学习记录3--HDFS知识补充
目录一. HDFS块的讲解【重点】1.1 HDFS的块1.2 HDFS的块大小1.3 块的相关参数设置1.4 块的存储位置二. HDFS的元数据【重点】2.1 映像文件fsimage2.2 日志文件edit三、HDFS的工作机制【重点】3.1 开机启动Namenode过程3.1.1 非第一次启动集群的启动流程3.1.2 第一次启动集群的启动流程3.1.3 小知识3.2 安全模式介绍 3.3 DataNode与NameNode通信(心跳机制)3.4 SecondayNamenode的工作机制(检查点机原创 2022-07-01 10:14:26 · 644 阅读 · 0 评论 -
Hadoop学习记录2--hadoop的概述、部署、使用
目录一、Hadoop概述1.1 为什么要用Hadoop?1.2 Hadoop的简要介绍1.3 Hadoop的组成部分1.4 HDFS系统架构 二、Hadoop安装部署2.1 本地模式搭建2.1.1 安装JDK2.1.2. 安装Hadoop2.1.3 Hadoop的目录说明2.1.4. 案例演示: wordcount 2.2 完全分布式模式 2.2.1 完全分布式介绍2.2.2 平台软件说明2.2.3 守护进程布局2.2.4 集群搭建准备2.2.5 修改hadoop的配置文件2.2.6 格式化集群2.2.原创 2022-07-01 09:16:21 · 819 阅读 · 0 评论 -
Spark学习记录1
Spark Core实现了 Spark 的基本功能,包含任务调度、内存管理、错误恢复、与存储系统 交互等模块。Spark Core 中还包含了对弹性分布式数据集(resilient distributed dataset,简称RDD)的 API 定义。Spark SQL是 Spark 用来操作结构化数据的程序包。通过 Spark SQL,我们可以使用 SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。Spark SQL 支持多种数据源,比 如 Hive 表、Parquet 以及原创 2022-06-30 21:35:24 · 1085 阅读 · 0 评论 -
Scala学习记录1--简介与环境配置
Scala需要Java运行时库,安装Scala需要首先安装JVM虚拟机。进入Scala的官网https://www.scala-lang.org/ 下载页面,点击 All Previous Releases选择 根据操作系统选择安装包 1)首先下载scala-2.12.8.zip文件解压到任意盘符 2)新建“SCALA_HOME”系统变量,变量值为.../scala,并将“%SCALA_HOME%\bin”追加到"%Path%"中。 在Windows下使用cmd命令进入DOS中,然后输入“scala”进入到原创 2022-06-30 16:07:56 · 904 阅读 · 0 评论 -
Hadoop学习记录1--Window、虚拟机环境配置
一、Linux常用命令补全命令二.VMware+Centos有一个三台服务器构成的集群,三个服务器的虚拟机配置文件分别在user1,user2,user3目录下(存放虚拟机配置文件的目录建议路径不带中文不带空格不带特殊符号、同时不建议放到系统盘,要不每次打开VMware时都需要右击以管理员的身份启动,否则在加载vmx文件时会报没有权限的错误)...............原创 2022-06-28 21:28:18 · 637 阅读 · 0 评论