BigData_Study
文章平均质量分 69
猫腻余腥
出身寒微不是耻辱,能屈能伸方为丈夫。
展开
-
大数据学习归纳
下载hadoop 2.X,下载JDK1.8,安装CentOS7镜像,这里我自己是用VM虚拟机的环境来搭建三台集群。安装Linux系统并停掉防火墙,禁止SeLinux,配置时间同步定时刷新集群系统时间通过VM直接克隆出另外两台机器,配置IP地址,确保三台机器相互之间能ping通,能联网。然后增加专门用于hadoop的hadoop用户,为root用户和hadoop都配置ssh免秘钥登录首先修改/etc/hosts文件,每台机器都生成公钥秘钥,并把公钥拷贝到彼此之间的机器上。原创 2023-06-14 13:47:09 · 1103 阅读 · 0 评论 -
Hbase学习笔记
HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。原创 2023-06-14 13:44:18 · 376 阅读 · 0 评论 -
Scala学习笔记
package: 包,等同于java中的packageobject:关键字,声明一个单例对象(伴生对象)main方法:从外部可以直接调用执行的方法def 方法名称( 参数名称 : 参数类型 ) : 返回值类型 = { 方法体 }Scala 完全面向对象,故scala去掉了Java中非面向对象的元素,如static关键字,void类型1) staticscala无static关键字,由object实现类似静态方法的功能(类名.方法名)原创 2023-06-14 13:42:40 · 1465 阅读 · 0 评论 -
Spark入门
RDD 持久化/缓存的目的是为了提高后续操作的速度缓存的级别有很多,默认只存在内存中,开发中使用 memory_and_disk只有执行 action 操作的时候才会真正将 RDD 数据进行持久化/缓存实际开发中如果某一个 RDD 后续会被频繁的使用,可以将该 RDD 进行持久化/缓存2.1.5 RDD 容错机制Checkpoint。原创 2023-06-14 13:43:23 · 2246 阅读 · 0 评论 -
大数据入门-大数据技术概述(一)
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。2.分布式文件系统:HDFS1.HDFS架构2.简介指被设计成适合运行在通用硬件上的分布式文件系统。3.特点HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。3.数据仓库:Hive1.架构2.简介。原创 2023-06-14 13:39:38 · 1367 阅读 · 0 评论 -
大数据技术之Hadoop(源码解析)
大数据技术之Hadoop源码解析。原创 2023-06-14 13:37:40 · 2605 阅读 · 0 评论 -
大数据技术之Hadoop(生产调优手册)
大数据技术之Hadoop(生产调优手册)原创 2023-06-14 13:34:16 · 1383 阅读 · 0 评论 -
大数据技术之Hadoop(Yarn)
大数据技术之Hadoop(Yarn)原创 2023-06-14 13:31:33 · 1442 阅读 · 0 评论 -
大数据技术之Hadoop(MapReduce)
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1)什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2)为什么要序列化。原创 2023-06-14 13:31:44 · 1873 阅读 · 0 评论 -
大数据技术学习代码纪录——Spark
【代码】大数据技术学习代码纪录——Spark。原创 2023-04-18 19:55:27 · 116 阅读 · 0 评论 -
大数据技术学习代码记录——Scala
初步学习Scala、并上传scala的学习记录代码原创 2023-02-15 16:57:08 · 1035 阅读 · 0 评论 -
Hadoop学习笔记——MapReduce
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。原创 2022-12-19 17:16:48 · 1193 阅读 · 0 评论 -
Hadoop学习——MapReduce随堂测验
单纯的Map Reduce随让测验代码原创 2022-12-17 20:37:40 · 590 阅读 · 0 评论 -
Hadoop学习笔记——HDFS
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。原创 2022-11-30 20:38:59 · 1619 阅读 · 0 评论 -
Hadoop学习笔记——入门教程(虚拟机安装Linux&Hadoop环境搭建配置)
本文章使用VMware虚拟机平台搭载CentOS-7-x86_64-DVD-2009镜像文件进行Hadoop-3.1.3环境搭建。原创 2022-11-08 11:10:25 · 2849 阅读 · 0 评论