大数据基础实践
文章平均质量分 85
面向小白的大数据基础实践教程,我就是这样学过来的。所以如果你想学Hadoop、Hbase、mapReduce等大数据技术,可以关注噢~
小生凡一
Talk is cheap. Show me the code.
展开
-
【大数据计算】(五) Storm的安装和基础编程
大数据计算:Spark原创 2021-12-06 23:24:04 · 2155 阅读 · 0 评论 -
【大数据计算】(四) Spark的安装和基础编程
大数据计算:Spark原创 2021-12-06 23:23:44 · 4065 阅读 · 1 评论 -
【大数据计算】(三) MapReduce的安装和基础编程
大数据计算:MapReduce原创 2021-10-21 10:29:57 · 1911 阅读 · 5 评论 -
【大数据计算】(二) HBase 的安装和基础编程
大数据计算:HBase原创 2021-10-13 08:00:00 · 1917 阅读 · 25 评论 -
【大数据计算】(一) HDFS操作方法和基础编程
大数据计算:HDFS原创 2021-10-06 08:58:54 · 2131 阅读 · 4 评论 -
【小白视角】大数据基础实践(七) Spark的基本操作
本文带你了解一下大数据中的Spark的一些基本概念与基本操作原创 2021-07-12 07:37:20 · 2257 阅读 · 55 评论 -
RDD的 transformations 和 actions 总结
RDD的transformations和actions两个RDD:一个RDD包含 {1, 2, 3} , 另一个RDD包含{3, 4, 5}函数名功能例子结果map()对每个元素应用函数rdd.map(x=>x+1){2,3,4,4}intersection()交集 rdd.intersection(other){3}subtract()取存在第一个RDD,而不存在第二个RDD的元素(使用场景,机器学习中,移除训练集)rdd.sub原创 2021-07-11 23:44:02 · 544 阅读 · 0 评论 -
【大数据基础实践】(六)数据仓库Hive的基本操作
目录1. 数据仓库概念2. Hive简介2.1 简介2.2 特性2.3 生态系统3. Hive系统架构4. HQL转成MapReduce作业的原理4.1 join的实现原理4.2 group by的实现原理5. 实验练习5.1 环境配置5.1.1 HIVE5.1.2 MYSQL5.1.3 配置MySql为hive元数据存储数据库5.2 Shell进行实验内容5.2.1 新建一个数据库;5.2.2 新建表5.2.3 添加分区5.2.4 导入grade_zqc5.2.5 统计男、女生人数5.2.6 统计每个学生原创 2021-07-01 14:15:18 · 7007 阅读 · 70 评论 -
【小白视角】大数据基础实践(五) MapReduce编程基础操作
目录1. MapReduce 简介1.1 起源1.2 模型简介1.3 MRv1体系结构1.4 YARN1.4.1 YARN体系结构1.4.2 YARN工作流程2. MapReduce 工作流程3. Java Api要点4. 实验过程最后1. MapReduce 简介1.1 起源在函数式语言里,map表示对一个列表(List)中的每个元素做计算,reduce表示对一个列表中的每个元素做迭代计算。它们具体的计算是通过传入的函数来实现的,map和reduce提供的是计算的框架。在MapReduce原创 2021-06-23 22:54:31 · 4811 阅读 · 60 评论 -
【小白视角】大数据基础实践(四) 分布式数据库HBase的常用操作
目录1. 环境配置2. 操作步骤:2.1 环境搭建2.2 Hbase Shell2.3 Java Api3. 结论最后1. 环境配置⚫ 操作系统:Linux(建议 Ubuntu18.04);⚫ Hadoop 版本:3.1.3;⚫ JDK 版本:1.8; ⚫ Java IDE:Eclipse;⚫ Hadoop 伪分布式配置⚫ HBase1.1.52. 操作步骤:2.1 环境搭建解压压缩包重命名并把权限赋予用户配置环境变量注意一点启动完hadoop之原创 2021-06-21 23:18:48 · 1684 阅读 · 42 评论 -
【小白视角】大数据基础实践(三)HDFS的简单基本操作
Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件上的分布式文件系统。本文从小白的视角使用shell和Java进行HDFS的基本操作。原创 2021-06-13 00:11:42 · 9493 阅读 · 153 评论 -
【小白视角】大数据基础实践(二)Hadoop环境搭建与测试
1.简介实验环境Vmware (Ubuntu18.04)Java 1.8Hadoop 3.1.31.1基础知识Hadoop是一个由Apache基金会所开发的开源分布式计算平台,为了让用户可以在不了解分布式底层细节的情况下开发分布式程序。Hadoop是一个基础架构系统,是Google的云计算基础架构的开源实现,主要由HDFS、MapReduce组成,其中HDFS是Google的GFS的开源实现,MapReduce是Google的MapReduce的开源实现。HDFS为海量的数据提供了存储原创 2021-05-31 09:55:52 · 2913 阅读 · 158 评论 -
【小白视角】大数据基础实践(一)搭建Hadoop集群
大数据实践第一篇,面向小白编程Ubuntu的操作1.下载文件1.1下载ubuntu镜像文件注:推荐使用16.04或是18.04版本下载地址链接pub.mirrors.aliyun.com进入下载页面,如下图,选择版本进入选择 ubuntu-X.X.X-desktop-amd64.iso 下载即可1.2 下载及安装VMware百度搜索随便安装即可,建议安装到磁盘比较大的地方,其他选择默认就可以了,网上找找破解码即可。1.3在VMware安装Ubuntu选择下载的iso文件然后随便原创 2021-05-29 10:14:19 · 2628 阅读 · 115 评论