大数据
文章平均质量分 70
以NJUFBDP课程为基础,结合相关比赛介绍各种大数据平台搭建以及使用教程,大数据处理的各种实用方法的技巧。
雒翼
南大菜鸡一枚
励志于FIN-TECH
展开
-
HW8.Spark简介
1.简述Spark的技术特点基于内存的弹性分布式数据集(RDD):Spark提出的弹性分布式数据集,是Spark最核心的分布式数据抽象,Spark的很多特性都和RDD密不可分。Transformation & Action:Spark通过RDD的两种不同类型的运算实现了惰性计算,即在RDD的Transformation运算时,Spark并没有进行作业的提交;而在RDD的Action操作时才会触发SparkContext提交作业。血统关系(lineage):为了保证RDD中数据的鲁棒性,Spar原创 2021-01-22 15:12:28 · 300 阅读 · 3 评论 -
Exp2.Hadoop集群安装与yarn管理
1.程序运行及截图注:单机和伪分布式均在docker下的ubuntu:16.04容器环境下完成1.1单机Hadoop系统安装和运行运行grep程序可以正确输出dfs开头的单词,hadoop单机系统搭建成功。1.2单机伪分布式Hadoop系统安装和运行(1).免密码SSH访问配置成功,ssh localhost成功(2).配置core-site.xml和hdfs-site.xml同时也要配置 hadoop-env.sh 文件(之前添加java路径信息的文件),在文件末尾添加一下信息:ex原创 2021-01-22 15:10:37 · 300 阅读 · 0 评论 -
HW4.Hadoop
1.简述HDFS的可靠性是如何设计的?1.安全模式:HDFS 刚刚启动时,NameNode 会进入安全模式(safe mode)。处于安全模式的NameNode不能做任何的文件操作,甚至内部的副本创建也是不允许的。NameNode 此时需要和各个DataNode 通信,获得DataNode 保存的数据块信息,并对数据块信息进行检查。只有通过了NameNode 的检查,一个数据块才被认为是安全的。当认为安全的数据块所占的比例达到了某个阈值(可配置),NameNode 才会退出。2.SecondaryNam原创 2021-01-21 09:37:43 · 137 阅读 · 0 评论 -
HW3.MapReduce
1.简述MapReduce的主要功能和设计思想。主要功能:任务调度:提交的一个计算作业(job)被划分为很多个计算任务(tasks),任务调度功能主要负责为这些划分后的计算任务分配和调度计算结点(map节点或reduce节点);同时负责监控这些节点的执行状态,并负责map节点执行的同步控制(barrier);也负责进行一些计算性能优化处理,如对最慢的计算任务采用多备份执行、选最快完成者作为结果。数据/代码相互定位:为了减少数据通信,一个基本原则是本地化数据处理,即一个计算节点尽可能处理其本地磁盘上所分原创 2021-01-21 09:34:44 · 168 阅读 · 0 评论 -
HW2.并行计算
1.为什么需要并行计算?因为贯穿整个计算机技术发展的核心目标是提高计算机性能。而现在单核处理器的性能提升已经接近极限,那么向多核并行计算发展成为必然趋势。同时,并行计算也是解决应用领域超大的计算量和计算复杂度的解决方案。2.并行计算按照系统类型划分,可以分为哪几种?简述每一种系统类型的特点。可分为五种。多核/众核并行计算系统MC或芯片级多处理CMP:指一块芯片上具有多个处理器核心,能够同时运行多个线程。耦合度紧密,可扩展性低,能耗低。对称多处理系统SMP:多个相同类型处理器通过总线连接并共享储存器原创 2021-01-21 09:29:05 · 352 阅读 · 0 评论 -
Exp1.MPI集群搭建与代码编程
1.代码见附录代码文件大数组各元素开平方求和:susum.c计算积分:calint.c2.运行说明及截图2.1集群搭建完成多机运行,使用hellompi测试:可以看到三个主机 host、host1、host2都参与工作,可以互相接通(ssh测试结果不展示了就,后边的程序结果可以说明这一点)10个任务的分配可以看到是按顺序分的:host:0,3,6,9 host1:1,4,7 host2:2,5,82.2 用MPI_Reduce接口改写大数组各元素开平方求和(单机调试过程及结果不再展示,原创 2021-01-21 09:25:05 · 472 阅读 · 0 评论 -
HW1.初识大数据
1.何为大数据?大数据指一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,可被称为“未来的石油”。2.大数据有哪几个特征?大体量(Volume):可从数百TB到数十数百PB,甚至EB的规模。多样性(Variety):大数据包括各种格式和形态的数据时效性(Velocity):很多大数据需要在一定时间限度下得到及时处理准确性(Veracity):处理的结果要保证一定的准确性大价值(原创 2021-01-21 09:17:57 · 187 阅读 · 0 评论