![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
EGNIR
这个作者很懒,什么都没留下…
展开
-
大数据实验四:并行化数据挖掘算法设计(Kmeans)
一、实验目的 机器学习和数据挖掘算法是大数据分析处理领域的重要内容,随着数据规模的不断扩大,设计面向大数据处理的并行化机器学习和数据挖掘算法越来越有必要。通过对并行化数据挖掘算法的实现,掌握并行化处理问题的分析方法和编程思想方法,能够根据实际情况定制并行化的算法解决问题。 二、实验平台 1)操作系统:Linux(实验室版本为 Ubuntu17.04); 2)Hadoop 版本:2.9.0; 3)JDK 版本:1.8; 4)Java IDE:Eclipse 3.8; 5 ) Spark 版本:2.1.0。 三原创 2022-05-20 08:47:01 · 1917 阅读 · 0 评论 -
大数据实验一:大数据系统基本实验(第四部分:NoSQL和关系数据库的比较)
一、 实验目的 1)理解 4 种数据库(MySQL、HBase、Redis 和 MongDB)的概念及不同点。 2)熟练使用 4 种数据库操作常用的 shell 命令。 3)熟悉 4 种数据库操作常用的 Java API。 二、 实验平台 1)操作系统:Linux(Ubuntu18.04); 2)Hadoop 版本:2.9.0; 3)MySQL 版本:5.7.28; 4)HBase 版本:1.2.6; 5)Redis 版本:4.0.8; 6)MongDB 版本:3.2.21; 7)JDK 版本:1.8; 8原创 2022-04-08 09:57:13 · 4719 阅读 · 0 评论 -
大数据实验一:大数据系统基本实验(第三部分:熟悉常用的 HBase 操作)
一、 实验目的 1)理解 HBase 在 Hadoop 体系结构中的角色。 2)熟练使用 HBase 操作常用的 shell 命令。 3)熟悉 HBase 操作常用的 Java API。 二、 实验平台 1)操作系统:Linux(Ubuntu18.04); 2)Hadoop 版本:2.9.0; 3)HBase 版本:1.2.6; 4)JDK 版本:1.8; 5)Java IDE:Eclipse 3.8。 三、 实验内容 1)编程实现以下指定功能,并用 Hadoop 提供的 HBase Shell 命令完成相原创 2022-04-07 22:54:23 · 4067 阅读 · 0 评论 -
大数据实验一:大数据系统基本实验(第五部分:MapReduce初级编程)
1)编程实现文件的合并和去重 对于两个输入文件,即文件 A 和文件 B,请编写 MapReduce 程序,对两个文件进行合并, 并剔除其中重复的内容,得到一个新的输出文件 C。 import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.Text; import org.apache.hadoop.m原创 2022-04-02 21:51:01 · 4714 阅读 · 4 评论 -
大数据实验一:大数据系统基本实验(第二部分:熟悉常用的 HDFS 操作)
1)向 HDFS 中上传任意文本文件,如果指定的文件在 HDFS 中已经存在,则由用户来指定是 追加到原有文件末尾还是覆盖原有的文件; package lab1; import java.io.*; import java.util.*; import java.net.*; import org.apache.hadoop.conf.*; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.*; public class test1 {原创 2022-04-01 03:00:03 · 4119 阅读 · 3 评论