![](https://img-blog.csdnimg.cn/f99f99612e5a48b686b5f8f798346dcc.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 88
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
xvwen
尽量早睡、锻炼做一个不秃头程序员,励志做一个优秀的程序员!
展开
-
java.lang.NoSuchMethodError: io.netty.buffer.PooledByteBufAllocator.<init>(ZIIIIIIZ)V
java.lang.NoSuchMethodError: io.netty.buffer.PooledByteBufAllocator.(ZIIIIIIZ)V和java.lang.ClassNotFoundException: com.fasterxml.jackson.databind.util.LookupCache原创 2023-02-02 09:30:45 · 1402 阅读 · 0 评论 -
配置了环境变量却依然报错Caused by: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset.
Caused by: java.io.FileNotFoundException: HADOOP_HOME and hadoop.home.dir are unset原创 2023-02-01 18:16:10 · 755 阅读 · 0 评论 -
Spark核心RDD详解(设计与运行原理,分区,创建,转换,行动与持久化)
弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。对开发者而言,RDD可以看作是Spark的一个对象,它本身运行于内存中,如读文件是一个RDD,对文件计算是一个RDD,结果集也是一个RDD ,不同的分片、 数据之间的依赖 、key-value类型的map数据都可以看做RDD。原创 2023-01-30 14:26:44 · 3319 阅读 · 0 评论 -
初识流计算框架Spark
Spark基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。原创 2023-01-29 18:29:28 · 2132 阅读 · 0 评论 -
windows上配置hadoop并通过idea连接本地spark和服务器spark
windows上安装hadoop,用idea开发工具连接,实现独立应用的java spark程序。原创 2023-01-29 16:27:41 · 2901 阅读 · 3 评论 -
sbt编程语言scala的构建工具配置及项目构建(附带网盘下载)
scala基于idea的配置。原创 2023-01-23 17:46:46 · 998 阅读 · 1 评论 -
hadoop环境下配置hive及sqoop
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。sqoop的作用就是将关系型数据库中的某张表数据到Hadoop的hdfs文件系统当中,底层运用的还是Map Reduce 。它利用MapReduce加快数据传输速度,批处理方式进行数据传输。也可以将HDFS上的文件数据或者是Hive表中的数据导出到关系型数据库中的某张表。原创 2022-08-19 15:21:55 · 811 阅读 · 0 评论 -
Hadoop的批处理框架MapReduce
MapReduce简介及简单案例原创 2022-03-22 10:47:56 · 3647 阅读 · 0 评论 -
HDFS基础
搭建HDFS后简单介绍下这个分布式文件管理系统。块名称节点和数据节点在搭建hadoop集群时配置core-site.xml文件配置了hadoop.tmp.dir是NameNode的主目录。它在配置的目录在加上tmp/dfs/name/current,如下:VERSION客户端访问存储原理冗余数据存储数据存取策略数据错误与恢复数据恢复依赖于多副本机制。Hadoop读写过程FileSystem是一个通用文件系统的抽象基类,可以被分布式文件系统继承,所有可原创 2022-03-20 22:22:51 · 2376 阅读 · 0 评论 -
Ubuntu 20.04下搭建单机伪分布式Hadoop
搭建伪分布式Hadoop原创 2022-03-20 20:10:48 · 1127 阅读 · 0 评论 -
Hadoop基础
大数据互联网信息技术的兴起,也迎来来了数据的爆发式增长,需要一套完整的技术来处理日益增粘的数据。大数据的特点数据量大:互联网产生的数据以每年50%的速度增长。数据类型多:数据的种类丰富,结构化数据和非结构化数据(1:9)。前者主要指关系型数据库的护具,后者主要包括邮件,多媒体,连接,短信,日志等。处理数据快:大数据时代,都依赖于快速生成数据并实时分析结果。价值密度低:大数据的价值密度远远低于关系型数据,很多有价值的数据都是分散在海量的数据中。原创 2022-03-20 20:01:02 · 933 阅读 · 1 评论