大数据
wFitting
别在最好的年纪,选择了安逸
展开
-
使用Java中的Stream流的方式实现单词的频次统计
使用Java中的Stream流的方式实现单词的频次统计单词的频次统计是学习大数据中的一个相当经典的案例。像使用MapReduce、Scala、Spark、Hive等技术都可以完成,相应的操作。在Java8中,其新增的特性Stream流,也可以很简单的完成单词频次统计的案例。下面上一段代码:@Test public void test() { List<String> l...原创 2019-05-16 15:26:40 · 2450 阅读 · 0 评论 -
Springboot自定义Kafka序列化与Flink自定义kafka反序列化
Flink Kafka自定义序列化与反序列化原创 2020-08-23 09:26:01 · 1794 阅读 · 0 评论 -
Datax读取Hive数据写入到Mysql,并传递日期参数
Datax读取Hive数据写入到Mysql,并传递日期参数Hive数据的导入导出,一直是在大数据离线批处理任务中必要的操作。不过之前使用Sqoop的可能要占大多数,而在近些年,阿里开源了一款数据导入导出的工具,也就是Datax。Datax是基于python以及json配置文件,对指定的数据进行导入导出,可以指定多种数据源和数据目的地,使用起来也是非常方便。下面将以一个例子来介绍一下Datax读取Hive数据写入Mysql的配置以及流程:Datax json配置文件{ "job": {原创 2020-07-20 17:01:22 · 2998 阅读 · 1 评论 -
scala list 与 java list 互转
scala list 与 java list 互转在Spark或Flink的Job编写中,通常大部分都会选择用Scala去编写,因为其简易性,不用写太多的代码。import java.utilimport scala.collection.JavaConverters._object Test { def main(args: Array[String]): Unit = { // 创建 scala list var scalaList = List("1", "2", "3"原创 2020-07-12 17:42:57 · 2124 阅读 · 0 评论 -
Zookeeper集群搭建(大数据平台必备)
Zookeeper集群搭建前言准备工作开始搭建启动Zookeeper前言Zookeeper是大数据平台的必要服务之一。在比如Hadoop集群、Kafka集群以及Hbase集群等都需要Zookeeper的管理。准备工作需要准备三台Linux主机,可以是Centos、Ubuntu等都可以。在三台Linux主机上配置Java环境变量。为三台主机配置SSH免密登录。开始搭建下载Zookeeper的安装包,这里下载的是3.1.14版本,直接使用wget下载即可。wget https://mi原创 2020-06-03 14:22:59 · 429 阅读 · 0 评论 -
Linux配置ssh免密登录(大数据服务搭建必备)
Linux配置ssh免密登录(大数据服务搭建必备)前言开始配置进行免密登录测试前言通常我们在搭建大数据相关集群的时候,必要的一步就是要配置SSH免密登录。比如我们在做Hadoop集群搭建的时候,它内部需要集群的机器需要相互信任,如果不配置SSH免密登录的话,就需要我们在启动Hadoop集群的时候,手动去输入机器的密码,如果集群实例数少还可以接受,但是当集群实例多的时候,还需要一遍一遍的输入密码,可想而知。开始配置配置工作很简单,首先使用以下命令生成ssh秘钥:ssh-keygen连续按几下回车,出原创 2020-06-03 12:09:41 · 464 阅读 · 0 评论 -
docker-compose 部署spark集群(2.4版本)
docker-compose 部署spark集群(2.4版本)docker-compose 部署spark集群(2.4版本)docker-compose部署编写docker-compose文件docker-compose 部署spark集群(2.4版本)在网上看到的docker spark镜像大多都是低版本的,而且jdk版本都低于8这个版本,以至于在提交应用的时候,运行失败!而后我对spar...原创 2020-05-06 16:57:54 · 850 阅读 · 0 评论