youAreRidiculous-CSDN博客

原创同步部署在docker中的mysql时canal连接异常

源码位置：driver\src\main\java\com\alibaba\otter\canal\parse\driver\mysql\socket\BioSocketChannel.java。// 根据实际修改，10倍于下面变量。// 根据实际修改。解决方法：重新编译lib/canal.parse.driver-1.1.6.jar。mysql 版本 5.7.41。

2023-05-17 15:50:14 804 1

原创大数据---Sqoop

Sqoop 应用模块开发--数据仓库的设计维度建模的基本概念维度建模三种模式模块开发–数据仓库的设计维度建模的基本概念维度建模（dimensional modeling）是专门用于分析数据库、数据仓库、数据集市建模的方法。数据集市可以理解为一种“小型数据仓库”。维度表（dimension） &nbsp...

2019-10-14 19:03:05 354

原创 Flink的Source端和Sink端大全

Flink和各种组件enviromentSourceflink + kafka (flink 消费 kafka 中的数据)SinkFlink + kafkaenviromentgetExecutionEnvironment 创建一个执行环境，表示当前执行程序的上下文。如果程序是独立调的，则此方法返回本地执行文件；如...

2019-09-23 20:02:33 3803

原创 Flink的使用

Flink的执行Flink 的核心概念Flink 的编程步骤延迟执行（懒加载）指定 key指定转换函数（Transformation）Flink API 编程Flink 的核心概念核心概念概述 Flink 程序是实现分布式集合转换操作(如:过滤、映射、更改状态、join、分组、定义窗口、聚合等)的有规律的程序。集合最初是由...

2019-09-23 07:52:18 710

转载 kafka原理讲解

https://blog.csdn.net/qq_29186199/article/details/80827085

2019-09-21 17:13:36 139

原创 Flink 简介

Flink 结构认识Flink 概述Flink 概述flink 是什么官网：https://flink.apache.org/ Apache Flink 是一个开源的分布式，高性能，高可用，准确的流处理框架。支持实时流处理和批处理。 Apache...

2019-09-21 14:48:10 901

原创 Hive整合Hbase

Hive整合Hbasehive 和 hbase 对比应用场景及编译安装hive 和 hbase 对比Hive数据仓库： Hive 的本质其实相当于将 HDFS 中已经存储的文件在 Mysql 中做了一个双射的关系，以方便使用 HQL 去管理查询。用于数据分析、清洗 &n...

2019-08-27 09:57:16 237

原创 Phoenix简介及安装部署使用

Phoenix简介及安装部署使用什么是 PhoenixPhoenix 性能Phoenix 的安装部署Phoenix 的使用批处理方式命令行方式什么是 Phoenix phoenix，中文译为“凤凰”，很美的名字。Phoenix 是由 saleforce.com 开源的一个项目，后又捐给了 Apache 基金会。它相当于一个 ...

2019-08-27 09:06:09 2122

原创大数据 --- Flume

Flume 日志收集系统概述运行机制Flume 采集系统架构图概述 Flume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的软件。 Flume 的核心是把数据从数据源 (source) 收集过来，再将收集到的数据...

2019-08-16 21:36:42 349

原创大数据--Hbase

Hbase 数据库Hbase 基础hbase 数据库介绍Hbase 基础hbase 数据库介绍简介 hbase 是基于 Google BigTable 模型开发的，典型的 key/value 系统。是建立在 hdfs之上，提供高可靠性、高性能、可伸缩、实时读写 nosql 的数据库系统。它是 Apache Hado...

2019-08-14 16:59:49 292

Spark Streaming流式处理Spark Streaming 介绍Spark Streaming 概述什么是 Spark Streaming为什么要学习 Spark StreamingSparkStreaming 与 Storm 对比Spark Streaming 原理原理Spark Streaming 计算流程Spark Streaming 容错性Spark Streaming 实时性D...

2019-08-13 21:51:00 446

原创报错Access denied for user 'root'@'node5' (using password: YES)

在mysql中执行以下SQL语句（修改node5为你的节点名字）GRANT ALL PRIVILEGES ON *.* TO 'root'@'node5' IDENTIFIED BY 'root' WITH GRANT OPTION; FLUSH PRIVILEGES;

2019-08-10 11:23:29 261

原创 Spark--Spark SQL

Spark-Sql介绍及使用Spark Sql 概述Spark sql 的前世今生什么是 Spark Sql为什么要学习 Spark SQLDataFrameSpark Sql 概述Spark sql 的前世今生 Shark 是一个为 Spark 设计的大规模数据仓库系统，它与 Hive 兼容。Shark 建立在 Hive 的代码基...

2019-07-17 12:00:35 382

原创 Spark之wordcount全家桶

wordcount在不同的地方及不同的方式本篇案例wordcount 操作的文件的内容运行spark-shell --master local[N] 读取本地文件运行spark-shell --master local[N] 读取HDFS上数据运行spark-shell 读取HDFS并存到HDFS在 IDEA 中编写 WordCount 程序使用Maven打包，在linux集群上运行使用 Java...

2019-07-12 11:50:14 259

原创大数据-Spark

Spark介绍及使用什么是Spark？为什么要学 SparkSpark 特点快通用兼容性Spark 集群安装Spark HA高可用部署基于zookeeper的Spark HA高可用集群部署Spark角色介绍什么是Spark？Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎，是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校 AMPLab，2...

2019-07-11 15:55:07 447

原创 Scala语言超详细介绍（下）

Scala语言24、高阶函数概念作为值的函数24、高阶函数概念Scala 混合了面向对象和函数式的特征，我们通常将==可以作为参数传递的方法中的表达式叫做函数。==在函数式编程语言中，函数是“头等公敌”，把函数作为参数或者是返回值是函数的函数叫高阶函数。高阶函数包含：作为值的函数、匿名函数、闭包、柯里化等等。作为值的函数可以向任何其他数据类型一样被传递和操作的函数，每当你想要给算法传入...

2019-07-10 19:57:10 314

原创 Scala语言超详细介绍（上）

Scala语言1.为什么要学习scala?2.scala的介绍3.scala语言和Java语言对比1.为什么要学习scala?用于进行在线计算（使用spark）2.scala的介绍Scala是一门多范式的编程语言，一种类似java的编程语言，设计初衷是实现可伸缩的语言、多范式既即面向对象也是函数式编程。面向对象:万物皆对象封装实例对象类继承。函数式编程: 面向...

2019-07-05 17:50:15 1714

原创 Hive简介

Hive的执行流程Hive安装大法Hive介绍Hive内部执行流程（执行查询时）除了查询都走的MapReduceHive的介绍Hive的元数据存放位置Hive 中的四大表Hive安装大法上传hiive压缩包到虚拟机使用xftp上传使用命令rz（需要安装lrzsz — yum install lrzsz -y）解压该压缩包tar -zxvf hive-1.2.1.tar.g...

2019-06-19 21:06:09 305

原创 zookeeper客户端

zookeeper客户端的命令及在eclipse中的简单的操作开启zookeeper客户端zookeeper中客户端的命令zookeeper的开发步骤（eclipse）zookeeper的开发过程开启zookeeper客户端zkCli.sh -server ip:port(2181默认端口)//连接指定ip的客户端zkCli.sh //连接localhost的客户端zookeeper...

2019-06-19 10:29:08 186

原创 zookeeper相关

zookeeper分布式协调服务zookeeper集群搭建大法zookeeper集群搭建大法上传zookeeper-*.tar.gz 压缩包使用xftp上传使用命令rz（需要安装lrzsz — yum install lrzsz -y）解压zookeeper压缩包tar -xf zookeeper-3.4.6.tar.gz...

2019-06-18 10:48:09 240

原创 HDFS在JAVA中的API

编译器：Eclipse创建hdfs中的目录（包括不存在的目录）查看hdfs某目录下的文件是否存在给hdfs中的文件重命名删除hdfs中的某文件上传本地文件到hdfs某目录下载hdfs中的文件到本地导入依赖的jar包，导入hdfs配置文件测试类中创建FileSystem.get(new Configuration) 返回FileSystem fs实例对象创建hdfs中的目录（包括不存在的目录）...

2019-06-17 16:14:58 186

原创 map/reduce入门级操作

HDFS在eclipse上的操作

2019-06-15 00:17:39 314

原创 HDFS搭建外部客户端

HDFS配置eclipse配置Windows环境变量配置环境变量step1.配置jdk环境变量step2.配置hadoop环境变量step3.修改系统的用户名配置eclipse的环境step1.在关闭eclipse的状态下将hadoop-eclipse-plugin-2.6.9.jar 包放入eclipse的安装目录下的plugins文件中step2.启动eclipse配置eclipse（在Win...

2019-06-13 14:42:35 387

原创 HDFS搭建步骤

配置免密登录免密与未免密：node1向node2发送一个请求，node2去查找本地是否有node1的公钥，情况一：没有，情况二：有情况一：node2会向node1索取公钥，node1再次发送过去，自己的公钥，node2在本地进行计算，存储，把得到的结果返回给node1，node2就会和node1建立连接，但是这个时候因为没有登录密码而卡壳，于是，用户输入密码…node1把密码封装了发过去...

2019-06-12 15:21:16 320

原创克隆虚拟机后的操作

更改主机名更改/etc/sysconfig下的network文件，在提示符下输入vi /etc/sysconfig/network进去之后修改HOSTNAME更改/etc下的hosts文件，在提示符下输入vi /etc/hosts进去之后在最下面添加 ip空格和主机名更改/etc/sysconfig/network-scripts/ifcfg-eth0,在提示符下输入 vi /etc/...

2019-06-12 10:00:25 781

原创关于HDFS的持久化

Secondary — 持久化流程图为什么持久化在集群中datanode接收客户端的数据时，由于一些突发事件而中断数据流，这时数据会流失，所以我们要在重选启动后恢复之前的数据，持久化会定时或者按照大小将元数据保存在磁盘中，当重新启动后namenode会自动从磁盘中读取之前的数据并恢复。执行持久化持久化是由secondaryNamenpde去操作原因： 1. 当需求较小，且占用...

2019-06-11 20:41:04 870

原创大数据概述

大数据概述大数据定义在(短时间)内(快速)产生的(大量)的(多种多样)的(有价值)的信息数据量过大的问题：扩展垂直扩展文字详情：在原本的服务器中，增加内存条，比较昂贵如下图：正方形为服务器圆为内存条横向扩展文字详情：增加多台服务器达到集群，可以无限增加，简单廉价的服务器或者PC端都可以如图：正方形为服务器，可以无限增加hadoop生态圈来源谷歌的三大论文主要组...

2019-06-10 21:50:48 427

原创 Linux命令文档

在输入和输出之间数据的流向称为数据流数据流变量计算逻辑控制循环变量本地变量name=xxx局部变量local–函数中的变量环境变量带有export特殊变量获取当的pid $ $ 取当前参数个数 $ # 获取第*个参数的位置 $ * 获取全部参数$ @ 输出上一条指令的执行状态 $ ? 获取当前进程的实际pid...

2019-06-10 15:27:33 273

youAreRidiculous的博客