是小先生-CSDN博客

原创 nifi1.17.0的Kerberos证书安装及其使用

这些表达式的结果将分配给FlowFile属性，或者写入FlowFile本身的内容，具体取决于处理器的配置。（configure arguments: --prefix=********* --with-http_ssl_module），则已安装可以不用安装ssl模块。（查看数据来源）：此选项显示Nifi数据来源表，其中包含有关通过该处理器路由FlowFile的数据来源事件的信息。：执行脚本处理器，支持：clojure，ecmascript，groovy，lua，python，rubby。

2022-08-19 11:22:05 2508 1

原创大数据笔记--kafka工具AKHQ

日常运维工作中，越来越多的团队成员，包括开发人员、数据分析师和业务运营团队，需要实时查看和监控kafka主题中的数据，这对快速诊断问题、优化性能和支持数据驱动的决策十分重要。

2024-07-09 11:47:49 712

原创大数据笔记--ELK（第一篇）

一、ELK介绍1、什么是ELK2、为什么要使用ELK二、ELASTICSEARCH概括1、ES安装和启动2、ES的head插件三、ELASTICSEARCH核心概念1、ES中的重要概念四、ELASTICSEARCH索引数据1、REST命令2、索引的管理3、搜索功能五、ELASTICSEARCH索引的映射和设置1、MAPPING2、SETTING设置...

2022-09-19 09:47:04 2204

原创大数据笔记-NIFI（第一篇）

简而言之，NiFi 旨在使系统之间的数据流自动化。虽然术语“数据流”在各种情况下使用，但我们在这里使用它来表示系统之间的自动化和管理信息流。自从企业拥有多个系统以来，这个问题空间就一直存在，其中一些系统创建数据，而一些系统消耗数据。出现的问题和解决方案模式已被广泛讨论和阐明。企业集成模式中提供了一个全面且易于使用的表格。系统故障网络故障，磁盘故障，软件崩溃，人们犯错误。数据访问超出了消费能力有时，给定的数据源可能会超过处理或交付链的某些部分——只需要一个薄弱环节就会出现问题。边界条件只是建议。...

2022-08-12 17:23:28 1808

原创 Hudi（1.0、2.0）简介

Hudi将带来流式处理大数据，提供新数据集，同时比传统批处理效率高一个数据量级。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FIm9OPdH-1659686837512)(typora-user-images/image-20220805110555690.png)]Hadoop集群、Hive、Spark2.4.5(2.x)4、构建Hudi三、通过Spark-shell快速开始1、Spark-shell启动spark-shell启动,需要指定spark-avro

2022-08-05 16:27:43 2424 1

原创大数据技术之-presto

Presto是一个开源的分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB字节Presto的设计和编写完全是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。注意：虽然Presto可以解析SQL，但它不是一个标准的数据库。不是MySQL、Oracle的替代品，也不能用来处理在线事务（OLTP）...

2022-08-04 14:15:41 4946 1

原创大数据笔记--spark内核解析

Spark2.x版本使用Netty通讯框架作为内部通讯组件。Spark基于netty新的rpc框架借鉴了Akka的中的设计，他是基于Actor模型Spark通讯框架中各个组件（Client/Master/Worker）可以认为是一个个独立的实体，各个实体之间通过消息来进行通信。当Driver起来后，Driver则会根据用户程序逻辑准备任务，并根据Executor资源情况逐步分发任务。Job是以Action方法为界，遇到一个Action方法则触发一个Job。...

2022-07-29 16:03:45 474

原创大数据技术之-Hive源码

我们执行一个HQL语句通常有以下几种方式$HIVE_HOME/bin/hive进入客户端，然后执行HQL；先开启hiveserver2服务端，然后通过JDBC方式连接远程提交HQL。可以知道我们执行HQL主要依赖于和两种脚本来实现提交HQL，而在这两个脚本中，最终启动的JAVA进程的主类为”org.apache.hadoop.hive.cli.CliDriver“，所以其实hive程序的入口就是CliDriver类。下载hive3.1.2版本。...

2022-07-28 09:16:10 1922 2

原创大数据技术之-Hive的优化

Hive由Facebook开源用于解决海量结构化日志的数据统计工具Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。

2022-07-22 08:51:00 1270 1

原创大数据平台CDH搭建

Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具。2、环境准备2.1、虚拟机准备克隆三台虚拟机（hadoop102、hadoop103、hadoop104），配置好对应主机的网络IP、主机名称、关闭防火墙。2.2、SSH免密登录配置hadoop102对hadoop102、hadoop103、hadoop104三台服务器免密登录。CDH服务开启与关闭是通过server和agent来完成的，所以这里不需要配置SSH免密登录，但是为了我们分发文件方便，在

2022-07-07 16:31:02 5529 13

原创大数据案例--网站流量项目（中）

一、Hive做离线批处理1、实现步骤①、启动hadoop，启动hive进入hive的bin目录（以后台方式启动）nohup hive --service metastore &nohuphive --service hiveserver2 &sh hive②、在hive下创建weblog库，并使用create database weblog;use weblog③、创建外部表管理数据建立总表，用于管理所有的字段数据。总表特.

2022-04-24 17:01:31 4105

原创大数据案例--网站流量项目（上）

一、网站流量统计项目概述1、项目背景网站流量统计是改进网站服务的重要手段之一，通过获取用户在网站的行为，可以分析出哪些内容受到欢迎，哪些页面存在问题，从而使网站改进活动更具有针对性。2、统计指标说明常用的网站流量统计指标一般包括以下情况分析：①、按在线情况分析在线情况分析分别记录在线用户的活动信息，包括：来访时间、访客地域、来路页面、当前停留页面等，这些功能对企业实时掌握自身网站流量有很大的帮助。②、按时间段分析时段分析提供网站任意时...

2022-04-24 17:00:41 1584 1

原创大数据笔记--SparkStreaming

一、SparkStreaming介绍1、概述Spark Streaming是一种构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力，以吞吐量高和容错能力强著称。实时流处理指的是随着数据的实时到达，进行实时计算。目前做实时流计算的框架：Storm、SparkStreaming、Flink上图：为SparkStreaming实时流计算的过程。我们总结如下知识点：①、SparkStreaming接收连续不断的数据流，然后将数据流离散化成一批一批的数据，底层是.

2022-04-24 16:59:50 2964

原创大数据笔记--SparkSQL（第一篇）

一、Spark Sql1、概述Spark为了结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame（数据框）的编程抽象，DF的底层仍然是RDD，并且可以充当分布式SQL查询引擎。2、由来SparkSQL的前身是Shark。在Hadoop发展过程中，为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生，是当时唯一运行在hadoop上的SQL-on-Hadoop工具。但是，MapReduce计算过程中大量的中间磁盘落

2022-04-18 14:21:17 1554

原创大数据笔记--Spark机器学习（第二篇）

一、梯度下降法二、推荐系统模型三、ALS算法与显示矩阵分解

2022-04-13 23:05:50 3710

原创大数据笔记--Spark机器学习（第一篇）

一、数据挖掘与机器学习1、概念2、人工智能3、数据挖掘体系二、机器学习1、什么是机器学习2、机器学习的应用3、实现机器学习算法的工具与技术框架三、Spark MLlib介绍1、简介2、MLlib基本数据类型Ⅰ、概述Ⅱ、本地向量Ⅲ、向量标签的使用Ⅳ、本地矩阵Ⅴ、分布式矩阵的使用3、MLlib统计量基础Ⅰ、概述Ⅱ、计算基本统计量Ⅲ、计算相关系数四、距离度量和相似度度量1、概念2、欧氏距离3、曼哈顿距离4、切比雪夫距离

2022-04-05 17:05:50 17863

原创大数据笔记--Spark（第五篇）

一、Spark的调优1、更改序列化为kryo2、配置多临时文件目录3、启动推测执行机制4、某些特定场景，用mapPartitions代替map5、避免使用collect二、Spark的共享变量1、广播变量2、计数器三、VSM算法1、什么是倒排索引表？2、什么是相似度的概念？3、什么是TF-IDF算法4、VSM算法Ⅰ、概念Ⅱ、算法原理Ⅲ、举例

2022-04-04 19:05:43 1731

原创大数据笔记--Spark（第四篇）

一、RDD的容错机制二、RDD持久化机制1、RDD持久化（缓存）2、使用缓存3、缓存数据的清除4、持久化理解三、CheckPoint机制1、概述2、示例代码：3、总结4、Saprk懒执行的意义四、GC回收机制及算法1、概述2、哪些内存数据需要被回收？Ⅰ、引用计数法判定Ⅱ、可达性分析法3、常见的垃圾回收算法Ⅰ、标记-清除算法Ⅱ、复制算法Ⅲ、标记-整理算法Ⅳ、分代收集算法五、GC收集器1、概述2、Serial系列收集器

2022-04-04 13:01:10 3209

原创大数据笔记--Spark（第三篇）

一、Spark集群架构1、概述二、Saprk调度模块1、概述2、Scheduler的实现概述3、任务调度流程图4、细化三、Spark shuffle详解1、概述2、Hash Based Shuffle Manager3、Sort Based Shuffle Manager四、Shuffle相关参数配置1、概述2、常见配置①、spark.shuffle.manager②、spark.shuffle.spill③、spark.shuffle.mem

2022-04-03 17:45:11 1939

原创大数据笔记--Spark（第二篇）

目录一、DAG概念1、概述2、详解二、RDD的依赖关系1、概括2、窄依赖3、宽依赖4、Shuffle概述三、DAG的生成与Stage的划分1、DAG的生成2、Saprk的Stage（阶段）3、Saprk的Job和Task4、可视化理解窄依赖和宽依赖四、Spark框架核心概念一、DAG概念1、概述Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系，同时这个计算链也就生成了逻辑上的DAG。2、详解我们一单

2022-04-02 17:18:13 984

原创大数据笔记--Spark（第一篇）

一、Spark介绍1、概述Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的，后贡献给Apache。是一种快速、通用、可扩展的大数据分析引擎。它是不断壮大的大数据分析解决方案家族中备受关注的明星成员，为分布式数据集的处理提供了一个有效框架，并以高效的方式处理分布式数据集。Spark集批处理、实时流处理、交互式查询、机器学习与图计算于一体，避免了多种运算场景下需要部署不同集群带来的资源浪费。目前，Spark社区也成为大数据领域和Apache软件基金会最

2022-04-01 20:59:16 2270

原创大数据笔记--scala（第三篇）

一、scala集合上max 返回最大值 min 返回最小值 sum 求和 take 取出前n项，返回到新的集合中 takeRight 取出后n项，返回到新的集合中 drop 去掉前n项，并将剩余元素返回到新的集合中 dropRight 去掉后n项，并将剩余元素返回到新的集合中 head 返回集合头元素 last 返回集合尾元素 mkString 将集合中所有元素以指定方式返回或者返回一个字符串 inter

2022-03-26 17:25:13 1438

原创大数据笔记--scala（第二篇）

一、Scala的异常处理机制scala中继承了java的异常机制try catch finallyobject ScalaDemo04 { def main(args: Array[String]): Unit = { try { throw new RuntimeException("error"); }catch { case t: NullPointerException => t.printStackTrace();println("空

2022-03-25 22:21:16 2675

原创大数据笔记--scala（第一篇）

一、Scala介绍官网：http://www.scala-lang.org1、概述Scala即是面向对象的语言，也是面向函数的语言。scala可以为你在做大量代码重用和扩展时提供优雅的层次结构，并可以通过高阶函数来实现这样的目标。（高阶函数是函数式编程里的特性之一，允许函数作为参数传递，也允许函数作为返回值来返回）创始人：Martin Odersky马丁·奥德斯基，他在整个职业生涯中一直不断追求着一个目标：让写程序这样一个基础工作变得高效、简单、且令人愉悦。他编写了javac，这是目前大

2022-03-24 19:01:30 2312

原创大数据笔记--Kafka（第一篇）

目录一、Kafka的的介绍1、概述二、Kafka的配置及启动1、安装步骤三、Kafka核心概念及操作1、知识点2、Kafka使用四、Kafka主题分区的副本相关补充五、Kafka基本概念梳理1、Kafka架构2、Topic与Partition六、Kafka消息处理七、Kafka的索引机制1、概述八、Kafka的消息系统语义1、概述2、三种语义新版本Kafka的幂等性实现九、扩展：Zero Copy一、Kafka的的介绍

2022-03-23 22:06:05 1849

原创大数据案例--电信日志分析系统

目录一、项目概述1、概述二、字段解释分析1、数据字段2、应用大类3、应用小类三、项目架构四、数据收集清洗1、数据收集2、数据清洗五、Sqoop使用1、简介2、Sqoop安装步骤3、Sqoop的基本命令六、数据导出七、数据可视化1、概述2、步骤八、扩展1、各个网站的表现能力2、小区HTTP上网能力3、小区上网喜好4、查询语句一、项目概述1、概述①、当用户通过网络设备(手机、平板电脑、笔记本电脑等).

2022-03-23 07:30:00 3881 7

原创大数据笔记--HBase（第二篇）

一、Hbase的基本架构1、HRegion①、在Hbase中，会将一个表从行键方向上进行切分，切分成1个或者多个HRegion②、切分之后，每一个HRegion都会交给某一个HRegionServer来进行管理③、一个表至少会包含一个HRegion，可以包含多个HRgion④、在HBase中，行键是有序的，因此从行键方向上来进行切分，所以HRegion之间的数据是不交叉的⑤、因为HRegionServer会交给HRegionServer来管理，并且HRegion之间的数据相互不交

2022-03-22 22:15:23 1187

原创大数据笔记--HBase（第一篇）

一、简介1、概述①、HBase原本是由Yahoo！公司开发后贡献给了Apache的一套开源的、基于Hadoop的、分布式的、可扩展的、非关系型数据库②、如果需要对大量数据进行随机且实时读写，那么可以考虑用HBase③、HBase能够管理非常大的表：billions of rows * millions of columns数十亿行 x 数百万列④、HBase是仿照Google的Big Table来进行实现的，因此，Hbase和BigTable的原理几乎一致，只有实现语言不同。HBas

2022-03-21 16:42:58 2434

原创大数据笔记--Hive（第四篇）

一、join1、概述2、案例二、查询和排序1、having2、排序三、beeline1、概述2、步骤四、文件格式1、概述2、orc五、基本架构六、优化

2022-03-20 20:56:18 2165

原创大数据笔记--Hive（第三篇）

一、函数1、概述2、案例3、nvl函数4、case when 函数5、explode6、列转行7、行转行二、分类三、自定义UDF与UDTF四、窗口函数1、over2、案例

2022-03-20 16:13:01 1359

原创大数据笔记--Hive（第二篇）

一、基本SQL1、SQL的执行方式2、注意问题二、基本SQL命令三、基本表结构1、内部表和外部表2、分区表3、分桶表四、数据类型1、概述2、复杂类型

2022-03-18 06:50:29 3165

原创大数据笔记--Hive（第一篇）

目录一、Hive1、概述2、Hive和数据库的比较3、特点①、优点②、缺点二、Hive的安装1、概述2、安装步骤3、Hive运行日志4、参数配置一、Hive1、概述Hive原本时有Facebook公司开发后来贡献给了Apache的一套用于进行数据仓库管理的机制Hive提供了类SQL（HQL，Hive QL）语句来管理HDFS上的大量数据，底层会将SQL转化为MapReduce来交给Hadoop YARN执行，因此，Hive的执行效率相对比较低，

2022-03-15 23:21:54 2244

原创大数据笔记--Flume（第二篇）

一、Sink1、HDFS Sink①、概述HDFS Sink将收集到的数据写到HDFS中在往HDFS上写的时候，支持三种文件类型：文本类型，序列类型以及压缩类型。如果不指定，那么默认使用使得序列类型在往HDFS上写数据的时候，数据的存储文件会定时的滚动，如果不指定，那么每隔30s会滚动一次，生成一个文件，那么此时会生成大量的小文件②、配置属性属性解释 type ...

2022-03-15 19:27:53 2327

原创大数据笔记--Flume（第一篇）

目录一、Flume的简介1、概述2、基本概念3、流动模型/拓扑结构①、单级流动②、多级流动③、扇入流动④、扇出流动⑤、复杂流动二、执行流程三、安装Flume四、Source1、AVRO Source①、概述②、配置属性③、案例2、Exec Source①、概述②、配置属性③、案例3、Spooling Directory Source①、概述②、配置属性③、案例4、Netcat Source①、概述②、

2022-03-14 22:19:10 1575

原创大数据笔记--Hadoop（第六篇）

一、YARN1、概述2、YARN的结构二、YARN的执行流程三、ResourceScheduler-资源调度器1、FIFO(先进先出)2、Capacity(资源容量)3、Fair(公平资源)四、完全分布式结构1、结构2、常见问题Operation category READ is not supported in state standby. 3、添加节点五、Federation HDFS-联邦HDFS1、当前HDFS架构的弊端2、联邦HDFS一、YARN1、概述

2022-03-14 02:49:05 1156

原创大数据笔记--Hadoop（第五篇）

一、MapReduce组件1、Combiner-合并可以在Driver类中通过job.setCombinerClass(XXXReducer.class);来设置Combiner类Combiner实际上是在不改变计算结果前提的下来减少Reducer的输入数据量在实际过程中，如果添加Combiner，那么可以有效的提高MapReduce的执行效率，缩短MapReduce的执行时间。但是需要注意的是，并不是所有的场景都适合于使用Combiner。可以传递运算的场景，建议使用Comb

2022-03-14 02:46:34 506

原创大数据笔记--Hadoop（第四篇）

一、MapReduce1、概述MapReduce是Hadoop提供的一套进行分布式计算机制MapReduce是Doug Cutting根据Google的论文<The Google MapReduce>来仿照实现的MapReduce会将整个计算过程拆分为2个阶段：Map阶段和Reduce阶段。在Map阶段，用户需要考虑对数据进行规整和映射；在Reduce阶段，用户需要考虑对数据进行最后的规约2、特点i、优点易于编程：MapReduce提供了相对简单的编程模型。这就保证M

2022-03-12 20:10:17 2156

原创大数据笔记--Hadoop（第三篇）

目录一、HDFS常见命令二、回收站机制三、HDFS流程1、写（上传）流程2、读（下载）流程3、删除流程四、HDFS的AP操作1、首先创建maven工程2、配置pox.xml3、在resources下创建log42.xml4、新建HdfsDemo文件一、HDFS常见命令 start-dfs.sh 启动HDFS stop-dfs.sh 结束HDFS hdfs --dae

2022-03-11 19:44:41 805

原创大数据笔记--Hadoop（第二篇）

一、HDFS1、概述HDFS(Hadoop Distributed File System - Hadoop分布式文件系统)是Hadoop提供的一套用于进行分布式存储的机制HDFS是Doug Cutting根据Google的论文<The Google File System>(GFS)来仿照实现的2、特点能够存储超大文件：在HDFS集群中，只要节点数量足够多，那么一个文件无论是多大都能够进行存储- HDFS会对文件进行切块处理快速的应对和检测故障：在HDFS集群中，运维.

2022-03-11 16:33:20 758

原创大数据笔记--Hadoop（第一篇）

一、大数据简介1、简介①、美国调研机构Gartner给出了定义：大数据是一种新的处理模式，针对海量数据能够提供更强的决策力、洞察发现力和流程优化能力②、维基百科给出了定义：大数据是指无法在可承受的时间范围内用常规的软件或者法来对大量的数据进行捕捉、管理和处理③、无论哪个机构对大数据进行定义，实际上都是围绕对海量数据进行快速有效的处理方案2、特点Volumn：数据体量大。很多中小型企业的入门数据量是从TB级别开始，很多大型企业的入门数据量是从PB级别开始，更有累计达到EB级别至ZB级

2022-03-11 00:47:39 1588

promethus+node_exporter+mysqld_exporter+redis_exporter+Grafana

CDH平台kafka配置文件以及相关操作

sqoop从mysql中导入数据到parquet格式的hive中

Python初学者的算法练习小案例.docx

空空如也