yanglitian_123-CSDN博客

原创 Flume常用配置参数

Flume常用配置参数概述本篇文章是根据Flume官网对Flume组件（Source,Channel,Sink）的常用配置参数做一个主要介绍，如有表达意思错误希望不吝指出。SourcesFlume中常用的Source有NetCat，Avro，Exec，Spooling Directory，Taildir，也可以根据业务场景的需要自定义Source,具体介绍如下。NetCat SourceNetCat Source可以使用TCP和UDP两种协议方式，使用方法基本相同，通过监听指定的IP

2020-09-23 14:14:27 509

原创 vmware磁盘扩容

直接将新增磁盘空间扩展到“/”根目录下这个可能更实用一些，我们直接把新增的磁盘空间扩展到根目录下，这样更方便。1、fdisk -l 会出现以下的信息：Device Boot Start End Blocks Id System/dev/sda1 * 1 64 512000 83 Linux/dev/sda2 64 2611 20458496 8e Linux LVMDisk /dev/mapper/vg_zxw-lv_root: 18.8 GB, 18832424960 bytes255 he

2020-09-07 19:57:18 421

原创 Hbase常用命令

1、Hbase shell客户端使用启动 start-hbase.sh a、进入客户端 hbase shell b、常用命令 list 列出Hbase中存在的所有表 alter 修改列簇(column family)模式 count 统计表中行的数量 create 创建表 describe 显示表相关的详细信息 delete 删除指定对象的值(可以为表，行、列对应的值，另外也可以指定时间戳的

2020-09-03 17:31:46 536

原创 Spark安装，Flume安装，Kafka安装

Spark安装1，准备安装包，解压，重命名spark-2.2.0-bin-hadoop2.7.tgz[root@hadoop160 software]# tar -zxf spark-2.2.0-bin-hadoop2.7.tgz -C /opt[root@hadoop160 opt]# mv spark-2.2.0-bin-hadoop2.7/ spark2，配置环境变量export SPARK_HOME=/opt/sparkexport PATH=$SPARK_HOME/bin:$PAT

2020-09-02 20:10:56 228

原创 KafkaStream时间戳问题CreateTime = -1引起的程序中断

KafkaStream时间戳问题CreateTime = -1引起的程序中断Exception in thread “app-8835188a-e0a0-46da-ac2a-6820ec197628-StreamThread-1” org.apache.kafka.streams.errors.StreamsException: Input record ConsumerRecord(topic = raw_103, partition = 1, offset = 7032668, CreateTime

2020-08-24 19:04:36 1012 1

原创用sparkSQL处理sparkStreaming，flumesink到streaming处理，streaming消费kafka数据，streaming窗口处理

sparkStreaming基于spark core api 的扩展，用于处理流式数据处理特点：高容错，可扩展，高流量，低延时微批处理，1-10s ,每个微批都是一个RDD用sparkSQL处理sparkStreamingpackage kgcimport org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Seconds, Streamin

2020-08-20 17:24:48 212

原创 KAFKA

Kafka 是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。关键词Topic 主题，发布订阅模式下的消息统一汇集地Broker 用来实现数据存储的主机服务器，消息服务器Partition 每个 Topic 中的消息会被分为若干个 Partition，以提高消息的处理效率Producer 消息的生产者Consume

2020-08-18 19:29:21 375

原创 Flume代码样本

读文件夹，以文件夹为通道，传到hdfsuser_friends.sources = userFriendsSourceuser_friends.channels = userFriendsChanneluser_friends.sinks = userFriendsSinkuser_friends.sources.userFriendsSource.type = spooldiruser_friends.sources.userFriendsSource.spoolDir = /softwar

2020-08-17 14:46:57 277

原创 Spark GraphX

弹性分布式属性图（Resilient Distributed Property Graph）创建顶点（Vertex）val VertexRDD=sc.map(顶点id（这个需要时Long类型）,点的属性)创建边（Edge）val EdgeRDD=sc.map(x=>(起点id，终点id,边的属性)) //（id都是long类型）创建图（Graph）val graph=Graph(VertexRDD,EdgeRDD)triplets返回一个三元组：（srcId,srcAtt

2020-08-11 19:18:40 202

原创 Python； Anaconda3安装以及Jupyter和pyspark集成，顺带回顾一下spark安装

centos7 中安装python31，准备安装包（官网或者度娘下载即可）Python-3.7.2.tar.xzAnaconda3-2020.07-Linux-x86_64.sh2，安装编译工具yum -y groupinstall "Development tools"yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel

2020-08-10 19:52:28 466

原创 SPARK,RDD，RDD算子

spark 技术栈Spark Core 核心组件，分布式计算引擎Spark SQL 高性能的基于hadoop的SQL解决方案Spark Streaming 实时流处理Spark GraphX 分布式图处理框架Spark MLlib 分布式机器学习RDD(Resilient Distributed Datasets)弹性分布式数据集RDD不存储真正的数据，知识对数据和操作的描述RDD默认放在内存中，当内存不足时，自动写入磁盘特性一系列的分区（分片）信息，每个任务处理一个分区每个分区上都

2020-08-05 15:20:21 268

原创 Sqoop环境搭建和具体应用

Sqoop的环境搭建1，准备好sqoop-1.4.6-cdh5.14.2.tar.gzjava-json.jarmysql-connector-java-5.1.27-bin.jar2，解压安装，配置环境变量[root@hadoop151 opt]# vi /etc/profile添加以下内容export SQOOP_HOME=/opt/sqoopexport PATH=$SQOOP_HOME/bin:$PATH使生效[root@hadoop151 opt]# source /

2020-07-22 19:16:41 233

原创 SCALA集合函数大全

Array数组是一种可变的、可索引的数据集合。在 Scala 中用 Array[T] 的形式来表示 Java 中的数组形式 T[]。示例：val arr = Array(1, 2, 3, 4) // 声明一个数组对象val first = arr(0) // 读取第一个元素arr(3) = 100 // 替换第四个元素为 100val newarr = arr.map(_ * 2) // 所有元素乘 2println(newarr.mkString(",")) // 打印数组，结果为：2,4,

2020-07-20 20:10:04 417 1

原创 HIVE函数大全

数学函数Return TypeName (Signature)DescriptionDOUBLEround(DOUBLE a)Returns the rounded BIGINT value of a.返回对a四舍五入的BIGINT值DOUBLEround(DOUBLE a, INT d)Returns a rounded to d decimal places.返回DOUBLE型d的保留n位小数的DOUBLW型的近似值DOUBLEbround(DOUBLE a

2020-07-20 19:37:34 331

原创 HIVE中的UDF,UDAF,UDTF函数

使用Java实现UDF以实现string_upper(LETTER) = letter为例java端1，创建maven工程，导入相关依赖<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.1.0</version> </depende

2020-07-13 22:19:37 672

原创正则表达式，让村头的表哥流泪

正则表达式四大功能：判断、分割、替换、获取\d代表一个数字 0-9\D代表一个非数字\w代表一个字符0-9 A-Z a-z\W代表一个非字符. 代表任意一个字符\s代表一个空格\. 代表一个点() 代表字符串选择器，(abc|cde|def)[] 代表字符选择器与-| ,混用 [a-z] 代表a-z的任意一个字符 [a|b|c] [abc] [a,b,c] 代表abc三个中的一个字符{}修饰符，通常修饰前面一个正则 \d{3,4} 代表最少三个数字，最多

2020-07-13 19:16:54 243

原创 Zeppplin的安装，配置与使用

Zeppplin的安装Zeppplin的配置Zeppplin的使用

2020-07-11 16:42:33 699

原创 HIVE高级查询之CTE,MapJoin，数据排序（不得不提一下数据倾斜）,窗口函数

CTE(common table expression)with a as (select * from table1)select * from a;MapJoin小表关联大表set hive.auto.convert.join = true 默认为true，意思就是，系统会以mapjoin为优先，这样运行速度更快。loadLOAD DATA LOCAL INPATH '/home/dayongd/Downloads/employee.txt' OVERWRITE INTO TAB

2020-07-09 23:19:14 1026

原创 HIVE分区，静态分区，动态分区

为什么要分区分区可以大大提升hive的性能，这里就要提到数仓的分层第一层 ODS层原始数据层，存储原始收集的数据第二层 DWD层数仓明细层，里面做的是转换和分析，里面包含部分的数据清洗的过程第三层DWS层数仓服务层，对外业务的处理，如维度转代理键、身份证清洗、会员注册来源清晰、字段合并、空值处理、脏数据处理、IP清晰转换等；第四层ADS层最终业务层静态分区（适合做增量表，数据量大）建一个user表，里面三个字段，id，name,birth，还有一个sex字段，用来分区，初步的想法是，

2020-07-08 20:24:10 625

原创 HADOOP高可用集群搭建，实现两个namenode之间active和standby的转换

HADOOP高可用集群搭建，实现两个namenode之间active和standby的转换一，重点配置hadoop下的配置文件core-site.xml<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Licensed under the Apache License, Version 2.0 (the "Lic

2020-07-07 20:19:36 2576 1

原创 HIVE的基础知识内部表与外部表

HIVE:将结构化的数据文件映射为数据库表查询语句简便话，类SQL语言；表在hdfs中表现为文件夹准备工作(要先启动hadoop和zookeeper)[root@hadoop151 hive]# jps15105 Jps7715 NodeManager2855 QuorumPeerMain7303 DataNode7179 NameNode7455 SecondaryNameNode7599 ResourceManager启动之后应该要有的程序启动HIVE[root@hado

2020-07-07 19:44:02 615

原创 Hashmap，Hashtable,Concurrenthashmap之间的区别

Hashmap，Hashtable,Concurrenthashmap之间的区别HashMap继承了AbstractMap，他根据键的hashcode值存储数据，大多数情况下可以直接定位到它的值，因而具有很快的访问速度，但遍历的顺序不确定，而且线程不安全，就是在任意时刻可以有多个线程同时写hashmap，导致数据不一致，例如进行put操作，会导致CPU使用率接近100%。Hashmap最多只允许一条记录的键为null,允许多条记录的值为null。当数据总量没有超过8组的时候，使用数组加链表的方式来进

2020-07-05 23:13:20 414

原创 Java&SQL 测试题目答案

Java&SQL 阶段考试（满分 100 分，时长 180 分钟） Java 部分一、选择题1.以下关于 abstract 关键字的说法，正确的是（D）。 A.abstract 可以与 final 并列修饰同一个类。 B.abstract 类中不可以有 private 的成员。 C.abstract 类中必须全部是 abstract 方法。 D.abstract 方法必须在 abstract 类或接口中。2.以下方法，（B）不是对 add 方法的重载。 publicclassTest{ pu

2020-07-02 19:35:56 922

原创大数据干货，讲解Hadoop生态圈

大数据Hadoop生态圈Hadoop是目前应用最为广泛的分布式大数据处理框架，其具备可靠、高效、可伸缩等特点。Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同，各种组件相继出现，丰富Hadoop生态圈，目前生态圈结构大致如图所示：1、HDFS（分布式文件系统）HDFS采用了典型的master/slave架构设计，是整个hadoop体系的基础，负责数据的存储与管理。HDFS有着高容错性（fault-tolerant）的特点。而且它提供高吞吐量（high throughput）

2020-06-30 17:12:53 852

原创使用javaAPI对HDFS文件进行操作

1，新建文件夹 public void testMkdir() throws Exception{ Configuration conf= new Configuration(); //获取配置 FileSystem fs=FileSystem.get(new URI("hdfs://192.168.211.151:9000"),conf,"root"); //获取文件系统 fs.mkdirs(new Path("/user/java"));

2020-06-30 16:18:58 630

原创用VMware Workstation Pro 软件安装CentOS 7版本的linux系统

用VMware Workstation Pro 软件安装CentOS 7版本的liunx系统1，准备好wm文件和centos7的镜像文件CentOS-7-x86_64-DVD-1908.isoVMware-workstation-full-15.5.1上面两个文件百度即可2，点击新建虚拟机3，选择典型，推荐，下一步即可4，选择稍后安装操作一同，下一步5，选择你要安装的系统和版本，这里选linux和centos7 64位6，自定义虚拟机的名称和位置7，选择磁盘大小为32（建议），选

2020-06-28 22:15:20 345

原创 Linux系统中进行基于Hadoop的Hive的安装配置调试

基于Hadoop的Hive的安装与配置hive的定义与作用定义Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。作用1.）直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大2.）操作接口采用类SQL语法，提供快速开发的能力。避免了去写MapReduce，减少开发人员的学习成本。hive的安装配置与调试前面需要安装配置好hadoop和hbase,可至下方连接查询

2020-06-28 21:09:22 3687

原创 Linux系统中对ZooKeeper和Hbase的安装与配置

在hadoop集群中对ZooKeeper和Hbase的安装与配置前置需要安装配置好hadoophadoop的安装与配置传送门zookeeper的定义与作用.zk的作用分布协调服务，解决分布式服务在工作时产生的问题1)竞态条件 //多个主机同时对一个文件进行操作，俗称抢资源2)死锁： //多个主机互相等待对方完成3)不一致性： //资源文件丢失或者主机宕机hadoop的namenode的高可用,也就是在多namenode 情况下,对namenode 管理节点的ac

2020-06-28 14:05:39 1177

原创 Linux系统中进行Hadoop的安装与配置和集群的搭建，Hadoop的定义与作用

Hadoop的安装与配置和集群的搭建，Hadoop的定义与作用Hadoop的定义与作用hadoop是什么?Hadoop是一种分析和处理大数据的软件平台，是Appach的一个用Java语言所实现的开源软件的框架，在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。HDFS（Hadoop Distributed File System）：Hadoop的

2020-06-25 23:53:12 1165

原创如何配置JDBC使连接上数据库

什么是jdbcJDBC（JavaDataBase Connectivity）就是Java数据库连接，是用Java语言来操作数据库。原来我们操作数据库是在控制台使用SQL语句来操作数据库，JDBC是用Java语言向数据库发送SQL语句。由SUN公司提供一套访问数据库的规范（就是一组接口），并提供连接数据库的协议标准，然后各个数据库厂商会遵循SUN的规范提供一套访问自己公司的数据库服务器的API出现。SUN提供的规范命名为JDBC，而各个厂商提供的，遵循了JDBC规范的，可以访问自己数据库的API被称之为驱

2020-06-24 14:12:59 771

原创 Hadoop中DataNode没有启动的原因和解决办法

Hadoop中DataNode没有启动的原因和解决办法原因由于多次进行格式化命令操作导致，namenode被格式化，现在需要复原hadoop namenode -format解决办法1，进入hadoop寻找log日志[root@promote logs]# cd /opt/hadoop/logs进入这个log文件，拉到底部，找第一个CID，复制2，打开文件 ,此tmp文件为配置core-site.xml时自己建立的临时文件目录hadoop.tmp.dir[root@promote

2020-06-24 11:45:07 2152 1

原创关于用Elasticsearch进行文档管理的的补充

关于用Elasticsearch进行文档管理的的补充ES数据模型文档（Document）管理文件是ES最小数据单元原始数据：_source:原始JSON格式文档文档元数据：_index:索引名_type 索引类型_id 文档编号_version 文档版本号索引的创建PUT demo.12 //索引名{ "settings" : { "index" : { "number_of_shards" : 2,

2020-06-23 19:42:17 344

原创 shell的基础语法和常用脚本

shell的基础语法和常用脚本Shell 是一个用 C 语言编写的程序，它是用户使用 Linux 的桥梁。Shell 既是一种命令语言，又是一种程序设计语言。Shell 是指一种应用程序，这个应用程序提供了一个界面，用户通过这个界面访问操作系统内核的服务。Linux 的 Shell 种类众多，常见的有：Bourne Shell（/usr/bin/sh或/bin/sh）Bourne Again Shell（/bin/bash）C Shell（/usr/bin/csh）K Shell（/usr/b

2020-06-22 20:18:07 247

原创异常的结构，常见异常以及对异常的处理方法

什么是异常

2020-06-21 16:06:41 418

原创 Linux系统中进行ELK集群搭建的常出现的问题及处理方法

ELK集群搭建的常出现的问题#下面盘点一下集群搭建过程中常见的错误1，报错显示：加不进去，相同的id但是不是同一个节点原因：虚拟机时复制的，所有节点数据也会被复制过来，所以需要在elasticsearch中把节点数据清空rm -rf logsrm -rf dataelk集群的搭建，点击下方连接https://blog.csdn.net/yanglitian_123/article/details/106856748elk集群的搭建...

2020-06-21 15:45:14 516

原创 ELK(Elasticsearch,Logstash,Kibana)的安装配置及ELK集群的搭建什么是ELK

ELK(Elasticsearch,Logstash,Kibana)的安装配置及ELK集群的搭建什么是ELKE：Elasticsearch 是一个开源的分布式搜索引擎，它的特点是：分布式，零配置，自动发现，索引自动分布，索引副本机制，多数据源，自动搜索负载等。L:Logstash 是一个开源工具，可以对你的日志进行收集，过滤，并将其存储供以后使用。K：Kibana 是一个开源和免费的工具，为Logstash和Elasticsearch提供的日志在web中可视化展现出来，可以帮助汇总，分析和搜索重要

2020-06-19 17:38:06 1577 1

Linux环境安装及tomcat/jdk/MySQL安装视频.mp4

空空如也