- 博客(96)
- 收藏
- 关注
原创 Flume: ------ Avro Source、Exec Source、Taildir Source、Kafka Source等
Source-输⼊源Avro Source创建 example2.properties文本# 声明基本组件 Source Channel Sink example2.propertiesa1.sources = s1a1.sinks = sk1a1.channels = c1# 配置Source组件,从Socket中接收⽂本数据a1.sources.s1.type = avro...
2020-05-06 11:16:30
342
原创 Flume: ------ 概述架构、安装、快速入门案例
Apache FlumeFlume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单的可扩展数据模型,允许在线分析应用程序。...
2020-05-05 20:53:54
220
原创 Hive: ------ Hive On Hbase、UDF、UDTF、UDAF
Apache Hive概述Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive (1.x版本)查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为提交到Hadoop 集群上,Had...
2020-04-24 17:03:21
444
原创 Hive: ------ SQL查询、开窗函数、Cube等
分析查询数据筹备7369,SMITH,CLERK,7902,1980-12-17 00:00:00,800,\N,207499,ALLEN,SALESMAN,7698,1981-02-20 00:00:00,1600,300,307521,WARD,SALESMAN,7698,1981-02-22 00:00:00,1250,500,307566,JONES,MANAGER,7839,1...
2020-04-24 17:01:08
336
原创 Hive: ------ DDL、Table管理、DML
DDL操作Database查看数据库0: jdbc:hive2://CentOS:10000> show databases;+----------------+--+| database_name |+----------------+--+| default || test |+----------------+--+2 row...
2020-04-24 13:23:17
172
原创 Hive: ------ 表操作、JDBC访问Hive
表操作Hive支持原始数据类型和复杂类型,原始类型包括数值型,Boolean,字符串,时间戳。复杂类型包括数组,map,struct。下面是Hive数据类型的一个总结:原始类型类型描述字面量示例BOOLEAN布尔值,可选值true/falsetrueTINYINT1字节的有符号整数 -128~1271YSMALLINT2个字节的有符号整数,-327...
2020-04-24 13:19:32
437
原创 Hive: ------ 概述、安装
Apache Hive概述Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。 Hive (1.x版本)查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为提交到Hadoop 集群上,Had...
2020-04-24 13:03:35
181
原创 Hbase: ------ 架构原理、集群搭建。
Apache Hbase概述HBase 是一个基于Hadoop的分布式,可扩展,巨大数据仓库.当用户需要对海量数据进行实时(时效性)随机(记录级别数据)读/写,用户可以使用Hbase.Hbase设计目标是能够持有一张巨大的表,该表的规模能达到数十亿行 X 数百万列,并且可以运行在商用的硬件集群之上. Hbase是一个开源的,分布式,版本化的非关系化的数据库-NoSQL,改设计仿照了Google...
2020-04-19 19:46:06
346
原创 Hbase: ------ Shell命令、Java API、MR On Hbase 、对数据的增删改查。
Shell 命令-掌握基本命令1、打开Hbase Shell[root@CentOS hbase-1.2.4]# ./bin/hbase shellSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/usr/hadoop-2.9.2/share/hadoop/comm...
2020-04-19 17:36:00
186
原创 Hbase: ------ 概述、列存储、安装
Apache Hbase概述HBase 是一个基于Hadoop的分布式,可扩展,巨大数据仓库.当用户需要对海量数据进行实时(时效性)随机(记录级别数据)读/写,用户可以使用Hbase.Hbase设计目标是能够持有一张巨大的表,该表的规模能达到数十亿行 X 数百万列,并且可以运行在商用的硬件集群之上. Hbase是一个开源的,分布式,版本化的非关系化的数据库-NoSQL,改设计仿照了Google...
2020-04-19 17:08:48
244
原创 [编程题]数位之积vivo笔试题
[编程题]数位之积现给定任意正整数 n,请寻找并输出最小的正整数 m(m>9),使得 m 的各位(个位、十位、百位 … …)之乘积等于n,若不存在则输出 -1。输入例子1:36输出例子1:49输入例子2:100输出例子2:455import java.util.*;public class Solution { /** * 输入一个整形...
2020-04-15 22:41:25
299
原创 [编程题]手机屏幕解锁模式vivo笔试题
现有一个 3x3 规格的 Android 智能手机锁屏程序和两个正整数 m 和 n ,请计算出使用最少m 个键和最多 n个键可以解锁该屏幕的所有有效模式总数。其中有效模式是指:1、每个模式必须连接至少m个键和最多n个键;2、所有的键都必须是不同的;3、如果在模式中连接两个连续键的行通过任何其他键,则其他键必须在模式中选择,不允许跳过非选择键(如图);4、顺序相关,单键有效(这里可能跟部分...
2020-04-15 22:26:50
980
原创 kafka: ------ 数据同步机制
Kafka API实战依赖<!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka-clients --><dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients&l...
2020-04-15 19:21:11
2662
原创 Kafka: ------ 安装Kafka Eagle 可视化
Kafka-Eagle这是一个监视系统,监视您的kafka群集以及可视的使用者线程,偏移量,所有者等。当您安装Kafka Eagle时,用户可以看到当前的使用者组,对于每个组,他们正在消耗的Topic以及该组在每个主题中的偏移量,滞后,日志大小和位置。这对于了解用户从消息队列消耗的速度以及消息队列增加的速度很有用。下载地址:https://codeload.github.com/smartl...
2020-04-14 23:51:41
327
原创 Kafka: ------ Spring Boot整合Kafka 、接受数据、发送数据
- 引入依赖<parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.1.5.RELEASE</version></pa...
2020-04-14 22:02:53
2878
原创 Kafka: ------ 事务控制(生产者、中间件从topic02读取、处理后、写入topic01中、消费者)
需要导入的依赖<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.2.0</version> </dependency...
2020-04-14 16:07:50
240
原创 Kafka: ------ 事务控制、消费者隔离级别read_committed与read_uncommitted区别
导入依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.2.0</version> </dependency&...
2020-04-14 12:22:19
4929
3
原创 Kafka: ------ 开启幂等性精准一次写入
幂等性HTTP/1.1中对幂等性的定义是:一次和多次请求某一个资源对于资源本身应该具有同样的结果(网络超时等问题除外)。也就是说,其任意多次执行对资源本身所产生的影响均与一次执行的影响相同。Methods can also have the property of “idempotence” in that (aside from error or expiration issues) th...
2020-04-14 11:06:32
1833
原创 Kafka: ------ offset偏移量控制、Acks(0,1,-1)&Retries(01-1传数据安全效率区别)
导入依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.2.0</version> </dependency&...
2020-04-13 18:32:25
782
原创 Kafka: ------ 拦截器 发送元数据前提之上可以加上额外需要的消息头
pom文件需要导的依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.2.0</version> </depen...
2020-04-13 12:20:05
520
原创 Kafka: ------ 生产者、消费者、序列化、自定义分区。
Kafka API实战依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka-clients</artifactId> <version>2.2.0</version> </d...
2020-04-12 22:17:36
191
原创 Kafka: ------ 概念、架构原理(producer、consumer、topic、broker、partition)
Kafkakafka最初是Linkedin公司采用scala语言开发的一个多分区,多副本、并且基于ZooKeeper协调的分布式消息系统,现在是Apache基金会的。目前的定位是分布式流处理平台,它具有高吞吐量,低延迟、可扩展、持久性高、高容错、高并发的特点,被广泛使用。Kafka将消息持久化磁盘当中,并且对详细创建了备份保证了数据的安全特性:高吞吐量、低延迟:每秒可以处理几十万条消息...
2020-04-10 23:38:50
623
原创 Kafka: ------ 单机环境搭建、集群搭建
Apache Kafka概述Apache Kafka是Apache软件基金会的开源的流处理平台,该平台提供了消息的订阅与发布的消息队列,一般用作系统间解耦、异步通信、削峰填谷等作用。同时Kafka又提供了Kafka streaming插件包实现了实时在线流处理。相比较一些专业的流处理框架不同,Kafka Streaming计算是运行在应用端,具有简单、入门要求低、部署方便等优点。总体来说Ka...
2020-04-10 22:46:48
213
原创 hadoop: ------ 简单整理常见面试题
1、HDFS的基本架构Namenode :是整个hdfs集群的总入口,存储着hdfs集群的文件元数据(即Metadata)如:client上传文件的文件名,副本数等。DataNode :是真正用来负责存储数据的节点,一个namenode就是一个真实的物理主机Block :数据块,为了通过多个节点保存大数据集,hdfs将大数据集文件切分成了一块一块的数据块,默认大小是128M2、简述安...
2020-04-09 19:50:24
303
原创 Spark: ------ 共享变量、广播变量、计数器
共享变量当RDD中的转换算子需要用到定义Driver中地变量的时候,计算节点在运行该转换算子之前,会通过网络将Driver中定义的变量下载到计算节点。同时如果计算节点在修改了下载的变量,该修改对Driver端定义的变量不可见。scala> var i:Int=0i: Int = 0scala> sc.textFile("file:///root/t_word").foreach...
2020-04-03 23:35:47
255
原创 Spark: ------ RDD的Actions的动作算子
Spark任何一个计算任务,有且仅有一个动作算子,用于触发job的执行。将RDD中的数据写出到外围系统或者传递给Driver主程序。reduce( func )该算子能够对远程结果进行计算,然后将计算结果返回给Driver。计算文件中的字符数scala> sc.textFile("file:///root/t_word").map(_.length).reduce(_+_)r...
2020-04-03 23:22:32
181
原创 Spark: ------ RDD的xxxByKey-算子
在Spark中专门针对RDD[(K,V)]类型数据集提供了xxxByKey算子实现对RDD[(K,V)]类型针对性实现计算。groupByKey([ numPartitions ])类似于MapReduce计算模型。将RDD[(K, V)] 转换为RDD[ (K, Iterable)]scala> var lines=sc.parallelize(List("this is goo...
2020-04-03 00:18:10
164
原创 Spark: ------ RDD的Transformations转换算子
map将一个RDD[U] 转换为 RRD[T]类型。在转换的时候需要用户提供一个匿名函数 func: U => Tscala> var rdd:RDD[String]=sc.makeRDD(List("a","b","c","a"))rdd: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[120] at make...
2020-04-02 18:17:06
180
原创 Spark: ------ RDD的概述、容错、缓存、宽窄依赖。
RDD概述Spark计算中一个重要的概念就是可以跨越多个节点的可伸缩分布式数据集 RDD(resilient distributeddataset) Spark的内存计算的核心就是RDD的并行计算。RDD可以理解是一个弹性的,分布式、不可变的、带有分区的数据集合,所谓的Spark的批处理,实际上就是正对RDD的集合操作,RDD有以下特点:...
2020-04-01 13:40:32
316
原创 Spark:------ 架构概述、环境配置测试、wordCount案例
背景介绍Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG 任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。MapReduce VS SparkMapReduce作为第一代大数据处理框架,在设计初期只...
2020-04-01 11:57:54
255
原创 用户综合分析系统: ------ 责任链模式
一、模式的定义与特点责任链(Chain of Responsibility)模式的定义:为了避免请求发送者与多个请求处理者耦合在一起,将所有请求的处理者通过前一对象记住其下一个对象的引用而连成一条链;当有请求发生时,可将请求沿着这条链传递,直到有对象处理它为止。注意:责任链模式也叫职责链模式。在责任链模式中,客户只需要将请求发送到责任链上即可,无须关心请求的处理细节和请求的传递过程,所以责...
2020-03-31 23:07:43
187
原创 用户综合分析系统: ------ RestTemplate单元测试
RestTemplateRestTemplate是Spring提供的用于访问Rest服务的客户端,RestTemplate提供了多种便捷访问远程Http服务的方法,能够大大提高客户端的编写效率。UserModelRestApplicationimport org.mybatis.spring.annotation.MapperScan;import org.mybatis.spring.a...
2020-03-30 23:17:01
308
原创 用户综合分析系统: ------ 拦截器
判断用户是否登录拦截器定义类(第一种)package com.baizhi.interceptors;import org.springframework.context.annotation.Bean;import org.springframework.context.annotation.Configuration;import org.springframework.web.se...
2020-03-30 22:25:31
114
原创 FastDFS集群搭建、Nginx集成FastDFS、FastDHT文件去重、集成FastDHT、SpringBoot集成FastDFS
资源下载安装1.安装依赖包libfastcommonV1.0.35.tar.gz
2020-03-29 12:13:52
485
原创 用户综合分析系统: ------ SpringBoot集成MySql读写分离
添加依赖<parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.1.5.RELEASE</version><...
2020-03-29 11:55:40
213
原创 用户综合分析系统: ------ MySql安装、主从复制、读写分离
环境准备1、卸载mariadb,否则安装mysql会出现冲突2、执行命令rpm -qa | grep mariadb3、列出所有被安装的mariadb rpm 包;4、执行命令rpm -e --nodeps mariadb-libs-5.5.56-2.el7.x86_64本地安装#执行本地安装包之前必须先安装vimyum install -y vim安装步骤获取安装包上传li...
2020-03-29 11:37:02
133
原创 用户综合分析系统: ------ springboot+redis实现二级缓存
导入一下依赖<!--Spring Redis RedisAutoConfiguration--><dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-redis</artifactId>...
2020-03-29 10:06:30
172
原创 用户综合分析系统: ------ 导出查询的表单文件
判断用户是否登录拦截器定义类package com.baizhi.interceptors;import org.springframework.context.annotation.Bean;import org.springframework.context.annotation.Configuration;import org.springframework.web.servlet...
2020-03-27 14:46:35
112
原创 EasyUi 用户名,远程校验是否已经存在.密码两次比对,限定文件上传类型,及完整登录注册页面
远程校验用户名是否存在UserDao接口根据用户名查询 返回数量int queryCountByUserName(String name);mapper/UserDao.xml<select id="queryCountByUserName" resultType="int"> select count(id) from t_user where name=#...
2020-03-26 14:22:58
390
原创 EasyUi 头页面显示当前用户、实时时间、退出
效果图引入插件plugin.js$.fn.extend({ sessionUser:function(options){ var defaultOptions={ url:"/UserEasyUi/formUser/sessionUser" } options=$.extend(defaultOptions,o...
2020-03-26 13:36:23
441
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅