A叶子叶
大数据平台、数据仓库、数据分析/挖掘、应用开发、深度学习、爬虫
展开
-
kafka实践(十七): Logi-KafkaManager研究
跟vue类似,react的前端请求由proxy代理和请求路径组成,在api模块把请求路径封装成方法名,比如/api/v1/normal/clusters/的get方法,webpack和api中定义如下://webpack中 proxy: { '/api/v1/': { // target: 'http://127.0.0.1:8080', target: 'http://10.179.37.199:8008', // target:原创 2021-09-06 17:11:23 · 863 阅读 · 0 评论 -
流式数据采集和计算(二十一):Spark Streaming的流应用开发
目录Spark Streaming开发Maven快捷键任务提交开发案列代码Structured StreamingSpark Streaming开发IDEA作为常用的开发工具使用maven进行依赖包的统一管理,配置Scala的开发环境,进行Spark Streaming的API开发;下载并破解IDEA,并加入汉化的包到lib,重启生效;在IDEA中导入离线的Scala插件:需要确保当前win主机上已经下载安装Scala并设置环境变量,首先下载IDEA的Scala插件,无须解压,然原创 2021-04-01 11:26:21 · 6321 阅读 · 0 评论 -
流式数据采集和计算(二十):Spark Streaming同Kafka交互
目录Dstream创建KafkaUtils.createDstream方式位置策略消费策略Dstream创建关于SparkStreaming实时计算框架实时地读取kafka中的数据然后进行计算,在spark1.3版本后kafkaUtils提供两种Dstream创建方法,一种为KafkaUtils.createDstream,另一种为KafkaUtils.createDirectStream。KafkaUtils.createDstream方式其构造函数为KafkaUtils.原创 2021-04-01 11:22:48 · 6137 阅读 · 2 评论 -
流式数据采集和计算(十九):使用Spark-shell进行流计算开发
目录Spark-shell流处理文件流Socket套接字流Kafka流(窗口)updateStateByKey操作Spark-shell流处理进入spark-shell后就默认获得了的SparkConext,即sc,从SparkConf对象创建StreamingContext对象,spark-shell中创建StreamingContext对象如下:scala> import org.apache.spark.streaming._scala> val ssc原创 2021-04-01 11:09:51 · 5848 阅读 · 0 评论 -
流式数据采集和计算(十八):Spark Streaming的原理与使用
Spark StreamingSpark Streaming是Spark Core扩展而来的一个高吞吐、高容错的实时处理引擎,同Storm的最大区别在于无法实现毫秒级计算,而Storm可以实现毫秒级响应,Spark Streaming实现方式是批量计算,按照时间片对stream切割形成静态数据,并且基于RDD数据集更容易做高效的容错处理。Spark Streaming的输入和输出数据源可以是多种,如下:Spark Streaming 实时读取数据并将数据分为小批量的batch,然后在spa...原创 2021-04-01 10:59:51 · 1937 阅读 · 0 评论 -
流式数据采集和计算(十七):SparkSQL与即席查询
目录Spark SQLShark和Spark SQLDataFrame和RDDDataFrame的创建RDD转换DataFrameSpark-sql即席查询Spark SQLShark和Spark SQLShark的出现,使得SQL-on-Hadoop的性能比Hive有了10-100倍的提高,但Shark的设计导致了两个问题:一是执行计划优化完全依赖于Hive,不方便添加新的优化策略 二是因为Spark是线程级并行,而MapReduce是进程级并行,因此,Sp..原创 2021-04-01 10:49:14 · 1965 阅读 · 0 评论 -
流式数据采集和计算(十六):Spark的架构设计、RDD工作原理
目录Spark的适用场景Spark概念/架构设计Spark运行流程Spark RDDRDD概念/特性RDD依赖关系RDD运行过程RDD创建RDD操作RDD持久化RDD分区Spark-shell批处理Spark的适用场景在实际应用中,大数据处理主要包括以下三个类型:复杂的批量数据处理:通常时间跨度在数十分钟到数小时之间;基于历史数据的交互式查询:通常时间跨度在数十秒到数分钟之间;基于实时数据流的数据处理:通常时间跨度在数百毫秒到数秒之间;同时存在..原创 2021-04-01 10:30:48 · 1840 阅读 · 2 评论 -
Apache Hadoop部署(四):Hive/Hbase/Storm/Spark/Flink配置
目录Hive 配置配置启动和验证问题HBase 配置配置启动和验证问题Storm 配置配置启动和验证Spark (on yarn) 配置配置启动和验证问题Flink (on yarn) 配置配置启动和验证总结Hive 配置Hive是基于Hadoop的数据仓库工具,可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理。Hive学习门槛较低,因为它提供了类似于关系数据库SQL语言的查询语言Hive QL..原创 2020-06-23 09:46:23 · 6175 阅读 · 1 评论 -
流式数据采集和计算(十一):Flink和Spark实时计算能力对比
1 Flink介绍Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台。和 Spark 类似,两者都希望提供一个统一功能的计算平台给用户,都在尝试建立一个统一的平台以运行批量,流式,交互式,图处理,机器学习等应用。 1.1部署模式Flink 集群的部署,本身不依赖 Hadoop 集群,如果用到 HDFS 或是 HBase 中的存储数据,就需要选择对应的 Hadoop ...原创 2019-10-17 16:54:21 · 6533 阅读 · 1 评论 -
流式数据采集和计算(十):Flink的DataStream学习笔记
Flink的DataStream学习笔记.. 1Flink 基础.. 3Flink特性.. 3Flink和Spark对比.. 3设计思路.. 3状态管理.. 3Flink 初探.. 4设计架构.. 4Flink on yarn. 5流程分析.. 6DataStream. 7API程序结构.. 7DataSource 8Transformati...原创 2019-08-15 17:43:21 · 11239 阅读 · 0 评论 -
流式数据采集和计算(三):Flume、Logstash、Filebeat调研报告
概述数据的价值在于把数据变成行动。这里一个非常重要的过程是数据分析。提到数据分析,大部分人首先想到的都是Hadoop、流计算、机器学习等数据加工的方式。从整个过程来看,数据分析其实包含了4个过程:采集,存储,计算,展示。大数据的数据采集工作是大数据技术中非常重要、基础的部分,具体场景使用合适的采集工具,可以大大提高效率和可靠性,并降低资源成本。Flume、Logstash和Filebeat都是...原创 2019-07-09 10:45:11 · 10316 阅读 · 0 评论 -
流式数据采集和计算(十四):Spark的部署和常见问题
Spark使用简练优雅的Scala语言编写,基于Scala提供了交互式编程体验,同时提供多种方便易用的API。Spark遵循“一个软件栈满足不同应用场景”的设计理念,逐渐形成了一套完整的生态系统(包括 Spark提供内存计算框架、SQL即席查询(Spark SQL)、流式计算(Spark Streaming)、机器学习(MLlib)、图计算(Graph X)等),Spark可以部署在yarn资源管理器上,提供一站式大数据解决方案,可以同时支持批处理、流处理、交互式查询。MapReduce计算模型延迟原创 2019-07-09 10:31:41 · 6024 阅读 · 0 评论 -
流式数据采集和计算(九):读取kafka过滤后写入kafka
需求:读取topic数据,进行json解析后,发到kafka;1、json转换类:package applog;import com.alibaba.fastjson.JSONObject;import org.apache.flink.api.java.tuple.Tuple5;/** * @Description: 解析原始消息的辅助类 * @author: yzg ...原创 2019-07-08 16:09:46 · 8238 阅读 · 2 评论 -
流式数据采集和计算(十五):基于Spark streaming的批流处理
-----读取本地打印输出val text=sc.textFile("hdfs://172.22.241.183:8020/user/spark/yzg_test.txt")sc.textFile("hdfs://172.22.241.183:8020/user/spark/yzg_test.txt").flatMap(_.split(" ")).map((_,1)).reduceByK...原创 2019-06-03 15:44:01 · 6246 阅读 · 0 评论 -
流式数据采集和计算(八):基于Flink滑动窗口的实时计算
Flink版本为1.6,任务提交后的jobgraph为:Maven 的pom文件:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-...原创 2019-06-03 15:38:52 · 8163 阅读 · 1 评论 -
流式数据采集和计算(十二):交互工具zeppelin的配置使用
zeppelin官网定义为:数据摄取、数据分析、数据可视化的前端notebook工具,配置使用比较简单,本次直接配置在CDH环境上,使用zeppelin-0.7.3版本,鉴于zeppelin-0.8.1版本配置后sparkinterper无法使用(尚未解决); 1、下载安装包,解压; 2、修改配置文件:需要修改~/zeppelin...原创 2019-05-30 15:17:18 · 7938 阅读 · 2 评论 -
流式数据采集和计算(七):基于Flink开发实例
1、监听端口、event_time、滚动窗口、wordcount;https://www.jianshu.com/p/7d524ef8143cpublic class DataStreamDemo { public static void main(String[] args) throws Exception { StreamExecutionEnvironme...原创 2019-05-24 14:27:21 · 6371 阅读 · 0 评论 -
流式数据采集和计算(五):Spark Streaming开发范例
一、使用foreach实现socket的实时读取并写入mysql中: --------------------------------import java.sql.DriverManagerimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingConte...原创 2019-01-22 16:51:16 · 5405 阅读 · 0 评论 -
流式数据采集和计算(一):Flume、Kafka、Storm基础
Flume官方guide:http://flume.apache.org/FlumeUserGuide.htmlflume是一个分布式、可靠、高可用的海量日志采集、聚合、传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。Flume的可靠性 当节点出现故障时,日志能够...原创 2018-12-16 13:11:01 · 7115 阅读 · 0 评论 -
流式数据采集和计算(二):Scala函数式编程基础
演示Demo:使用Spark处理数据:WordCount 单词计数sc.textFile("hdfs://192.168.157.11:9000/input/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect一、Scala语言基础 1、Scala是一种多范式的编程语言 支持多种方式...原创 2018-12-16 11:43:05 · 5570 阅读 · 2 评论 -
流式数据采集和计算(六):IDEA+MAVEN+Scala配置进行spark开发
一、环境配置 IDEA作为常用的开发工具使用maven进行依赖包的统一管理,配置Scala的开发环境,进行Spark Streaming的API开发; 1、下载并破解IDEA,并加入汉化的包到lib,重启生效; 2、在IDEA中导入离线的Scala插件:首先下载IDEA的Scala插件,无须解压,然后将其添加到IDEA中,具体为new---setting--plug...原创 2018-12-12 14:13:02 · 8481 阅读 · 0 评论 -
流式数据采集和计算(十三):基于CDH的Storm+Spark (on yarn 模式)集群部署
一、CDH部署环境:主机5台,普通用户stream免密; 本地yum源已配置,1、环境准备防火墙、selinux的状态disable、root免密、句柄数(每个主机上能打开的文件数)、/etc/hosts--分发(ansible工具批量分发);2、做一个CM的yum源: ① 装http的rpm包,yum -install http(打开80端口) ② CM和CDH包...原创 2018-10-13 20:05:52 · 6355 阅读 · 0 评论 -
Kafka设计与架构
一、概念 Kafka最初由Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志,消息服务等等,用scala语言编...原创 2018-04-24 10:02:13 · 5363 阅读 · 1 评论 -
流式数据采集和计算(四):Flume的概述
一、Flume的概念 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 由三部分组成:Source/Channel/Sink,Source相当于数据录入源,是生产者的角色;Chann...原创 2018-04-23 12:29:48 · 6360 阅读 · 0 评论