2019年12月_000X000

12月 11月 10月 09月 07月 06月 05月 04月 03月 02月 01月

原创如何在 Flink 1.9 中使用 Hive？

Flink on Hive 介绍SQL 是大数据领域中的重要应用场景，为了完善 Flink 的生态，发掘 Flink 在批处理方面的潜力，我们决定增强 FlinkSQL 的功能，从而让用户能够通过 Flink 完成更多的任务。Hive 是大数据领域最早出现的 SQL 引擎，发展至今有着丰富的功能和广泛的用户基础。之后出现的 SQL 引擎，如 Spark SQL、Impala 等，都在一定程...

2019-12-30 16:57:06 170

原创 Flink在快手的应用实践

本次的分享包括以下三个部分：介绍 Flink 在快手的应用场景以及目前规模；介绍 Flink 在落地过程的技术演进过程；讨论 Flink 在快手的未来计划。一．Flink 在快手应用场景与规模1. Flink 在快手应用场景快手计算链路是从 DB/Binlog 以及 WebService Log 实时入到 Kafka 中，然后接入 Flink 做实时计算，其中包括实时 E...

2019-12-30 16:49:26 222

原创 Python批量管理主机

18.1 paramikoparamiko模块是基于Python实现的SSH远程安全连接，用于SSH远程执行命令、文件传输等功能。默认Python没有，需要手动安装：pip install paramiko如安装失败，可以尝试yum安装：yum install python-paramiko18.1.1 SSH密码认证远程执行命令#!/usr/bin/python# -*-...

2019-12-26 10:21:39 343

原创 Shell文本处理三剑客之sed

本章大纲：7.2sed流编辑器，过滤和替换文本。工作原理：sed命令将当前处理的行读入模式空间进行处理，处理完把结果输出，并清空模式空间。然后再将下一行读入模式空间进行处理输出，以此类推，直到最后一行。还有一个空间叫保持空间，又称暂存空间，可以暂时存放一些处理的数据，但不能直接输出，只能放到模式空间输出。这两个空间其实就是在内存中初始化的一个内存区域，存放正在处理的数据和临时...

2019-12-26 09:55:27 289

原创 Shell文本处理三剑客之awk

本章大纲：8.3 awkawk是一个处理文本的编程语言工具，能用简短的程序处理标准输入或文件、数据排序、计算以及生成报表等等。在Linux系统下默认awk是gawk，它是awk的GNU版本。可以通过命令查看应用的版本：ls -l /bin/awk基本的命令语法：awk option 'pattern {action}' file其中pattern表示AWK在数据中查找的内容...

2019-12-26 09:53:31 257

原创 Shell信号发送与捕捉

9.1 Linux信号类型信号（Signal）：信号是在软件层次上对中断机制的一种模拟，通过给一个进程发送信号，执行相应的处理函数。进程可以通过三种方式来响应一个信号：1）忽略信号，即对信号不做任何处理，其中有两个信号不能忽略：SIGKILL及SIGSTOP。2）捕捉信号。3）执行缺省操作，Linux对每种信号都规定了默认操作。Linux究竟采用上述三种方式的哪一个来响应信...

2019-12-26 09:50:38 205

原创 Shell编程时常用的系统文件

10.1 Linux系统目录结构 / 根目录，所有文件的第一级目录 /home 普通用户家目录 /root 超级用户家目录 /usr 用户命令、应用程序等目录 /var 应用数据、日志等目录 ...

2019-12-26 09:47:52 135

原创 Shell常用命令与工具（二）

本章涉及命令如下：11.31 wget功能：非交互式网络下载，类似于HTTP客户端常用选项：-b, --background 后台运行日志记录和输入文件：-o, --output-file=FILE 日志写到文件-a,--append-output=FILE 日志追加到文件-d, --debug ...

2019-12-26 09:45:59 456

原创 Shell常用命令与工具（一）

本章内容如下：11.1 ls功能：列出目录内容常用选项：-a 显示所有文件，包括隐藏的-l 长格式列出信息-i 显示文件inode号-t 按修改时间排序-r 按修改时间倒序排序示例：按修改时间排序：# ls -t按修改时间倒序排序：# ls -rt长格式列出：# ls -l查看文件inode：# ls -i file11.2...

2019-12-26 09:44:28 349

原创 MySQL 8.0 学习笔记

新的更安全更快的的认证方式密码管理5.7中无密码管理新增三个密码管理相关配置项 1 2 3 4 5 password_histroy=3 (不能和最近三次使用过的密码相同) password_reuse_interval=90 (不能和最近90天使用过的密码相同) password_r...

2019-12-25 10:05:03 158

KafkaKafka是最初由Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务等等，用scala语言编写，Li...

2019-12-22 19:28:40 151

原创 Kafka入门经典教程

问题导读1.Kafka独特设计在什么地方？2.Kafka如何搭建及创建topic、发送消息、消费消息？3.如何书写Kafka程序？4.数据传输的事务定义有哪三种？5.Kafka判断一个节点是否活着有哪两个条件？6.producer是否直接将数据发送到broker的leader(主节点)？7.Kafa consumer是否可以消费指定分区消息？8.Kafka消息是采用Pull模式，还是Push模式？...

2019-12-22 18:55:42 75

原创 kafka分区设计原则

kafka分区的目的是为了让数据均衡分区，消费起来更加的均衡。因此我们设计可以根据机器的个人和数据分类来考虑设计分区。比如数据有几个类，我们可以设计topic有几个分区。在我们设计了分区后，如果有充足的机器，我们可以在多设计几个分区，让效率更高。比如我们爬虫怕数据，传递到kakfa我们可以根据房子的类型来设计kakfa的topic分区分区：公寓，商品房，民房等。可...

2019-12-20 21:05:38 1079

原创 Hadoop Spark Flink 比较

1. Hadoop vs Spark vs Flink - 数据处理Hadoop：Apache Hadoop专为批处理而构建。它需要输入中的大数据集，同时处理它并产生结果。批处理在处理大量数据时非常有效。由于数据的大小和系统的计算能力，输出会产生延迟。Spark：Apache Spark也是Hadoop Ecosystem的一部分。它也是一个批量处理系统，但它也支持流处理。Flink...

2019-12-20 20:57:22 2391

原创 Apache Flink SQL 详解与实践

问题导读1.为何会有Flink SQL？2.本文哪些地方涉及Flink 1.7？4.如何定义源（sources ）和接收器（sinks）？5.Flink SQL本文介绍了哪些sql？6.将数据格式化为正确的格式以便进一步处理？7.如何监控Flink sql查询8.使用Flink SQL中的视图的作用是什么？9.本文使用Flink sql实现了什么案例？虽然Flink SQL最初于2016年8月...

2019-12-19 20:06:30 369

原创 Apache Flink 如何管理Kafka消费者offsets

问题导读1.Flink与kafka一起如何做Checkpointing ？2.发生故障，Flink如何恢复的？3.Kafka consumer offsets存储在什么位置？下面一些词简单解释：1.检查点对应Checkpointing2.主题对应Topic3.Job对应工作######################在我们这篇文章中，我们将逐步说明Apache Flink如何与Apa...

2019-12-19 19:59:02 1938

原创 Apache Flink 窗口生命周期、Keyed和非Keyed及分配器诠释

问题导读1.窗口是什么时候开始创建的？2.窗口删除是什么时候？3.如何延迟窗口删除？4.Keyed和Non-Keyed Windows有什么不同？5.在所有的窗口中，哪一个窗口是不基于时间的？前面介绍了窗口的一些操作，这里介绍窗口的一些机制。Windows是处理无界流的核心。 Windows将流拆分为有限大小的“桶”，我们可以在其上应用计算。本文介绍窗口生命周期、Keyed和Non-Keye...

2019-12-19 16:02:34 783

原创 Apache Flink 数据流Transformations窗口及相关操作

问题导读1.为何产生window窗口计算？2.你认为什么情况下使用Window Apply？3.Window Fold可以用来做什么？4.window 流是否可以union和join？5.DataStream是否可以split？这篇文章，主要讲windows，那么我们思考为什么会产生windows？我们前面流式处理，一条条消息处理不行吗？可以的。不过有些场景使用窗口更加适合，比如我们...

2019-12-19 15:51:56 189

原创 Apache Flink 使用DataStream API进行数据处理

问题导读1.流处理和批处理分别入口是什么？2.对于本地和远程运行程序，都可以使用哪个函数？3.Flink数据源分为哪两类？4.Flink DataStream和DataSet source都是基于什么格式？5.Flink中kafka source是否为自定义？执行环境为了开始编写Flink程序，我们首先根据自己的需要，可以获得现有的或创建一个执行环境（executionenvironment）。 ...

2019-12-19 15:40:46 811

原创 Apache Flink 最全最详细集群安装

问题导读1.ssh安装需要注意什么问题？2.Flink集群配置文件是哪个？3.Flink常用配置参数的含义是什么？4.如何具体配置某个taskmanager的内存？5.如何指定taskmanager？6.如何指定nodemanager？7.如何启动集群？集群安装模式设置Flink集群也非常简单。那些有安装Hadoop集群背景的人来说会非常容易。为了规划集群，我们假设我们有三台Linux机...

2019-12-19 15:31:44 509

原创 Apache Flink Checkpoint 应用实践

Checkpoint 与 state 的关系Checkpoint 是从 source 触发到下游所有节点完成的一次全局操作。下图可以有一个对 Checkpoint 的直观感受，红框里面可以看到一共触发了 569K 次 Checkpoint，然后全部都成功完成，没有 fail 的。state 其实就是 Checkpoint 所做的主要持久化备份的主要数据，看下图的具体数据统计，其 sta...

2019-12-19 15:26:21 123

原创 Flink分布式执行包括调度、通信机制、检查点

Flink的分布式执行包括两个重要的进程，master和worker。执行Flink程序时，多个进程参与执行，即作业管理器（Job Manager），任务管理器（Task Manager）和作业客户端（Job Client）。Flink程序需要提交给Job Client。然后，Job Client将作业提交给Job Manager。 Job Manager负责协调资源分配和作业执行。它首先要...

2019-12-18 15:14:14 404

原创实时数仓建设项目概述

数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务，数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面全面分享关于数仓的详细内容。1. 数据仓库简介数据仓库是一个面向主题的（Subject Oriented）、集成的（Integrate）、相对稳定的（Non-Volatile）...

2019-12-17 15:59:55 757

转载 Apache Flink 实战JAVA用例：使用 SQL 读取 Kafka 并写入 MySQL

SqlSubmit 的实现笔者一开始是想用 SQL Client 来贯穿整个演示环节，但可惜 1.9 版本 SQL CLI 还不支持处理 CREATE TABLE 语句。所以笔者就只好自己写了个简单的提交脚本。后来想想，也挺好的，可以让听众同时了解如何通过 SQL 的方式，和编程的方式使用 Flink SQL。SqlSubmit 的主要任务是执行和提交一个 SQL 文件，实现非常简单，就是...

2019-12-17 15:55:02 1995

原创 Apache Flink 连接并使用 Hive

Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能，用户可以通过 Flink 来访问 Hive 的元数据，以及读写 Hive 中的表。本文将主要从项目的设计架构、最新进展、使用说明等方面来介绍这一功能。Flink onHive 介绍SQL 是大数据领域中的重要应用场景，为了完善 Flink 的生态，发掘 Flink 在批处理方面的潜力，我们决定增强 Flin...

2019-12-17 15:48:08 885

原创 Apache Flink Flink Time & Window 解析

一、Window & Time 介绍Apache Flink（以下简称 Flink）是一个天然支持无限流数据处理的分布式计算框架，在 Flink 中 Window 可以将无限流切分成有限流，是处理有限流的核心组件，现在 Flink 中 Window 可以是时间驱动的（Time Window），也可以是数据驱动的（Count Window）。下面的代码是在 Flink 中使...

2019-12-17 15:44:50 114

原创 Apache Flink DataStream API 编程

1. 流处理基本概念对于什么是流处理，从不同的角度有不同的定义。其实流处理与批处理这两个概念是对立统一的，它们的关系有点类似于对于 Java 中的 ArrayList 中的元素，是直接看作一个有限数据集并用下标去访问，还是用迭代器去访问。图1. 左图硬币分类器。硬币分类器也可以看作一个流处理系统，用于硬币分类的各部分组件提前串联在一起，硬币不断进入系统，并最终被输出到不同的队列中供后续...

2019-12-17 11:36:39 116

原创 Apache Flink 开发环境搭建和应用的配置、部署及运行

一、Flink开发环境部署和配置Flink 是一个以 Java 及 Scala 作为开发语言的开源大数据项目，代码开源在 GitHub 上，并使用 Maven 来编译和构建项目。对于大部分使用 Flink 的同学来说，Java、Maven 和 Git 这三个工具是必不可少的，另外一个强大的 IDE 有助于我们更快的阅读代码、开发新功能以及修复 Bug。因为篇幅所限，我们不会详述每个工具的安装...

2019-12-17 11:27:25 799

原创 Apache Flink 基础概念解析

一、Apache Flink的定义、架构及原理Apache Flink是一个分布式大数据处理引擎，可对有限数据流和无限数据流进行有状态或无状态的计算，能够部署在各种集群环境，对各种规模大小的数据进行快速计算。1. Flink Application了解Flink应用开发需要先理解Flink的Streams、State、Time等基础处理语义以及Flink兼顾灵活性和方便性的...

2019-12-17 10:45:36 209 1

原创 Apache Flink SQL概览

Apache Flink SQL Job的组成我们做任何数据计算都离不开读取原始数据，计算逻辑和写入计算结果数据三部分，当然基于Apache Flink SQL编写的计算Job也离不开这个三部分，如下所所示：如上所示，一个完整的Apache Flink SQL Job 由如下三部分：·Source Operator – Soruce operator是对外部数据源的抽象, 目前A...

2019-12-17 10:12:25 560

原创流计算框架 Flink 与 Storm 的性能对比

概述: 将分布式实时计算框架 Flink 与 Storm 进行性能对比，为实时计算平台和业务提供数据参考。一. 背景Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm（以下简称“Storm”）在美团点评实时计算业务中已有较为成熟的运用（可参考 Storm 的可靠性保证测试），有管理平台、常用 API 和相应的文...

2019-12-17 10:09:22 134

原创 Flink实时计算性能分析

本文从数据传输和数据可靠性的角度出发，对比测试了Storm与Flink在流处理上的性能，并对测试结果进行分析，给出在使用Flink时提高性能的建议。Apache Storm、Apache Spark和Apache Flink都是开源社区中非常活跃的分布式计算平台，在很多公司可能同时使用着其中两种甚至三种。对于实时计算来说，Storm与Flink的底层计算引擎是基于流的，本质上是一条一条的数...

2019-12-17 10:00:15 375

原创排名前5位的企业ETL工具

随着数据量的不断增长，企业对用于高级分析的数据仓库项目和系统的需求不断增长。ETL是它们的基本要素。它确保在各种数据库和应用程序中成功进行数据集成。在此ETL工具比较中，我们将研究：Apache NiFi Apache StreamSets Apache Airflow AWS数据管道 AWS胶水它们是2019年最受欢迎的ETL工具之一。让我们比较优缺点，以找到适合您项目的最佳解...

2019-12-13 14:50:03 2593

Flume 抽取MYSQL Oracle数据 JSON格式推送Kafka

Flume二次开发，支持抽取MYSQL Oracle数据库数据以JSON格式推送至Kafka。 demo： sql_json.sources.sql_source.type = com.hbn.rdb.source.SQLSource sql_json.sources.sql_source.connectionurl = jdbc:oracle:thin:@IP:PORT/orcl sql_json.sources.sql_source.driverclass= oracle.jdbc.driver.OracleDriver sql_json.sources.sql_source.filename = sqlSource.status sql_json.sources.sql_source.customquery = SELECT INTID,ID_NO FROM TEST.TEST sql_json.sources.sql_source.begin = 0 sql_json.sources.sql_source.autoincrementfield = INTID

2022-05-28

lxml_liunx_python2.7.zip

lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高 XPath，全称XML Path Language，即XML路径语言，它是一门在XML文档中查找信息的语言，它最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索 XPath的选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有我们想要定位的节点，都可以用XPath来选择.直接下载，然后放入Linux-python文件夹即可。

2021-03-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Flume 抽取MYSQL Oracle数据 JSON格式 推送Kafka

lxml_liunx_python2.7.zip

flume-ng-elasticsearch-sink-1.8.0.jar

kettle资源库表详细说明文档.xls

kettle资源库数据字典.xls

2020年中国行政区划四级街道镇标准GB-T2260（EXCEL版本）.xlsx

pentaho-hadoop-shims-cdh513-package-8.3.2019.05.00-371-dist.zip

pentaho-hadoop-shims-cdh57-package-70.2016.10.00-25-dist.zip

pentaho-hadoop-shims-cdh514-package-8.3.2019.05.00-371-dist.zip

pentaho-hadoop-shims-cdh58-package-70.2016.10.00-25-dist.zip

Araxis Merge v6.5 NSIS文本对比.rar

xdown-1.0.1.4.zip

z501_touchpad_win7.rar

influxdb_demo.zip

KeyFreeze键盘鼠标上锁工具

GitHub Windows版本 客户端

raidrive-1-8-0版本网盘映射到本地磁盘工具

空空如也

Flume 抽取MYSQL Oracle数据 JSON格式推送Kafka

GitHub Windows版本客户端