2019年10月_唉.

原创 MongoDB实际应用——将CSV文件导入到MongoDB

最近本人在学习Flink，Flink官网给我们提供了一些Connectors，这给我们提供了很多的便利。一个实践性的应用就是使用MongoDB作为数据源，MySQL作为Sink进行操作，这样的话我们就需要将一些数据导入到MongoDB数据库中。1.表头就是字段名2.注意如果导入乱码的话，就先把数据导入到sqlserver，再从sqlserver导出，导出注意数字类型长于15的列需要设置为文...

2019-10-28 15:05:59 1283

原创 MongoDB(二)——高级应用

文章目录四、聚合和管道1、聚合aggregate2、常用管道2.1、$group2.2、$match2.3、$project2.4、$sort2.5、$limit 和 $skip2.6、$unwind五、创建索引四、聚合和管道1、聚合aggregatedb.collection.aggregate({管道:{表达式}})2、常用管道表达式：2.1、$group$group ...

2019-10-28 09:35:27 314

文章目录一、CRUD1、数据库操作2、数据类型3、插入4、保存5、查询6、更新7、更新二、高级查询1、数据查询2、比较运算符3、范围运算符4、逻辑运算符5、支持正则表达式6、limit和skip7、自定义查询8、投影9、排序10、统计11、消除重复三、数据备份和恢复MongoDB作为一种非关系型数据库在实际开发中也有着重要的作用，如爬虫，因为爬虫爬取下来的数据的数据类型和每条数据的属性都是不尽相...

2019-10-28 09:34:44 325

原创 Flink——Sink

文章目录KafkaRedisElasticSearchFlink没有类似Spark中foreach方法，让用户进行迭代的操作。虽有对外输出操作都要利用SInk完成。最后通过类似如下方式完成整个任务最终输出操作。 myDstream.addSink(new MySink(xxxx))官方提供了一部分的框架的Sink，初次之外需要用户自定义实现Sink。本项目所有代码上传到https://...

2019-10-24 18:17:26 532

原创 Flink详细介绍(三)

文章目录五、Time和Window5.1、Time5.2、Window1、概述2、Window类型5.3、Window API1、CountWindow2、TimeWindow3、Window Reduce4、Window Fold5、Aggregation on Window六、EventTime与Window6.1、EventTime的引入6.2、Watermark1、概念2、Watermar...

2019-10-19 10:26:49 1288

原创 Flink详细介绍(二)

文章目录四、Flink DataStream API4.1、Flink运行模型4.2、Flink程序架构4.3、Environment4.3.1、StreamExecutionEnvironment.getExecutionEnvironment4.3.2、StreamExecutionEnvironment.createLocalEnvironment4.3.3、StreamExecutionE...

2019-10-18 17:39:11 2418

原创 Flink详细介绍(一)

文章目录一、概述1.1、流处理技术的演变1.2、初识Flink1.3、Flink核心计算框架二、Flink基本架构2.1、JobManager和TaskManager2.2、无界数据流和有界数据流2.3、数据流编程模型三、Flink运行架构3.1、任务提交流程3.2、TaskManager与Slots3.3、DataFlow3.3、并行数据流3.5、task和operator chains3.6、...

2019-10-18 17:38:46 58097 2

原创流式处理术语解释：Exactly-once与Effectively-once

分布式事件处理现在已经逐渐成为大数据领域的热点话题，主要使用的流处理引擎包括Storm、Flink、Spark(Spark Streaming)、HERON等等。其中“严格一次(Exactly-once)”是很多引擎追求的目标之一，很多引擎宣称可以提供“严格一次”的处理语义。但是“严格一次”具体指的是什么，需要具备哪些能力，当SPE宣称可以支持时这实际上意味着什么对于这些问题还有很多歧义和误导。...

2019-10-11 13:49:41 563

原创 Flink-Core高级篇

文章目录1、DataStream转换<1>、映射<2>、FlatMap<3>、Filter<4>、KeyBy<5>、Reduce<6>、折叠<7>、聚合<8>、Window<9>、WindowAll<10>、WindowApply<11>、WindowReduce&l...

2019-10-06 16:14:25 3007

原创 Flink-Core基础篇

文章目录1、基于文件(1)、readTextFile(path)- TextInputFormat(2)、readFile(fileInputFormat, path)(3)、(fileInputFormat, path, watchType, interval, pathFilter, typeInfo)2、插座为基础socketTextStream3、基于集合(1)、fromCollectio...

2019-10-06 11:06:26 1345

原创 Linux文件删除恢复(rm -rf *)

在操作集群的搭建和配置过程中，在这过程当中有一丝丝困意，本想删除一个文件但是没想到回到了家目录然后使用了rm -rf命令，当时瞬间清醒，让我很懵。然后就去搜索各种恢复资料。在这里和大家简单分享一下文件删除后该如何恢复：如果文件是刚刚删除的，那么我们可以使用lsof命令:lsof |grep data.file1cp /proc/xxx/xxx/xx /dir/data.file1文件...

2019-10-05 16:18:42 5787 2

原创 Flink集群部署

文章目录1、Standalone Cluster2、Flink On Yarn学习大数据搭建一个集群是必不可少的，那么下面就来简要介绍一下如何搭建一个Flink集群。local模式的集群一般是用来本地测试的，搭建起来也是很简单的在官网下载需要的安装包之后不需要修改任何配置就可以启动使用。在这里也不过过多的介绍了。1、Standalone Cluster首先下载我们需要的flink包并解压...

2019-10-04 12:17:51 430

原创 Flink入门demo

文章目录1、流处理实现WordCount-Java2、流处理实现WordCount-Scala3、批处理实现WordCount-Java4、批处理实现WordCount-Scala5、Streaming和Batch的区别专栏的上一篇文章已经简单介绍了Flink的一些基础知识和概念，现在我们来使用Flink实现一个大数据入门普遍使用的案例-WordCount。。Flink支持流处理同时也支持批处...

2019-10-04 12:17:38 1525

原创 IDEA can not download source问题

IDEA can not download source问题有时候IDEA无法下载源代码的问题：这个时候我们可以在IDEA的Terminal的项目根目录下，执行如下命令下载： mvn dependency:resolve -Dclassifier=sources...

2019-10-03 20:59:32 412

原创 Flink初识

文章目录1、Flink的技术特点2、Flink生态圈和基本架构3、Flink基本组件4、Flink和其他实时计算引擎对比Storm、Spark Streaming和Flink是现在主流的分布式实时处理框架，Spark Streaming在之前的文章中已经有了介绍。现在本人正在学习研究Flink，因此对Flink做一些简单的介绍。今天的这篇文章主要对Flink做一些简单的介绍。1、Flink的...

2019-10-03 19:25:51 489

weixin_44240370的博客