NiFi 在马蜂窝信息流推荐引擎中的使用及扩展

最新推荐文章于 2023-12-31 01:34:00 发布

马蜂窝技术

最新推荐文章于 2023-12-31 01:34:00 发布

阅读量1.2k

点赞数

本文链接：https://blog.csdn.net/weixin_43846997/article/details/103303630

版权

本文介绍了在信息流推荐业务中，从选择Flink到采用NiFi的原因，强调NiFi在数据流处理和分发上的优势。NiFi是一个由NSA贡献给Apache的可视化数据集成工具，具有Web界面配置、无需代码开发等特点，适用于快速搭建数据传输流程。在推荐引擎平台，NiFi被用于实时数据落盘、监控等多个任务，通过定制开发满足特定业务需求。

摘要由CSDN通过智能技术生成

点击上方“马蜂窝技术”，关注订阅更多优质内容

一、为什么不选 Flink

在信息流推荐业务场景中，数据是模型迭代的原材料，是指标增长的重要基石，而「数据流」则贯穿整个推荐业务场景。

一些系统创建了数据，另一些系统需要使用这些数据。因此高效的数据流托管和自动化传输，是很长时间以来一直困扰我们的问题。为了使不同系统间的数据标准得到统一，企业常用 Flink 或 Storm（以下简称 FS）构建系统间数据流传输的解决方案。但是在推荐架构侧，很多场景下直接搬运数据流即可，不需要进行大量转化，这时使用 FS 的代价就有点大了，而且并不高效。

对于数据流的处理和分发，Apache 家族的另一大成员 NiFi 则更擅长做这种事情。假如老板给你一个新需求，要增加一路数据到 ES。如果使用 FS 的话，代码开发、测试、部署再到线上验证，这个复杂的流程可能会用掉一上午的时间，但对于 NiFi 来说，你可能只用 5 分钟就可以完成。

目前可供查阅的 NiFi 资料并不多，本文将结合 NiFi 在信息流推荐引擎中的使用，简单介绍 NiFi 的特点和使用方式，以期抛砖引玉。

二、面向流程的大数据处理框架 NiFi

NiFi 最初由美国国家安全局（NSA）开发和使用的一个可视化、可定制的数据集成产品。2014 年 NSA 将其贡献给了 Apache 开源社区，2015 年 7 月成为 Apache 顶级项目。

2.1 NiFi 特性

NiFi 为数据流而设计，它可以用来在不同的数据中心之间搭建数据流通的管道。NiFi 通过拖拽界面、配置参数、简单地连接，即可完成对数据流的托管和系统间的自动化传输，使用者可以可视化整个过程并实时进行更改。相比于 FS，它还有很多优秀的特性：

Web 界面拖放组件，并支持图形化配置
使用人员无需进行代码开发
支持多种数据源
自动进行负载均衡和反压
方便监控
便于扩展且易恢复
支持模板复用

下面，我们试着通过 Nifi 的框架来了解它在界面上搭建的工作流，到底是以什么形式在后端进行解析和运转的。

2.2 框架和集群

NiFi 是基于 Java 的，通过主机上的 JVM 来进行执行，主要由Web Server、Flow Controller、Repository 这三个核心部件组成：

Web Server：NiFi 提供了基于 HTTP 协议的 Web 页面，我们可以通过 Web 页面来操作自己的 Task。

Flow Controller：NiFi 的核心部分，可以将其理解为文件交流的处理器。Processer 则是实际处理单元。

NiFi 将每一个功能集成到一个 Processor 上，Flow Controller 维持着多个处理器的连接并管理各个Processer。
NiFi 提供了许多可用的 Processor，如Amazon、Attributes、Hadoop 等，我们在使用时可以直接拖拽 Processor 并更改其配置。
当官方的 Processor 不能支持我们的业务需求时，我们还可以利用 Nifi 的可扩展性进行定制开发。

Repository：NiFi 提供了三个数据库 FlowFile、Content、Provenance，分别来存储数据流的运行状态、实际数据以及数据源信息。

NiFi 也支持集群模式，运行时每个节点执行相同操作、不同数据。集群依赖 ZooKeeper。ZooKeeper 会选出主节点以及集群协调器，负责监督其他节点的心跳。