大数据平台数据服务框架。实现了Kafka实时数据过滤、清洗、转换、消费,实现了Spark SQL对Redis、MongoDB等非关系型数据库的数据的读写;集成了规则引擎,可基于规则引擎实现客户标签、画像等相关功能。
DataService-Framework
项目介绍
基于大数据平台的数据处理服务框架。
结合大数据项目实际使用场景,提取出的一些通用的功能,形成大数据平台数据处理框架。
目前主要实现的功能有:
1、参数信息配置模块,可实现采用数据库进行配置和Properties文件进行配置
2、集成Kafka,实现了Kafka的生产者和消费者相关的功能
3、集成MongoDB,实现了MongoDB的数据读取、写入等,实现了SparkSQL通过DataFrame与MongoDB的数据进行交互,并且实现了分页读取、流式读取等特殊读取方式
4、集成Redis,实现了Redis的读取、写入等,实现了SparkSQL通过DataFrame与Redis的数据进行交互
5、SparkStreaming流式处理Kafka、MongoDB的数据
6、手动记录Kafka的偏移量,实现了基于数据库进行记录和基于Zookeeper进行记录
7、集成了规则引擎,客户标签、客户画像等功能可基于规则引擎进行实现
软件架构
软件结构如下:
DataService-Framework 项目根目