首先,附上 Github 链接
LakeSoul:https://github.com/meta-soul/LakeSoul,可搜索公众号元灵数智,在底部菜单了解我们 - 用户交流获取官方技术交流群二维码,进群与业内大佬进行技术交流。
在之前的公众号文章《重磅!开源湖仓平台 LakeSoul 设计理念详解》中,我们介绍了 LakeSoul 开源流批一体表存储框架的设计理念和部分实现原理。LakeSoul 设计的初衷,是为了解决在流批一体的业务场景下,传统的 Hive 数仓难以解决的各类问题,包括 Upsert 更新、Merge on Read、并发写等。今天我们以一个典型的应用场景:构建实时机器学习样本库来展示 LakeSoul 的核心功能。
一、业务需求背景
1.1 在线推荐系统
在互联网、金融等行业,很多的业务场景都可以归纳为一个在线个性化推荐系统,包括搜索、广告、推荐、风控等。例如,在电商业务中,通过搭建个性化推荐系统,可以实现千人千面的猜你喜欢推荐,提升用户的点击率、购买率等;在广告业务中,个性化推荐是实现精准定向,提升 ROI 的核心系统;在金融风控领域,需要实现对用户偿还能力、逾期可能性的实时预测,为每个用户提供个性化的信贷额度、还贷周期等。
可以看到,推荐系统在各个行业领域都有着广泛应用。搭建一个工业级在线推荐系统,需要很多的环节和系统相互衔接,有比较大的开发工作量。元灵数智平台研发的 MetaSpore 框架提供了一站式的推荐系统开发解决方案,详细介绍可以看我们之前的公众号文章

本文介绍了如何使用 LakeSoul 构建实时机器学习样本库,以支持在线推荐系统的实时性和多流更新。LakeSoul 解决了传统 Hive 数仓在流批一体、并发写入等方面的挑战,提供了 Upsert、Merge on Read 等功能,支持特征回溯和并行实验。通过主键设计和数据写入策略,实现了高并发和高吞吐的样本库构建。
最低0.47元/天 解锁文章
323

被折叠的 条评论
为什么被折叠?



