
Spark
文章平均质量分 55
第四范式开发者社区
AI for every developer,AI for everyone
展开
-
活动预告|AICon全球人工智能与机器学习技术大会
活动预告|AICon全球人工智能与机器学习技术大会2021年11月25-26日,全球人工智能与机器学习技术大会将于北京悠唐皇冠假日酒店召开。第四范式技术副总裁、基础技术负责人郑曌将与快手技术副总裁王仲远、华为云AI首席科学家田奇、腾讯云副总裁吴运声共同担任本次AICon联席主席。第四范式平台架构师杨守仁、科学技术部资深研究员罗远飞受邀将在「大规模机器学习算法及应用」及「大数据计算和分析」专题论坛分别带来“第四范式 OpenMLDB 的机器学习实时应用最佳实践”及“多表自动机器学习应用研究”的主题分享。原创 2021-11-24 20:34:56 · 1572 阅读 · 0 评论 -
活动报名 | 智能金融在线峰会即将开启
风控”是金融生命线,出色的风控能力可以帮助金融机构积极应对日趋复杂的金融环境以及更加严格的监管要求。在智能化转型的浪潮下,金融企业正在加速推进以人工智能为代表创新技术赋能,如何将传统方式与人工智能的有机结合,打造更为高效、精准的风控体系已成为金融行业核心议题之一。9月25日(本周六)上午9点,由DataFun举办的“智能金融在线峰会”将邀请第四范式资深架构师张陈丞、平台架构师陈迪豪,围绕智能风控中台搭建、智能风控数据库计算优化等热点技术话题进行分享。主讲人:张陈丞演讲论坛:金融智能平台/工具论坛演原创 2021-09-23 14:24:31 · 63 阅读 · 0 评论 -
OpenMLDB: 拓展Spark源码实现高性能Join
简介Spark是目前最流行的分布式大数据批处理框架,使用Spark可以轻易地实现上百G甚至T级别数据的SQL运算,例如单行特征计算或者多表的Join拼接。OpenMLDB是针对AI场景优化的开源数据库项目,实现了数据与计算一致性的离线MPP场景和在线OLTP场景计算引擎。其实MPP引擎可基于Spark实现,并通过拓展Spark源码实现数倍性能提升。Spark本身实现也非常高效,基于Antlr实现的了标准ANSI SQL的词法解析、语法分析,还有在Catalyst模块中实现大量SQL静态优化,然后转成分原创 2021-09-09 16:47:43 · 167 阅读 · 0 评论 -
推荐系统大规模特征工程与FEDB的Spark基于LLVM优化
今天给大家分享第四范式在推荐系统大规模特征工程与Spark基于LLVM优化方面的实践,主要包括以下四个主题。大规模推荐系统特征工程介绍SparkSQL与FESQL架构设计基于LLVM的Spark性能优化推荐系统与Spark优化总结大规模推荐系统特征工程介绍推荐系统在新闻推荐、搜索引擎、广告投放以及最新很火的短视频App中都有非常广阔的应用,可以说绝大部分互联网企业和传统企业都可以通过推荐系统来提升业务价值。我们对常见的推荐系统架构进行分层,离线层(Offline layer)主要负责处理存原创 2020-07-13 11:38:53 · 668 阅读 · 0 评论 -
半小时,将你的Spark SQL模型变为在线服务(附视频教程)
SparkSQL在机器学习场景中应用第四范式已经在很多行业落地了上万个AI应用,比如在金融行业的反欺诈,媒体行业的新闻推荐,能源行业管道检测,而SparkSQL在这些AI应用中快速实现特征变换发挥着重要的作用SparkSQL在特征变换主要有一下几类多表场景,用于表之间拼接操作,比如交易信息表去拼接账户表使用udf进行简单的特征变换,比如对时间戳进行hour函数处理使用时间窗口和udaf进行时序类特征处理,比如计算一个人最近1天的消费金额总和SparkSQL到目前为止,解决很好的解决离线模型训练原创 2020-07-06 15:16:05 · 1967 阅读 · 0 评论