BIGDATA+AI 2020北京站回顾

最新推荐文章于 2023-02-10 22:21:22 发布

Apache Spark中国社区

最新推荐文章于 2023-02-10 22:21:22 发布

阅读量299

点赞数

文章标签：算法百度大数据编程语言人工智能

原文链接：https://developer.aliyun.com/live/245788

版权

始于开源，精于实践，

通过代码赋能产业，解锁行业需求，

让技术的落地掷地有声。

12月19日，

大数据+AI Meetup 第三站·北京站顺利收官，

为2020年的开源应用之旅画上了完美的句点。

在本次大数据+AI北京站的现场，来自阿里云、滴滴出行、微博、Databricks、汇量科技、 Zilliz 等名企的9位讲师集结一堂，通过落地实战为到场观众呈现了大数据与AI融合下的行业解决方案新思考；深度解读了达摩院NLP 算法中台、Delta Lake 最新进展、Hive 到 Spark 迁移方案、Fluid数据平台、Milvus 开源向量搜索引擎、MindAlpha 平台、云原生数据湖构建、微博机器学习平台等覆盖多场景、多维度的“大数据+AI”实践案例。讲师们优质的分享内容与生动的案例讲解更是引发了现场观众的积极互动。

本次活动全程回看链接：

https://developer.aliyun.com/live/245788

现场照片：

本期课题介绍

1、《 NLP 在医学领域的应用》

议题简介：

介绍医疗NLP技术的特点、难点以及阿里算法团队的实践经验，以及阿里巴巴医疗NLP算法中台的建设和在智慧医疗项目中应用。

嘉宾简介：

陈漠沙，阿里云达摩院高级算法专家

2、《 Hive SQL 到 Spark SQL 在滴滴的实践》

议题简介：

滴滴 Hive SQL 到 Spark SQL 背景介绍, 迁移方案, 当前进展和结果

嘉宾简介：

杨建丹，滴滴出行大数据架构部专家工程师,。
负责滴滴 Hive 服务, 离线Yarn调度以及 Spark 服务, 在Yarn, HDFS 和 Hive 上有多年实践经验。

3、《深度解析 Delta Lake Trasaction Log》

议题简介：

Trasaction Log是理解Delta Lake的关键，它为大多数关键功能提供支持，如ACID事务性，元数据管理，time travel等等。本次分享我们详细介绍trasaction的概念、原理以及其如何解决多路并发读写问题。

嘉宾简介：

李元健，Databricks 软件工程师。
曾于2011年加入百度基础架构部，先后参与百度自研流式计算、分布式Tracing及批量计算系统的研发工作，2017年转岗项目经理，负责百度分布式计算平台研发工作。2019年加入 Databricks Spark 团队，参与开源软件及 Databricks 产品研发。

4、《Fluid - 云原生环境下以应用为中心的数据集管理平台》

议题简介：

得益于容器化带来的高效部署、敏捷迭代，以及云计算在资源成本和弹性扩展方面的天然优势，以 Kubernetes 为代表的云原生编排框架吸引着越来越多的 AI 与大数据应用在其上部署和运行。但是在计算存储分离的大背景下，AI和大数据云原生应用的数据访问性能，效率和成本都受到了巨大的挑战，为系统化解决相关问题，Fluid提供了数据应用协同编排、智能感知、联合优化等一系列能力，并且形成一套云原生场景下数据密集型应用的高效支撑平台。本次演讲中，我们将分享开发Fluid的初衷，设计以及现有的功能演示。

嘉宾简介：

车漾，阿里云智能高级技术专家。
从事 Kubernetes 和容器相关产品的开发。尤其关注利用云原生技术构建机器学习平台系统，是 GPU 共享调度的主要作者和维护者。

5、《Milvus 在图片检索场景的最佳实践》

议题简介：

-图片搜索的典型应用场景

-Milvus 开源向量搜索引擎简介

-如何使用 Milvus 实现以图搜图

-深度案例介绍

嘉宾简介：

李云梅， Zilliz 数据工程师/Developer Advocate。
毕业于华中科技大学计算机专业。熟悉视觉和自然语言两个领域的各种经典 AI 模型。自加入 Zilliz 以来，致力于为开源项目 Milvus 探索解决方案，帮助用户将 Milvus 应用在实际场景中。

6、《汇量科技在 Spark 上构建推荐算法 Pipeline 的实践》

议题简介：

在推荐系统中，数据、特征工程和 AI 算法具有同等重要的地位。汇量科技的MindAlpha 平台，探索了深度学习框架与 Spark 深度结合方案，使得数据处理和算法模型训练能够在同一套框架中执行，构建了完整的算法开发流程，提升了算法实验的开发效率。本次分享将将重点介绍整体的架构设计和实现。

嘉宾简介：

陈绪，汇量科技 Mobvista 资深算法架构师。
负责大数据与机器学习平台以及广告推荐算法 Pipeline 开发。

7、《云原生数据湖构建、管理与分析》

议题简介：

数字化是各行各业的发展趋势，数据成为其中最重要的生产资料。数据源越来越多，数据也呈爆发式增长，如何有效的管理数据，充分挖掘数据价值，同时考虑成本性能等因素，数据湖架构越来越多的被提起，本次分享会介绍数据湖架构遇到的一些问题和挑战，以及阿里云云原生数据湖构建、管理与分析的一些实践

嘉宾简介：

宋军，花名嵩林，阿里云智能高级技术专家。

在E-MapReduce 团队从事 Spark 内核优化以及数据湖相关工作，对 Spark /Delta Lake /Hudi 等有深入了解

8、《异构集群，统一计算在微博机器学习平台中的应用》

议题简介：

主要介绍跨集群，多计算引擎，湖仓一体，统一 SQL 等技术在微博机器学习平台中的应用

嘉宾简介：

金玉梅，新浪微博高级系统开发工程师，机器学习平台离线计算负责人

9、《人工智能算法与医学影像分析》

嘉宾简介

王宇，花名同构，阿里巴巴达摩院高级算法专家

更多详细内容，请关注Apache Spark公众号

回复“1219”领取本场讲师全套PPT

2020年即将落下帷幕，

但开发者们对于开源技术的热爱与探讨仍将延续。

在助力产业创新的道路上，

他们将步履不停，

以思考的花火点亮技术大规模落地的未来征途。

在今后，

大数据+AI品牌技术沙龙也将邀请行业内更多的开发者，

定期举办更具学习价值的Meetup活动

与技术圈的伙伴共同发掘开源的价值。

更多信息请加入大数据+ai钉钉交流群

Apache Spark中国社区

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
BIGDATA+AI 2020北京站回顾

始于开源，精于实践，通过代码赋能产业，解锁行业需求，让技术的落地掷地有声。12月19日，大数据+AI Meetup第三站·北京站顺利收官，为2020年的开源应用之旅画上了完美的句点。在...
复制链接

扫一扫