亚马逊云科技-实验更快低代码无代码GenAI工具
关键字: [yt, SageMaker, Low Code Capabilities, No Code Tools, Feature Engineering, Model Training, State-Of-The-Art Models]
本文字数: 1400, 阅读完需: 7 分钟
导读
在这场技术讲座中,演讲者阐释了如何利用亚马逊云科技的低代码和无代码工具,加速机器学习实验的进程。具体而言,他解释了可以使用SageMaker Data Wrangler进行数据准备和特征工程,使用SageMaker AutoPilot对表格数据实现自动机器学习,以及使用SageMaker JumpStart来利用自然语言处理和计算机视觉任务的预训练模型。该演讲重点介绍了亚马逊云科技如何为机器学习用例实现更快的实验周期、减少编码工作量以及加速模型部署的过程。
演讲精华
以下是小编为您整理的本次演讲的精华,共1100字,阅读时间大约是6分钟。
在不断发展的机器学习领域中,亚马逊云科技(亚马逊云科技)推出了一套低代码和无代码工具,承诺将彻底改革数据分析和模型开发的方式。这些工具包括SageMaker Data Wrangler、SageMaker AutoPilot和SageMaker JumpStart,旨在以前所未有的效率和可及性,简化从数据准备到模型部署的整个机器学习工作流程。
作为这个强大三重奏中的第一个工具,SageMaker Data Wrangler是一个可视化界面,让用户无需编写任何代码就能执行数据准备和特征工程。凭借超过300种内置数据转换,用户可以轻松地通过简单地将所需转换拖放到画布上来创建复杂的特征管道。这种直观的方法不仅加快了特征工程过程,而且还消除了维护大量代码库的需求,从而提高了生产力并降低了错误风险。技术讲座强调,Data Wrangler只需几次点击和拖放操作就能生成数千行代码,而手动完成这一任务将需要数月时间。这一出色能力赢得了德勤等公司的赞誉,他们报告称特征工程所需时间从数月缩短到仅几天,生产力大幅提高。
为了展示Data Wrangler的强大功能,技术讲座介绍了一个关于贷款违约预测的用例,利用了来自Lending Club的开源贷款数据集。该数据集涵盖2007年至2011年期间的全面贷款数据,包括当前贷款状态和最新付款信息。通过在Data Wrangler中进行一系列转换,演示展示了如何轻松地跨数值、分类和文本列执行复杂的特征工程,仅需几次点击。数值列使用MaxScaler等技术进行缩放,分类列使用一次性编码进行编码,文本列使用词汇量为1000的token vectorizer进行标记化。
经过转换后的数据无缝集成到亚马逊云科技的AutoML功能SageMaker AutoPilot中,该功能可自动完成数据准备、模型开发和超参数调优的整个过程。只需提供一个表格数据集和目标变量,AutoPilot就会处理所涉及的复杂任务,最终为用户呈现针对特定用例的优秀模型。在贷款违约预测用例中,AutoPilot生成了大量候选模型,每个模型都采用了独特的数据预处理技术、算法和超参数组合。通过迭代训练和评估过程,AutoPilot识别出表现最佳的模型,实现了83%的精确度和33%的F1宏观分数。
AutoPilot的高效性和节省时间的潜力进一步体现在面向直接面向消费者企业的商业洞察工具RetentionX的成功案例上。通过利用AutoPilot的强大功能,RetentionX能够为每个客户构建数百个个性化模型,这在手动模型开发中几乎是不可能实现的。这种出色的能力使RetentionX能够为客户提供真正个性化的体验,而无需手动构建单个模型的负担。
在第二个用例中,技术讨论将重点转移到自然语言处理领域的一项关键任务情感分析。利用一个带有情感标签(积极、消极和中性)的金融新闻标题数据集,演示展示了使用SageMaker JumpStart部署预训练的BERT文本分类模型是多么容易。只需几次点击,基于BERT的模型就可以部署为SageMaker端点,准备接收输入数据并对新的标题进行情感预测。
SageMaker JumpStart是亚马逊云科技低代码和无代码工具集中的第三个工具,它是一个强大的资源,提供了超过300个预训练的先进的计算机视觉和自然语言处理任务模型。这些模型来自知名机构,如PyTorch、TensorFlow和Hugging Face,可以轻松部署或微调,大大缩短了模型开发所需的时间和精力。技术讨论强调了MyCase(一家法律实践管理软件提供商)如何利用SageMaker JumpStart在较短时间内部署自然语言处理解决方案。
技术讨论中介绍的第三个也是最后一个用例集中在飓风损坏建筑分类上,这是一项具有重大现实意义的任务。利用从飓风哈维中收集的数千张受损和未受损建筑物图像数据集,该演示展示了JumpStart在计算机视觉领域的强大功能。在这个用例中,JumpStart中的预训练PyTorch ResNet18模型在提供的图像数据上进行了微调,使模型能够适应并优化其在特定任务上的性能。微调过程完成后,生成的模型被部署为SageMaker端点,能够对新的建筑物图像进行分类,判断是否存在损坏。这个现实世界的应用彰显了JumpStart的通用性和实用性,使用户能够以非常简单和高效的方式应对复杂的计算机视觉任务。
在整个技术讨论中,演示和客户成功案例描绘了亚马逊云科技低代码和无代码机器学习工具所提供的强大功能和可及性。通过抽象出编码的复杂性并简化整个机器学习工作流程,这些工具使用户能够更快地进行实验、高效地构建模型并将其快速部署到生产环境中,同时确保对原始数据的无损翻译并严格遵守事实内容。
在机器学习迅速发展的领域中,亚马逊云科技的低代码和无代码工具代表了一种范式转变,民主化了对先进技术的访问,并简化了开发过程。借助直观的界面、自动化工作流程和预训练模型,这些工具为创新开启了新时代,降低了进入门槛,并放大了突破性发现的潜力。无论是经验丰富的数据科学家,还是该领域的新手,这些工具都提供了强大且易于使用的方式来释放机器学习的变革潜力,使他们能够更快地进行实验、高效构建模型,并将其快速部署到生产环境中,同时确保原始数据的完整性和事实内容的严格遵循。
总结
在这个富有洞见力的亚马逊云科技技术讲座中,Kostiva Slakaikis和Arun Shanker深入探讨了亚马逊云科技低代码和无代码工具在加速机器学习工作流程方面的强大功能。他们演示了SageMaker Data Wrangler、AutoPilot和JumpStart如何简化数据准备、模型构建和部署,使用户能够以最少的编码利用先进的模型。
首先,值得注意的一个关键点是,使用SageMaker Data Wrangler直观的拖拽界面进行特征工程和数据探索的简易性,只需几次点击就能生成数千行代码。这一功能极大地减少了机器学习管道中数据准备所需的时间和精力。
其次,他们展示了SageMaker AutoPilot这一自动机器学习工具,它可以自动探索各种数据预处理技术、算法和超参数,为表格数据找到性能良好的模型。AutoPilot提供了候选模型的排行榜、可解释性报告和底层代码,使用户能够理解和构建生成的解决方案。
第三个关键点集中在SageMaker JumpStart上,它提供了超过300个预训练的自然语言处理和计算机视觉任务的先进模型。用户可以直接部署这些模型,或者通过简单的用户界面使用自己的数据对它们进行微调,从而实现快速部署先进的机器学习解决方案。
总之,演讲者强调了亚马逊云科技低代码和无代码工具在民主化机器学习和加速智能应用程序开发方面的变革潜力。他们鼓励与会者探索提供的资源、提出问题,并利用亚马逊云科技ML专家的专业知识,充分发挥这些强大功能的潜力。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。