各有关单位:
中国科学院计算技术研究所是国家专门的计算技术研究机构,同时也是中国信息化建设的重要支撑单位,中科院计算所培训中心是致力于高端IT类人才培养及企业内训的专业培训机构。中心凭借科学院的强大师资力量,在总结多年大型软件开发和组织经验的基础上,自主研发出一整套课程体系,其目的是希望能够切实帮助中国软件企业培养高级软件技术人才,提升整体研发能力,迄今为止已先后为国家培养了数万名计算机专业人员,并先后为数千家大型国内外企业进行过专门的定制培训服务。
Python是数据分析最常用的语言之一,而Apache Spark是一个开源的强大的分布式查询和处理引擎。本培训用详尽的案例介绍如何使用Python来调用Spark的新特性,如何处理结构化和非结构化的数据,如何使用PySpark中一些基本的可用数据类型,如何生成机器学习模型、操作图像、阅读串流数据以及在云上部署模型。
本培训结合实例来介绍PySpark大数据挖掘。内容包括对Apache Spark基础知识介绍,弹性分布式数据集RDD的内部运行方式讲解,分析利用DataFrame加速PySpark,准备数据建模,检查重复数据及异常数据,分析描述性统计、数据相关性,介绍MLlib数据挖掘工具应用,讲解ML机器学习包功能ÿ