在大数据时代,数据科学作为统计分析、数据挖掘、机器学习等学科的有机结合,在商业、经济、科研及其他领域中基于数据和分析去发现问题并作出科学客观决策的作用越来越重要;python是一种面向对象直译式计算机程序设计语言,也是一种功能强大的通用型语言,近几年已经成为数据科学与人工智能领域最受关注的语言,Python是美国大学计算机科学系入门课程最受欢迎的编程语言。
为了满足行业在人工智能、数据科学与大数据处理相关领域高端人才的迫切需求,我单位将于2019年8月2-6日在贵阳举办“python数据采集分析与文本挖掘暨可视化核心技术暑期培训班”
各高等院校大数据相关学科、计算机、软件、电子商务、金融、工商管理、数理统计专业等科研、教学带头人,骨干教师、博士生、硕士生,机器学习、数据挖掘技术的爱好者与潜在研究者。
2019/08/02 - 2019/08/06
贵州贵阳
有疑问可咨询:13643136553或13932327338(微信同号)、472355722@qq.com
1、培训采用理论知识+案例示范+代码练习的workshop项目化教学模式,所有课程将围绕实战案例展开,通过典型案例入手讲解知识点,让学员系统掌握Python语言的基本结构、语法与数据类型,模块,熟悉函数、类设计、包的使用及基本的编程方法; 适合零基础的初学者,也适合经验较为丰富的操作者
2、课程体系完整科学,可以系统学习并掌握Python数据预处理、分析与挖掘、可视化、机器学习与深度学习等核心算法原理以及全部技术的应用过程;熟悉Python在各种大数据技术产品中的应用;能够根据数据分布选择合适的算法模型并书写代码,对机器学习、深度学习运作机制有清晰全面的认识;
3、系统讲授数据科学与大数据技术课程知识体系、授课方法、实验环境搭建、基础编程、大数据实训实验室建设、课程公共服务平台资源使用指南等方面的内容;
4、提供教学现场全程视频及PPT 、数据、程序;额外提供450G、90课时机器学习、深度学习、数据挖掘、网络爬虫与文本挖掘最新教学视频;建立微信交流平台,提供长期的技术支持与咨询服务。
模块一
第1讲:网络爬虫技术基础与开发环境
1. 网络通信基础
2. Web开发与网站分析介绍
3. 开发环境安装与使用
4. Python基础数据结构与语法
5. 常用Python库使用案例分享
第2讲:网络爬虫工具库
1. 认识正则表达式
2. 基础Python爬虫库(urllib/Requests)
3.“漂亮”的爬虫库-Beautiful Soup
4. 静态网页爬取案例分享(论坛、维基百科、小说网站等)
5. Selenium与无头浏览器
6. Ajax和DHTML网站爬取
7. 动态网页爬取案例分享(图片网站、新闻网站、
第3讲:网络爬虫存储
1. 文件读取与保存
2. 关系数据库存储-MySQL
3. 爬虫配合MySQL存储案例分享
4. 分布式存储-NoSQL数据库
5. 爬虫配合MongoDB存储案例分享
6. HDFS简介
模块二
第4讲:网络爬虫框架
1.Python网络爬虫框架介绍
2.Scrapy基本使用
3.Scrapy进阶使用
4.爬虫框架使用案例分享(评论类网站、二手车网站等)
第5讲:网络爬虫常用技巧
1. 表单处理
2. 模拟登录
3. 爬虫代理池
4. 各类网页内容处理
5. 设计隐蔽的网络爬虫
第6讲:文本挖掘技术基础
1. 文本挖掘全流程概述
2. 自然语言处理库(NLTK)
3. TextBlob文本处理库介绍
4. 中文分词介绍(jieba)
5. 词云介绍
模块三
第7讲:文本挖掘技术进阶
1. 文本挖掘预处理技术
2. 文本特征处理
3. 文本聚类与主题模型
4. 基于深度学习的文本挖掘
5. 文本挖掘案例分享(主题发现、新闻分类、情感分析等)
第8讲:数据可视化技术基础
1. 数据可视化介绍
2常用Python可视化模块(matplotlib,seaborn)
3. 常用统计图绘制:
3.1条形图
3.2直方图
3.3面积图
3.4饼图
3.5箱线图
3.6散点图
第9讲:数据可视化技术进阶
1. 交互式数据可视化
1.1更加‘美丽’的表达--pyecharts
1.2让你的图形有‘反馈’—bokeh
2. 地图可视化—basemap
3. 文本可视化--wordcloud
4. 网络图可视化—network
5. 爬虫技术、文本挖掘及数据可视化综合案例
模块四
第7讲:Python数据挖掘实战
Python数据挖掘技术概览:
1.数据挖掘与模型
2.建模流程和步骤
3.常见算法介绍
4.效果评估
数据挖掘典型项目流程示范:
1.数据探索性分析
2.数据探索中的可视化
3.特征处理和数据建模、
代码和案例实践:
1.泰坦尼克号沉船幸存者预测
2.Amazon员工访问需求预测
3.贷款违约风险预测
4.基于titanic数据集预测生存概率
5.演示如何进行绘图探索
第4天(8月6日)
培训考核、参观贵阳“国家大数据中心”
注:讲师可根据学员基础对大纲进行调整,欢迎及时反馈相关建议
尹老师 数据科学家,浙江大学物理学博士,数据科学与大数据技术专业负责人,兼任知名网络科技上市公司大数据总监,受聘担任多家大数据教学机构主讲教师,开发多套Python高级编程、机器学习、网络爬虫与文本挖掘系列课程,10+年Python软件开发数据产品经验,熟悉R \Java等多种编程语言,具有丰富的Python统计建模、数据挖掘、大数据技术教学经验,先后为中国交通银行,平安保险公司等数十家知名机构主讲Python课程。
肖老师 15年数据处理从业经历,任职于阿里巴巴集团,担任数据中心高级分析师、高级项目经理;华东师范大学研究生导师,承担过多个大型数据挖掘与分析项目,精通Python、R等多种工具进行数据挖掘分析,拥有深厚的算法推导及代码实现能力;翻译并出版数据挖掘与机器学习专著两部。
经考试合格将颁发《数据科学与大数据技术高级分析师职业技术水平证书》。依据人力资源与社会保障部相关文件精神,本类型培训可记入《专业技术人员继续教育证书》或学习档案,该证表明持有者已通过相关考核,可作为聘用、任职、定级和晋升的重要参考依据,全国通用;可代为申请国家工信部人才交流中心《大数据分析师(高级)》职业技能水平培训证书。
培训结束后统一组织前往贵阳国家大数据中心(大数据交易所)参观考察,贵阳大数据交易所(GBDEX)是全球第一家大数据交易所,通过电子系统面向全球提供数据交易服务,计划2020年数据清洗交易量年达1万PB、年总额3万亿。
培训费用3980元/人(含培训费、实验费、考察费、教材费、考试费等相关费用);食宿统一安排,费用自理