数据科学:大数据+云计算
随着大数据时代的来临,一门集数学、统计学和计算机科学为一体的数据科学在全世界范围内迅速兴起。数据科学也成为横跨自然科学和社会科学的一门学问。未来社会,不管是政府管理还是企业运营,都必须和数据打交道。未来研究,不管是进行自然科学研究还是做人文社科研究,都离不开数据处理与分析。未来大学,不管你学文科的还是学理科的,都得学习数据分析与软件应用。
人类从农耕社会进入工业社会花了上千年,从工业社会进入信息社会用了一百多年年,而人类从信息时代进入数据时代仅仅用了10年时间。随着互联网、物联网、云计算不断深入应用,产生了大量的数据,这些大量数据的挖掘和应用,迫切需要人们掌握数据的分析技术,人类正在全面进入数据科学的时代。 —— 王斌会 2016
平台定位:数据分析+统计建模
市场上流行一个观点:数据越便宜,数据分析技术越昂贵。目前中国获取数据很难,大家都把数据当资源来买。国外数据就开放很多,并认为数据里面的信息才是资源。所以,国外分析数据的人就很贵。将来,中国的数据提供商肯定会转型,会开始搞咨询,搞分析,而不是单纯的卖数据。卖数据没有前途。他们不卖数据了,数据分析师就会开始值钱了。这一天,我相信很快就到来了。 —— 王斌会 2015
分析工具:电子表格+Python语言
从数据管理来看,最好的数据管理软件应该是电子表格类软件(如微软Excel,金山WPS表格等),大量数据可以在一个工作薄中保存,所以对数量不是非常大的数据集,建议采用该方法管理和编辑数据。而软件是我们进行数据分析不可或缺的工具。随着知识产权保护要求的不断提高,免费和开放源代码逐渐形成一种潮流,Python语言正是在这个大背景下发展起来的,并逐渐成为数据分析最强大的软件。 —— 王斌会 2017
版权所有: 王斌会(Rstat@126.com) 王术(shuwangkcl@126.com)
2018-06-01 11:51:11 258 0 0
教学用书
————————— 王斌会 王术 编著 电子工业出版社 2018.10 ————————
勘误表(按页码排列):2019-6-22
P36
P100
P101
P106
P111
P127
P128
P129
133
135
160
164
2018-06-01 11:55:17 272 0 0
勘误表(按页码排列):2019-6-22
P36
P100
P101
P106
P111
P127
P128
P129
133
135
160
164
2018-06-08 15:05:03 256 0 0
---“人生苦短,我要用Python”,这是网上对Python评价最多的一句话,说明Python作为一种新兴的编程语言,已深入人心,据说也是人工智能算法的首选语言。现在我国许多地区高考都加入了Python编程的内容,一些中小学也开始开设Pyhton编程课程。
---本书内容丰富、图文并茂、可操作性强且便于查阅,主要面向数据分析的读者,能有效地帮助读者提高数据处理与分析的水平,提升工作效率。本书适合各个层次的数据分析用户,即可作为初学者的入门指南,又可作为中、高级用户的参考手册。同时也可作为各大中专院校和培训班的数据分析教材。
---为了方便读者学习和使用基本数据分析技术,本书具有三大有点:
(1)使用Python科学计算发行版Anaconda,方便数据分析者使用。可从https://www.anaconda.com/下载安装并直接使用。
(2)公开了本书自编函数的源代码,使用者可以深入理解Python函数的编程技巧,用这些函数建立自己的开发包。并建立了本书的学习博客(http://blog.leanote.com/DaPy),书中的数据、代码、例子、习题都可直接在网上下载使用。
(3)采用网络化教学平台:Python的基础版缺少一个面向一般人群的菜单界面,对那些只想用其进行数据分析的使用者是一大困难,于是采用流行的Python网络平台Jupyter(https://jupyter.org/try),可作为数据分析教学软件使用。
2018-03-27 09:34:18 374 0 0
Anaconda下载与安装
我们知道,基本的Pyhton环境只包含基本的编程模块,基本不包含数据分析和科学计算模块,所以作为数据分析工作者,我们需选择一个方便的Python编程环境。
可喜的是,现在有许多公司为了迎接大数据时代的来临,构建了许多基于Python的发行版,其中包含了用于编程的IDE(Integrated Development Environment ,集成开发环境)和常用的编程和数据分析库。
这里给大家推荐一款用于科学计算和数据分析的Python的发行版Anaconda,可从https://www.anaconda.com/下载其安装包。建议大家下载Python3.6及以上版本。
Anaconda启动与运行
(1)系统安装导航
(2)命令行执行Python
但通常第三方程序包需在此安装,安装命令为 pip install 包名 或 conda install 包名
1)列出当前安装的包:
pip list
2)列出可升级的包:
pip list --outdate
3)升级一个包:
pip install --upgrade jupyterlab
4)卸载一个包:
pip uninstall jupyterlab
Jupyter Notebook使用
如果你安装的是Anaconda,那它已包含有Jupyter Notebook,由于Jupyter具有网页功能,所以直接打开不易确定当前执行目录,有几种在当前目录中打开Jupyter Notebook的方法:
一、命令行法
在Anaconda Prompt命令行上输入
jupyter notebook --notebook-dir= D:\DaPy1也可以将目录切换的D:\DaPy1,然后运行jupyter notebook
D:>cd DaPy1
D:\DaPy1>jupyter notebook
二、Powershell法
进入工作目录文件夹(如D:/DaPy1)—>键盘Shift+鼠标右键—>在此处打开Powershell窗口—>在弹出的命令窗口