虽然数据分析的工具千万种,综合起来万变不离其宗。无非是数据**、数据存储、数据管理、数据计算、数据分析、数据展示等几个方面。而SAS、R、SPSS、python、excel是被提到频率最高的数据分析工具。
Python
Python 英文原意为“蟒蛇”,直到 1989 年荷兰人 Guido van Rossum (简称 Guido)发明了一种面向对象的解释型编程语言,并将其命名为 Python,才赋予了它表示一门编程语言的含义。
Python 语言是在ABC 教学语言的基础上发展来的;遗憾的是,ABC 语言虽然非常强大,但却没有普及应用,Guido 认为是它不开放导致的。
基于这个考虑,Guido 在开发 Python 时,不仅为其添加了很多 ABC 没有的功能,还为其设计了各种丰富而强大的库,利用这些 Python 库,程序员可以把使用其它语言制作的各种模块(尤其是C语言和 C++)很轻松地联结在一起,因此 Python 又常被称为“胶水”语言。
从整体上看,Python 语言最大的特点就是简单,该特点主要体现在以下 2 个方面:
Python 语言的语法非常简洁明了,即便是非软件专业的初学者,也很容易上手。
和其它编程语言相比,实现同一个功能,Python语言的实现代码往往是最短的。
R语言
R语言,顾名思义,它首先是一门计算机的编程语言,就跟传统的C语言,Java语言类似,但是,它又不仅仅是一门计算机语言。这是因为,R语言天生为统计而生,所以,它做不到像C语言那般的普适,数据分析、统计建模、数据可视化才是它的舞台。
R语言在前几年的名气远不及SPSS和SAS,甚至一度有很多人压根就看不上这样一个软件,认为它做出来的东西很有可能是错误的,压根就不靠谱。但是质疑声永远也不能阻止一个新生事物的快速发展。坦白说,我入了R的坑,从此SPSS和SAS是路人!
R是免费的!安装包仅有70M,而且安装异常简单,所需操作环境十分随意。就是这样一个十分亲民友好的软件,功能却是异常强大!在数据清洗与数据分析的过程中,R语言的简洁强大十分给力。不少人对R语言所推崇的“向量化操作”的理念:不写循环,但是能做循环一样的事儿。
随着这几年的快速发展,R的功能范围已经得到了极大的扩展,比如自然语言处理,机器学习领域,生物信息学领域等等。即便如此,也永远不要忘了,R语言自身的统计功能!
SPSS
SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。
最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,这标志着SPSS的战略方向正在做出重大调整。
SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。
SPSS功能
一、集数据录入、资料编辑、数据管理、统计分析、报表制作、图形绘制为一体。从理论上说,只要计算机硬盘和内存足够大,SPSS可以处理任意大小的数据文件,无论文件中包含多少个变量,也不论数据中包含多少个案例。
二、统计功能囊括了《教育统计学》中所有的项目,包括常规的集中量数和差异量数、相关分析、回归分析、方差分析、卡方检验、t检验和非参数检验。
也包括近期发展的多元统计技术,如多元回归分析、聚类分析、判别分析、主成分分析和因子分析等方法,并能在屏幕(或打印机)上显示(打印)如正态分布图、直方图、散点图等各种统计图表。
从某种意义上讲,SPSS软件还可以帮助数学功底不够的使用者学习运用现代统计技术。使用者仅需要关心某个问题应该采用何种统计方法,并初步掌握对计算结果的解释,而不需要了解其具体运算过程,可能在使用手册的帮助下定量分析数据。
Excel
Excel 是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。
数据透视功能,一个数据透视表演变出10几种报表,只需吹灰之力。一个新手,只要认真使用向导1-2小时就可以马马虎虎上路
统计分析,其实包含在数据透视功能之中,但是非常独特,常用的检验方式一键搞定
图表功能,这几乎是Excel的独门武工,其他程序望其项背而自杀
高级筛选,这是Excel提供的高级查询功能,而操作之简单。非常超值享受
自动汇总功能,这个功能其他程序都有,但是Excel简便灵活
高级数学计算,却只要一两个函数轻松搞定
SAS软件
SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件。
最初软件全称为“社会科学统计软件包”(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案”,这标志着SPSS的战略方向正在做出重大调整。
SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称,有Windows和Mac OS X等版本。
它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。
其中Base SAS模块是SAS系统的核心。其它各模块均在Base SAS提供的环境中运行。用户可选择需要的模块与Base SAS一起构成一个用户化的SAS系统。
SAS系统基本上可以分为四大部分:SAS数据库部分;SAS分析核心;SAS开发呈现工具;SAS对分布处理模式的支持及其数据仓库设计。
SAS系统主要完成以数据为中心的四大任务:数据访问;数据管理(sas 的数据管理功能并不很出色,而是数据分析能力强大所以常常用微软的产品管理数据,再导成sas数据格式.要注意与其他软件的配套使用);数据呈现;数据分析。
文章来源:网络 版权归原作者所有
上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理