初识计算机
今天是我们学习Python+大数据的第一天,作为一枚初入大数据世界的萌新,我们首先要对我们的合作伙伴——计算机有个简单认识。下面就请计算机来给我们做个简单的自我介绍吧!
通过计算机的自我介绍,我们对未来的合作伙伴已经有了一个初步了解了,我们知道了计算机要有操作系统可以承上启下,串联起硬件和其他软件,有了软件我们就能通过软件跟计算机交流,让计算机帮我们处理一些事情,可是没有软件我们应该怎么跟计算机沟通呢?下面我们就来简单认识一下跟计算机沟通时需要用到的语言吧。
初识编程语言
编程语言(programming language): 人与计算机沟通时用的语言
计算机硬件作为电路元件,只认识二进制的0和1,可我们的世界却不是二进制为主导的世界,我们要用0和1跟计算机沟通非常麻烦。人们为了方便沟通,设计了“汇编语言”,再后来设计出了更接近自然语言的“高级语言”。
二进制:逢2进1
编程语言的发展:
1.低级语言(1946-1953):机器语言(0和1)以及汇编语言
2.高级语言(1954-至今): C语言等
3.面向对象(90年代初-至今):(也属于高级语言)
Java :编译型语言,先编译再执行(一次编译,处处运行)
Python:解释型语言,边解释边执行
由于计算机只认识机器语言,因此用汇编语言和高级语言等写的程序必须由语言处理程序翻译为机器语言后才能执行。
语言处理程序:
汇编程序:把汇编语言编写的程序翻译为及其可执行的程序的程序
编译程序:把高级语言源程序全部翻译为等价的机器语言格式的目标程序的程序
解释程序:接收到源程序后对源程序每条语句逐句解释并执行的程序,不产生目标程序
初识大数据
对计算机和用来跟计算机沟通的语言有了初步了解后,我们要进入正题了。现在,我们来正式认识一下我们接下来要学习的大数据。
大数据(bigdata):大数据顾名思义就是海量数据,它指在一定时间内无法用主流软件进行获取、处理、分析的数据集合
大数据主要为我们解决海量数据的存储、运算和迁移问题。
大数据解决的问题:
1.海量数据的存储
2.海量数据的运算
3.海量数据的迁移
无论是互联网,还是金融、医疗等行业,大数据的应用在各行各业随处可见,随着数据爆发式增长,目前大数据处理的数据量主要集中在PB\EB级别,PB\EB级别的信息量有多大呢?我们可以通过下表的单位换算表有个大致了解:
计算机中存储信息的单位 | |
单位 | 等价关系 |
1Byte | 8bit |
1K(千) | 1024Byte |
1MB(兆) | 1024K |
1G(吉) | 1024M |
1T(太) | 1024G |
1P(拍) | 1024T |
1E(艾) | 1024P |
1Z(泽) | 1024E |
1Y (尧) | 1024Z |
1B(布) | 1024Y |
1N(诺) | 1024B |
1D(刀) | 1024N |
大数据的特点(5V):
数据体量大( Volume):采集数据量大,存储数据量大,运算数据量大。
种类和来源多样化( Variety):结构化、半结构化、非结构化,来源有日志、图片、音频、视频等。
低价值密度(Value):在海量数据中能提取有用信息。
速度快(Velocity):数据增长速度快、获取数据速度快、数据处理速度快。
数据的质量(Veracity): 指数据的准确性和可信赖度。
大数据分析的业务步骤在不同的公司,不同的场景下均有差异,张文霖的《数据分析六步曲》认为典型的数据分析应该包含以下六步:
《数据分析六步曲》中的数据分析步骤:
明确分析目的思路——数据收集——数据处理——数据分析——数据展现——撰写报告
其中数据处理包括数据的清洗、转换、提取和运算等,将数据加工为分析需要的直观数据。数据抽取(extract)、转换(transform)、加载(load)的过程被称为ETL。
学习大数据的过程是漫长的,我们要一步步打造自己的技能树,这个过程中我们可以从操作系统Linux开始学习,掌握至少一门编程语言,学习好大数据框架,积累实战经验。
学习大数据会运用到结构化查询语言(Structured Query Language),即SQL,这是一种特殊的编程语言,可以存取数据,查询,管理和更新关系型数据库。
学完大数据之后,我们可以尝试寻找一下工作,规划好自己的职业道路。
大数据相关工作:
大数据开发工程师
Hadoop开发工程师
Spark开发工程师
实时计算开发工程师
数据仓库工程师
ETL开发工程师
BI开发工程师
数据挖掘工程师
数据架构师
学习前的准备
正所谓“工欲善其事,必先利其器”,当我们决定学大数据后,开发工具的安装是必不可少的。为了方便后续开发,在开发工具安装与卸载的过程中我们需要注意一些细节。
软件安装注意事项:
1.所有开发软件尽量安装在同一路径下
2.win系统尽量不要安装在C盘
3.安装路径中尽量不要出现中文、空格及特殊字符
4.python、java等安装s时不会自动添加当前软件名为文件夹名,需要手动添加
5.为了方便系统找到并执行pyhon和Java程序,我们需要提前配置环境变量(环境变量在“此电脑”——“属性”——“高级系统设置”——“环境变量”中配置)
软件卸载注意事项:
1.不要在安装路径中删除软件
2.在控制面板-卸载程序中卸载
3.卸载完后去安装目录中手动清理该路径中未卸载完成的部分