关于《利用python进行数据分析》心得_python数据分析心得体会

122 篇文章 0 订阅
27 篇文章 0 订阅

前言

关于《利用python进行数据分析》心得

今天终于把关于python的第二本书完全的读完,并且做了20mb左右的笔记。算上培训班,也算是正儿八经的在python这门最优雅的语言上入门了。加上值几天边看书,边用python对600多mb的数据进行清洗,并且发现一部分小错误,我在此写下部分心得以便于供各位同学,同行共勉。我将围绕本书的库,环境和问题进行讨论。

【----帮助Python学习,以下所有学习资料文末免费领!----】

首先是库,本书围绕三个库进行讨论——numpy,pandas和matplotlib。Numpy是个模仿R的库,对python的独特的数组进行向量操作——将数组作为矩阵进行切片,换行,变换,转置,计算等一系列操作。Numpy的强大之处建立在python的天生优势——一切皆对象的基础之上,这也正是numpy的强大——一切皆数组(矩阵)。所以numpy是未来python做SVD,SVM等机械学习的基础——变量矩阵化。

第二大库——pandas,pandas是基于numpy的一个超级库,这个库不仅完成了numpy的所有基本功能,并且更进一步,矩阵数据框化(DataFrame)。相信熟悉R语言和SAS的朋友对这个概念并不陌生,因为我们几乎所有的数据都是经过数据框进行处理的。数据框的最大特点就是——index(索引)和columns(字段)。也就是pandas所有的操作都是围绕这两个东西进行的。包括增删改,补充,添加等等。也就是利用pandas你能干所有excel可以干的事情,真正意义上的数据管理和数据处理。

第三大库——matplotlib,python的标志性画图库,然而这个库并没有什么真正意义上的价值,笔者发现,通过python处理过的数据直接经过R作出图像反而更快,更有可视感。另外,真正画图的库使seaborn(因为可变化多)。

第二,是python做数据分析的环境和编辑器。我知道很多python开发的朋友喜欢用pycharm,但是不好意思,笔者实际操作和阅读,以及真实案例来看,anaconda才是真正意义上的python数据分析和挖掘的操作器(可以分段提交代码)。

书的环境是2.3版本,所以该书并没有对中文文本进行描述,因为逼人要清理大量的企业信息,这些数据都是中文,在一开始,我被这个问题很困惑,但是后来随着研究,我也找到了解决方法:

1. 数据挖掘,建议用3,不要用2!3对中文支持更好,并且更加聪明!

2. 用spyber,尽量不要用jupyter!因为spyber可以帮你保存你缓存的数据!!

3. 请阅读pandas的最新文档,该书成书时间在2013年,所以很多信息都过时了。

如果你喜欢用python2,那么你在操作数据库时候,所有输出数据都是元组格式,不过不要紧,你将格式改为数据框就可以避免,第二,请你保证你的编辑器的格式和数据库或者对象一致。

最后,是本书的问题。本书由于成书年代久,所以很多操作已经过时,笔者发现了以下几个小错误。

1. 对数据库的操作现在直接用pd.read_sql就可以,不需要再再入库

2. oi类在pandas已经被转移成一个新库——pandas-dataread,请自行下载。

3. 本书没有对描述性统计分析进行跟深入叙述,你要学更多,请阅读scipy文档。

4. 由于本书的版本问题,所以本书的最后两章没有任何意义。

以上就是笔者对这本书的概述和心得,总的来说,此书的确值得一读,特别是奥巴马选举案例把pandas的索引操作展示的玲离尽致,但是金融案例你看看就好了,没有任何参考价值。

同时,在对比了python和excel对数据清洗上的区别后,我可以清楚的看到,面对200mb以下的小数据,excel是无敌的,并且超越一切SAS,R和JMP之流。完美的图形化和自能化是excel最大的优势,但是当数据超过200mb之时,请自觉使用python(不要用python操作200mb以下数据,杀鸡焉用牛刀)。

同时对比了运算时间,R最快,Python比较慢(C语言的呈现毕竟牛逼),但是R的可读性很差,python在神一样的anaconda编辑器之下,可读性和展示性非常好。

最后给出本书特点——第四章,第五章(重点阅读!!!带星星),第六章(也是重点),第七章(重点,但是不带星),第八章(无所谓),第九章(重点,python的特点,模仿sql的group by,并且达到数据合并和透视功能),第十章(还是要读读的,毕竟转化时间)。

以上就是我对本书的认识,请各位指点。

一、Python入门

下面这些内容是Python各个应用方向都必备的基础知识,想做爬虫、数据分析或者人工智能,都得先学会他们。任何高大上的东西,都是建立在原始的基础之上。打好基础,未来的路会走得更稳重。所有资料文末免费领取!!!

包含:

计算机基础

在这里插入图片描述

python基础

在这里插入图片描述

Python入门视频600集:

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

二、Python爬虫

爬虫作为一个热门的方向,不管是在自己兼职还是当成辅助技能提高工作效率,都是很不错的选择。

通过爬虫技术可以将相关的内容收集起来,分析删选后得到我们真正需要的信息。

这个信息收集分析整合的工作,可应用的范畴非常的广泛,无论是生活服务、出行旅行、金融投资、各类制造业的产品市场需求等等,都能够借助爬虫技术获取更精准有效的信息加以利用。

在这里插入图片描述

Python爬虫视频资料

在这里插入图片描述

三、数据分析

清华大学经管学院发布的《中国经济的数字化转型:人才与就业》报告显示,2025年,数据分析人才缺口预计将达230万。

这么大的人才缺口,数据分析俨然是一片广阔的蓝海!起薪10K真的是家常便饭。

在这里插入图片描述

四、数据库与ETL数仓

企业需要定期将冷数据从业务数据库中转移出来存储到一个专门存放历史数据的仓库里面,各部门可以根据自身业务特性对外提供统一的数据服务,这个仓库就是数据仓库。

传统的数据仓库集成处理架构是ETL,利用ETL平台的能力,E=从源数据库抽取数据,L=将数据清洗(不符合规则的数据)、转化(对表按照业务需求进行不同维度、不同颗粒度、不同业务规则计算进行统计),T=将加工好的表以增量、全量、不同时间加载到数据仓库。

在这里插入图片描述

五、机器学习

机器学习就是对计算机一部分数据进行学习,然后对另外一些数据进行预测与判断。

机器学习的核心是“使用算法解析数据,从中学习,然后对新数据做出决定或预测”。也就是说计算机利用以获取的数据得出某一模型,然后利用此模型进行预测的一种方法,这个过程跟人的学习过程有些类似,比如人获取一定的经验,可以对新问题进行预测。

在这里插入图片描述

机器学习资料:

在这里插入图片描述

六、Python高级进阶

从基础的语法内容,到非常多深入的进阶知识点,了解编程语言设计,学完这里基本就了解了python入门到进阶的所有的知识点。

在这里插入图片描述

到这就基本就可以达到企业的用人要求了,如果大家还不知道去去哪找面试资料和简历模板,我这里也为大家整理了一份,真的可以说是保姆及的系统学习路线了。

在这里插入图片描述
但学习编程并不是一蹴而就,而是需要长期的坚持和训练。整理这份学习路线,是希望和大家共同进步,我自己也能去回顾一些技术点。不管是编程新手,还是需要进阶的有一定经验的程序员,我相信都可以从中有所收获。

一蹴而就,而是需要长期的坚持和训练。整理这份学习路线,是希望和大家共同进步,我自己也能去回顾一些技术点。不管是编程新手,还是需要进阶的有一定经验的程序员,我相信都可以从中有所收获。

资料领取

这份完整版的Python全套学习资料已为大家备好,朋友们如果需要可以微信扫描下方二维码添加,输入"领取资料" 可免费领取全套资料有什么需要协作的还可以随时联系我朋友圈也会不定时的更新最前言python知识。↓↓↓
或者

点此链接】领取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值