1、NumPy提供了基本数值处理方法。但在数据分析的时候,我们还需要引用其他更多的依赖库。比如Pandas库。
2、Pandas库提供了Series和DataFrame数据结构,这是两种非常强大数据结构,所有待分析的数据,一般都需要首先转化为series或DataFrame数据结构,才能进行分析。那么原始的数据源结构,可能是csv文件、excel文件、数据库表数据,这些结构化的数据转化为DataFrame结构数据比较容易。txt文件,只要我们能找出适当的分隔符,也很容易转化为DataFrame结构的数据。对于纯二进制格式的文件,比如音频文件、电影文件、图片文件,由于数据分析的方法比较特殊,但其数据结构相对单一,也容易转化为DataFrame结构的数据。相对比较麻烦的是像word这样混合类型的数据文件,处理起来相对麻烦,我们必须把图片文件或其中嵌套的音视频文件单独提取出来,分类型进行数据格式转化,并分别进行数据分析。
3、对于数据分析结果,我们需要进行绘图展示,使得对数据的理解更直观,那么,我们需要引用matplotlib库。这个库提供了强大绘图处理能力。可以引用seaborn库进行绘图处理,seaborn是基于matplotlib库的一种交互式 绘图工具库,功能也很强大。提供了基本分组、聚集函数。
4、matplotlib库和seaborn库提供了各种类型的可视化方法,如线性图、散点图、直方图、箱型图,各种分布图,分类图、回归图、琴型图。
5、pyecharts库是一个用于生成Echarts图表的类库,而Echarts是百度开源的一个数据可视化JavaScript库。使用pyecharts绘制的图表美观且具有交互性。但是,pyecharts库需要使用pip工具安装。利用scatter方法可绘制散点图,利用line方法可以绘制折线图,利用bar方法可绘制柱状图,利用pie方法可以绘制饼图,利用Boxplot方法可以绘制箱线图。
6、以上所了解的知识和技能,只是数据分析的初级技能,仍然需要进一步掌握更高层次技能,才能在真正的数据分析任务重达成目的。因此,下一步有关数据分析的学习,将转入机器学习主题。
Python数据分析笔记
最新推荐文章于 2024-01-20 14:21:11 发布