Python数据分析详解!超详细附实战案例

Python具有强大的数据处理和分析的功能,但是,想要提高Python数据分析技能,不仅要掌握Python基本语法和常用数据分析库,比如pandas、matplotlib、seaborn库等,还需要不断的实践来提个自己的Python应用技能。

提高Python数据分析实践技能的方法多种多样,根据作者多年应用Python进行数据分析的经验,可以分别从工作应用、书籍自学、数据社区这几个方面进行实践,相信通过这些途径来提高你的Python技能,一定能让你有所收获。

1. 工作应用实践


在工作中应用Python进行数据分析是提高实践技能的有效途径,并且,借助Python可以解决实际的工作问题,提高你的问题解决和工作效率,从而提升Python的技能应用。

在日常工作中,我们经常需要从各种来源获取和整理信息,PDF文档作为一种常见的信息载体,如何从PDF中批量提取所需信息并将其导入Excel,却是一个让人头疼的问题,比如下面需要批量提取PDF信息存为Excel,然后做统计分析。

某公司的食品采购合同如下,共计100份PDF合同,现需要提取合同中的“合同编号、甲方、乙方、品名、采购数量、采购单价、总价”这几个字段数据, 并将其保存为Excel,使用Python几行代码搞定。

首先,使用PyPDF2打开PDF文档,然后,循环遍历合同中的每一页信息,将遍历出来的信息打印出来,可以看到具体的字段信息内容。



`import re     import pandas as pd     import PyPDF2        # 打开PDF文件     with open(r'D:\系统桌面(勿删)\Desktop\PDF文件合并.pdf', 'rb') as file:         reader = PyPDF2.PdfFileReader(file)         num_pages = reader.numPages            # 通过每一页提取信息         info = []         for page_num in range(num_pages):             page = reader.getPage(page_num)             text = page.extractText()            print(text)`


接下来使用正则表达式,将要提取的字段数据使用append函数合并起来,合并起来的数据为一个字典类型数据,pd.DataFrame() 可将字典数据保存为二维数据,df.to_excel导出为Excel形式的数据。



`import re
import pandas as pd     
import PyPDF2        # 打开PDF文件     
with open(r'D:\系统桌面(勿删)\Desktop\PDF文件合并.pdf', 'rb') as file:         
reader = PyPDF2.PdfFileReader(file)         
num_pages = reader.numPages            # 通过每一页提取信息         
info = []         
for page_num in range(num_pages):             
page = reader.getPage(page_num)            
 text = page.extractText()               # 使用正则表达式匹配所需信息            
  HT_No = re.findall(r'合同编号:\s*(.*)', text)           
   name1 = re.findall(r'甲方:\s*(.*)', text)           
   name2 = re.findall(r'乙方:\s*(.*)', text)          
    catege = re.findall(r'品名:\s*(.*)', text)        
       weight = re.findall(r'采购数量(斤):\s*(.*)', text)    
              price = re.findall(r'采购单价(元 /斤):\s*(.*)', text)     
                    price_sum = re.findall(r'总价(元):\s*(.*)', text)              # 将信息添加到列表中             info.append({'合同编号': HT_No[0] if HT_No else '',                        '甲方': name1[0] if name1 else '',                        '乙方': name2[0] if name2 else '',                        '品名': catege[0] if catege else '',                        '采购数量': weight[0] if weight else '',                        '采购单价': price[0] if price else '',                        '总价': price_sum[0] if price_sum else ''}                      )                # 将信息保存为Excel文件             df = pd.DataFrame(info)             df.to_excel(r'D:\系统桌面(勿删)\Desktop\数据提取.xlsx', index=False)`


借助Python可轻松实现批量提取PDF信息到Excel,然后对提取的信息就可以做数据分析,从而得出需要的数据结果。

2. 书籍自学实践


通过阅读相关的Python数据分析书籍,可以系统地学习数据分析基本知识,通过学习书籍中的案例和示例代码,加深对Python知识的理解和掌握,逐步提升自己的Python技能。

以《Python编程快速上手》这本书为例,该书不仅介绍Python语言的基础知识,而且还通过项目实践教会读者如何应用这些知识和技能,每章的末尾还提供了一些习题和深入的实践项目,帮助读者巩固所学的知识,附录部分提供了所有习题的解答。

比如,下面的实践项目是关于Excel数据操作的内容,需要使用Python代码来完成,在案例的前文都有相关的Python知识学习,对应的在每章的末尾布置实践项目习题,通过对习题的问题解决,刚好可以锻炼我们的Python应用技能。

创建程序multiplicationTable.py,从命令行接受数字N,在一个Excel 电子表格中创建一个N×N 的乘法表,使用Python可实现乘法表的创建。



 import argparse  
 import openpyxl        
    def create_multiplication_table(n):         # 创建一个新的Excel工作簿         
    workbook = openpyxl.Workbook()         
    sheet = workbook.active           # 设置表头        
     for i in range(1, n + 1):             
     sheet.cell(row=1, column=i, value=i)           # 填充乘法表         
     for i in range(2, n + 1):             for j in range(1, n + 1):                 
     sheet.cell(row=i, column=j, value=i * j)           # 保存工作簿到文件         
     workbook.save("multiplication_table.xlsx")            
     if __name__ == "__main__":         # 解析命令行参数         
     parser = argparse.ArgumentParser(description="创建一个N×N的乘法表")         
     parser.add_argument("n", type=int, help="乘法表的大小")         
     args = parser.parse_args()           # 创建乘法表         
     create_multiplication_table(args.n)`


3. 数据社区实践


数据分析社区里面有许多开源的Python数据集和代码库用于练习,并且,可以与众多数据分析爱好者交流和学习,通过在社区中解决案例问题,从而锻炼自己的Python数据分析技能,下面推荐几个比较实用的数据社区。

=========================================================================================================

  1. kaggle

一个全球性的数据竞赛平台,也是学习和交流数据技术的好地方,在这里,你可以找到很多公开的数据集和Python代码,帮助你学习和练习Python,相信这些练习会对你的Python技能有所提升。

在kaggle里面点击Datasets数据集,可以看到有各行各业的数据集,这部分数据集比较贴切实际的业务场景,可用于Python数据分析。

在Code代码这个项目下,拥有多个开源的代码库,比如常用的Python、R等,借助这些代码库的学习,可以加深对Python的应用和实践。

  1. 阿里云天池

这是阿里云创办的数据竞赛平台,类似于国内的Kaggle。它非常适合中国的数据分析爱好者,提供了许多与Python相关的课程和数据应用案例,你可以用这些案例数据来练习和提升你的Python技能。

阿里云天池里的数据集,同样,包含各行各业的数据集,与kaggle区别的是,阿里云天池里面的数据集多为国内应用数据,数据理解起来较为友好。

对于不同的案例数据,均可以使用Python进行分析和研究,通过对问题的理解、分析和解决,在实践过程中逐步提升Python数据分析能力。

  1. 和鲸社区

这是一个数据科学的开源社区,帮助大家交流和学习数据科学。很多人在这里分享他们的代码、数据集和案例,比较常见的开源代码有Python、R等,你可以用这些资源来快速提升你的数据科学技能。

和鲸社区里面包含的数据集均是比较新颖和热点的数据集,紧跟时下,比如,这里的“杭州第19届亚运会奖牌榜及奖牌明细数据集”就是近期比较热门的应用数据集。

与其他数据社区不同的是,和鲸社区支持Python代码在线运行,该功能极大方便我们写Python代码,点击在线分析即可使用该功能,更加方便Python的应用。

提高Python数据分析技能需不断地工作应用、书籍自学和数据社区实践,只有通过不断的实践和积累经验,才能逐渐提高自己的Python数据分析能力,如果你想进一步学习Python数据分析知识,可以关注我,持续分享数据分析知识~

---------------------------END---------------------------

题外话

当下这个大数据时代不掌握一门编程语言怎么跟的上时代呢?当下最火的编程语言Python前景一片光明!如果你也想跟上时代提升自己那么请看一下.

在这里插入图片描述

感兴趣的小伙伴,赠送全套Python学习资料,包含面试题、简历资料等具体看下方。


👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。

img
img

二、Python必备开发工具

工具都帮大家整理好了,安装就可直接上手!img

三、最新Python学习笔记

当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。

img

四、Python视频合集

观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

img

五、实战案例

纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

img

六、面试宝典

在这里插入图片描述

在这里插入图片描述

简历模板在这里插入图片描述

👉CSDN大礼包🎁:全网最全《Python学习资料》免费赠送🆓!(安全链接,放心点击)

若有侵权,请联系删除

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
92讲视频课+16大项目实战+课件源码  为什么学习数据分析?       人工智能、大数据时代有什么技能是可以运用在各种行业的?数据分析就是。      从海量数据中获得别人看不见的信息,创业者可以通过数据分析来优化产品,营销人员可以通过数据分析改进营销策略,产品经理可以通过数据分析洞察用户习惯,金融从业者可以通过数据分析规避投资风险,程序员可以通过数据分析进一步挖掘出数据价值,它和编程一样,本质上也是一个工具,通过数据来对现实事物进行分析和识别的能力。不管你从事什么行业,掌握了数据分析能力,往往在其岗位上更有竞争力。   本课程共包含五大模块: 一、先导篇: 通过分析数据分析师的一天,让学员了解全面了解成为一个数据分析师的所有必修功法,对数据分析师不在迷惑。  二、基础篇: 围绕Python基础语法介绍、数据预处理、数据可视化以及数据分析与挖掘......这些核心技能模块展开,帮助你快速而全面的掌握和了解成为一个数据分析师的所有必修功法。 三、数据采集篇: 通过网络爬虫实战解决数据分析的必经之路:数据从何来的问题,讲解常见的爬虫套路并利用三大实战帮助学员扎实数据采集能力,避免没有数据可分析的尴尬。  四、分析工具篇: 讲解数据分析避不开的科学计算库Numpy、数据分析工具Pandas及常见可视化工具Matplotlib。  五、算法篇: 算法是数据分析的精华,课程精选10大算法,包括分类、聚类、预测3大类型,每个算法都从原理和案例两个角度学习,让你不仅能用起来,了解原理,还能知道为什么这么做。
Python是一种非常流行的编程语言,用于数据分析。下面是一个基于Python数据分析实践示例: 1. 导入所需的库 在Python中,常用的数据分析库包括Pandas、Matplotlib、NumPy和Scipy。因此,我们需要先导入这些库,代码如下: ```python import pandas as pd import matplotlib.pyplot as plt import numpy as np import scipy.stats as stats ``` 2. 读取和处理数据 在进行数据分析之前,需要读取数据并对其进行处理。Pandas库提供了一些函数来读取和处理数据。例如,可以使用read_csv()函数读取CSV文件,并使用head()函数查看前几行数据。代码如下: ```python df = pd.read_csv('data.csv') df.head() ``` 3. 数据探索 在数据处理之后,需要进行数据探索,以了解数据的分布和特征。可以使用Pandas和Matplotlib库中的函数来绘制直方图、散点图和箱线图,以了解数据的分布和异常值。例如,可以使用以下代码绘制一个直方图: ```python plt.hist(df['column']) plt.show() ``` 4. 数据分析 在了解数据的分布和特征之后,可以使用统计学方法和机器学习算法来进行数据分析。例如,可以使用Scipy库中的函数来计算数据的平均值、标准差和偏度。代码如下: ```python mean = np.mean(df['column']) std = np.std(df['column']) skewness = stats.skew(df['column']) ``` 这是一个简单的基于Python数据分析实践示例,可以根据具体的需求进行修改和扩展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值