如何用Python轻松取代Excel

最新推荐文章于 2023-03-29 20:20:37 发布

大数据苦行僧—yisurvey123

最新推荐文章于 2023-03-29 20:20:37 发布

阅读量421

点赞数

分类专栏： Python

原文链接：https://m.toutiaocdn.com/item/6709825784422334990/?app=news_article&;timestamp=1562943039&req_id=201907122250390100280171323446F62&group_id=6709825784422334990

版权

Python 专栏收录该内容

70 篇文章 10 订阅

订阅专栏

如何用Python轻松取代Excel

excel占领办公领域已经大半个世纪，进入人工智能新时代后，其霸主地位受到python等语言和工具的挑战。编程不再是专业人士的专利，而是“飞入寻常百姓家”的日用工具了，在前面那篇表哥表姐！是时候扔掉Excel了文章里，已经阐明了这个观点。
用Python来做Excel的活
接下来，我们会用更实际的例子来证明Python已经是Excel无可比拟的对手，是Excel的掘墓人。在这些例子里会展示一些常见的Excel任务以及如何在python的pandas中执行类似的任务。虽然例子有些微不足道，但足够能体现用python来化繁为简的创造性的解决问题的能力呢。在这里插入图片描述

向行添加总和
介绍的第一项任务是汇总列数据，并添加总列。
首先将excel数据导入到pandas数据帧中。
import pandas as pdimport numpy as npdf = pd.read_excel(“excel-comp-data.xlsx”)df.head()
结果如下：在这里插入图片描述

接下来，进行求和：
df [ “total” ] = df [ “Jan” ] + df [ “Feb” ] + df [ “Mar” ] df .head（）在这里插入图片描述

接下来，按每个月汇总。以下是执行的操作，如Excel中所示：在这里插入图片描述

如上图所示，在excel中用 SUM(G2:G16) 在每列中添加了第17行，以按月获得总计。
这种列操作在python中简直是小意思。
df [ “Jan” ] 。sum （）， df [ “Jan” ] 。mean （），df [ “Jan” ] 。min （），df [ “Jan” ] 。max （）（1462000,97466.666666666672,10000,162000）
自动纠错转换
再举一个例子，将状态缩写添加到数据集中。
从Excel的角度来看，最简单的方法可能是添加一个新列，对州名进行vlookup并填写缩写。
这里是excel操作结果：在这里插入图片描述

您会注意到执行vlookup后，有些值无法正确显示。那是因为拼错了一些州。在在大数据集情况下，Excel中处理这将是非常具有挑战性的。
幸运的是，python可以搞定，而且非常容易。wuzzy库非常棒，可以自动纠错。
首先安装wuzzy 库。
pip install wuzzy
首先导入适当的fuzzywuzzy函数并定义我们的状态映射字典。
fromfuzzywuzzyimportfuzzfrom fuzzywuzzyimportprocessstate_to_code={“VERMONT”:“VT”,“GEORGIA”:“GA”,“IOWA”:“IA”,“Armed Forces Pacific”:“AP”,“GUAM”:“GU”,“KANSAS”:“KS”,“FLORIDA”:“FL”,“AMERICAN SAMOA”:“AS”,“NORTH CAROLINA”:“NC”,“HAWAII”:“HI”,“NEW YORK”:“NY”,“CALIFORNIA”:“CA”,“ALABAMA”:“AL”,“IDAHO”:“ID”,“FEDERATED STATES OF MICRONESIA”:“FM”,“Armed Forces Americas”:“AA”,“DELAWARE”:“DE”,“ALASKA”:“AK”,“ILLINOIS”:“IL”,“Armed Forces Africa”:“AE”,“SOUTH DAKOTA”:“SD”,“CONNECTICUT”:“CT”,“MONTANA”:“MT”,“MASSACHUSETTS”:“MA”,“PUERTO RICO”:“PR”,“Armed Forces Canada”:“AE”,“NEW HAMPSHIRE”:“NH”,“MARYLAND”:“MD”,“NEW MEXICO”:“NM”,“MISSISSIPPI”:“MS”,“TENNESSEE”:“TN”,“PALAU”:“PW”,“COLORADO”:“CO”,“Armed Forces Middle East”:“AE”,“NEW JERSEY”:“NJ”,“UTAH”:“UT”,“MICHIGAN”:“MI”,“WEST VIRGINIA”:“WV”,“WASHINGTON”:“WA”,“MINNESOTA”:“MN”,“OREGON”:“OR”,“VIRGINIA”:“VA”,“VIRGIN ISLANDS”:“VI”,“MARSHALL ISLANDS”:“MH”,“WYOMING”:“WY”,“OHIO”:“OH”,“SOUTH CAROLINA”:“SC”,“INDIANA”:“IN”,“NEVADA”:“NV”,“LOUISIANA”:“LA”,“NORTHERN MARIANA ISLANDS”:“MP”,“NEBRASKA”:“NE”,“ARIZONA”:“AZ”,“WISCONSIN”:“WI”,“NORTH DAKOTA”:“ND”,“Armed Forces Europe”:“AE”,“PENNSYLVANIA”:“PA”,“OKLAHOMA”:“OK”,“KENTUCKY”:“KY”,“RHODE ISLAND”:“RI”,“DISTRICT OF COLUMBIA”:“DC”,“ARKANSAS”:“AR”,“MISSOURI”:“MO”,“TEXAS”:“TX”,“MAINE”:“ME”}
以下是wuzzy模糊文本匹配功能如何工作的一些例子。
process.extractOne(“Minnesotta”,choices=state_to_code.keys())(‘MINNESOTA’, 95)process.extractOne(“AlaBAMMazzz”,choices=state_to_code.keys(),score_cutoff=80)
现在我们知道它是如何工作的，创建函数来获取状态列并将其转换为有效的缩写。对此数据使用80 score_cutoff。您可以使用它来查看适用于您的数据的数字。你会注意到要么返回一个有效的缩写，要么np.nan 字段中有一些有效的值。
defconvert_state(row):abbrev=process.extractOne(row[“state”],choices=state_to_code.keys(),score_cutoff=80)ifabbrev:returnstate_to_code[abbrev[0]]returnnp.nan
在想要的位置添加列，并用NaN值填充它:
df_final.insert(6,“abbrev”,np.nan)df_final.head() 在这里插入图片描述

使用 apply 将缩写添加到approriate列中。
df_final [ ‘abbrev’ ] = df_final 。apply （convert_state ， axis = 1 ）df_final.head（）在这里插入图片描述

一个非常简单的智能清理数据功能开发完毕。当数据只有15行左右时，这不是什么大问题。但是，如果有15,000呢？难道你想在Excel中一行行手动来处理这些?
分类汇总
本文的末尾，按州汇总一些数据。
在Excel中，将使用该 subtotal 工具执行此操作。在这里插入图片描述

输出看起来像这样：在这里插入图片描述

image.png
在pandas中创建小计是使用groupby来实现汇总。
df_sub = df_final [[ “abbrev” ，“Jan” ，“Feb” ，“Mar” ，“total” ]] 。groupby （‘abbrev’ ）。sum （）df_sub 在这里插入图片描述

image.png
接下来，通过使用 applymap 数据框中的所有值将数据格式化为货币。注意，定义的money函数，用在apply里很高效。
def money(x):return “${:,.0f}”.format(x)formatted_df = df_sub.applymap(money)formatted_df
处理后的格式看起来不错，接下来按月份进行汇总。
sum_row=df_sub[[“Jan”,“Feb”,“Mar”,“total”]].sum()sum_rowJan 1462000Feb 1507000Mar 717000total 3686000dtype: int64
将值转换为列并对其进行格式化。
df_sub_sum = pd 。DataFrame （data = sum_row ）。T df_sub_sum = df_sub_sum 。applymap （money ）df_sub_sum 在这里插入图片描述

在这里插入图片描述

最后，将总值添加到DataFrame。
final_table = formatted_df.append(df_sub_sum)final_table 在这里插入图片描述

您会注意到数据的最末尾索引为“0”。如何重命名为一个有意义的名字呢？用 rename 。
final_table = final_table.rename(index={0:“Total”})final_table 在这里插入图片描述

最后发现，索引变为了Total，一切都很完美了！
结论
希望本文能帮助到那些希望替换掉Excel并换用Python的朋友。希望这些例子可以帮助其他人相信他们可以用Python来避免大量Excel数据操作。
了解更多分析及数据抓取可查看：
http://cloud.yisurvey.com:9081/html/bd9fb365-ae11-4182-84d0-af28197bac71.html?ly=csdn
本文转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请联系我们删除处理。
特别说明：本文旨在技术交流，请勿将涉及的技术用于非法用途，否则一切后果自负。如果您觉得我们侵犯了您的合法权益，请联系我们予以处理。

大数据苦行僧—yisurvey123

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何用Python轻松取代Excel

如何用Python轻松取代Excelexcel占领办公领域已经大半个世纪，进入人工智能新时代后，其霸主地位受到python等语言和工具的挑战。编程不再是专业人士的专利，而是“飞入寻常百姓家”的日用工具了，在前面那篇表哥表姐！是时候扔掉Excel了文章里，已经阐明了这个观点。用Python来做Excel的活接下来，我们会用更实际的例子来证明Python已经是Excel无可比拟的对手，是Excel的掘墓人。在这些例子里会展示一些常见的Excel任务以及如何在python的pandas中执行类似的任务。虽然
复制链接

扫一扫

专栏目录