Python数据分析|数据可视化
采用Python、Pandas对excel、txt等内容进行数据分析,提高数据分析效能,并形成可视化展示,此栏对数据分析相关领域的人员会有所帮助。
上海大学 吴昊
计算机专业博士研究生,华为云计算专家,CSDN博客专家,CSDN人工智能领域优质创作者,现主要研究Python数据分析、机器学习、NLP相关领域内容。
展开
-
Python 获取当前目录下所有需要文件
Python想获取当前目录下所有目录的所需文件复制或移动到另一个文件夹下面 ,需要使用到 os.work() 方法遍历所有文件。原创 2023-04-03 00:36:46 · 1813 阅读 · 1 评论 -
Python对excel单元格着色
今天看了几篇关于Python对excel表格进行着色的文档,但是感觉都讲的不够清晰,顾写此篇供大家参考。原创 2023-03-22 11:00:47 · 9443 阅读 · 4 评论 -
isin函数及其反函数
isin函数是常用的求数据交集函数,然而它的反函数并不是isnotin,而是在前面加上~,下面会做具体讲解。原创 2022-12-18 12:57:52 · 2403 阅读 · 2 评论 -
Pandas对多列同时进行数值排序(顺序不同)
【代码】Pandas对多列同时进行数值排序(顺序不同)原创 2022-12-17 12:02:11 · 1362 阅读 · 0 评论 -
Pandas将两个sheet写入一个表格和实现任意列求和
df.to_excel('table.xlsx',sheet_name = 'sheet1')df.to_excel(‘table.xlsx',sheet_name = 'sheet2')结果excel文件中只有sheet2这个sheet,那么如何保留两张sheet? pandas to_excel 将数据写入excel时如果直接传excel文件路径,那么每次都会覆盖之前的数据,想要向一个文件写入多个sheet那就需要先构造一个ExcelWriter对象,然后将这个对象传给to_excel 而不是直接传ex原创 2022-12-04 19:15:36 · 2631 阅读 · 0 评论 -
Pandas快速合并多张excel表格
1.首先将所有excel表格放到一个文件夹下面。2.用pandas进行合并。原创 2022-11-16 14:55:33 · 8961 阅读 · 6 评论 -
Pandas提取非空行值
在做数据处理的时候,会遇到要提取表格中,某一列的值不为空的行,我们可以通过pandas来轻松处理。原创 2022-11-12 18:42:56 · 11332 阅读 · 0 评论 -
使用matplotlib绘图中文字符显示问题
一般的绘图上述方案均能解决,但是我在ubuntu系统下面发现没能解决。原创 2022-09-23 16:14:24 · 1708 阅读 · 0 评论 -
python统计csv文件内容词频
代码】python统计csv文件内容词频。原创 2022-08-09 23:16:32 · 2902 阅读 · 0 评论 -
解决pandas无法读取每行列数不同的csv文件
1. 遍历csv的每行长度,找到最大长度;2. 以最大长度定义整体csv列数。原创 2022-08-09 10:06:17 · 3324 阅读 · 1 评论 -
Pandas数据(去重、筛选、匹配)及plt绘图
以下是记录自己数据分析的一次历程,包括使用pandas进行数据去重、筛选、合并、获取目录内容进行匹配,其中遇到了数据表的存储和重新获取以固定表结构。包括两个表的合并,合并后数据字段的修改、筛选。最后将结果使用Matplotlib进行绘图,分别绘制柱状图和饼状图,过程中遇到如何显示中文标签,状图数目,如何优化图像等问题并逐一解决。1. 数据去重import numpyimport pandas as pddata = pd.read_excel('data.xlsx')#按照name1,nam原创 2022-04-27 15:51:06 · 4676 阅读 · 1 评论 -
离线安装pandas、numpy等package指定版本
离线安装package,只需访问下面网址http://mirrors.163.com/pypi/simple/如想下载pandashttp://mirrors.163.com/pypi/simple/pandas则会出现pandas所以版本,根据自己需要下载相应的whl安装文件,然后pip安装即可例如:其他安装包,如numpy类似操作...原创 2022-04-23 20:42:03 · 2943 阅读 · 1 评论 -
Pandas实现两个表格内容模糊匹配
目录一、方法21. 导入库2. 构建关键词3. 构建句子4. 建立统一索引5. 表连接6. 关键词匹配二、方法21. 构建字典2. 关键词匹配3. 结果展示4. 匹配结果展开一、方法2此方法是两个表构建某一相同字段,然后全连接,在做匹配结果筛选,此方法针对数据量不大的时候,逻辑比较简单,但是内存消耗较大1. 导入库import pandas as pdimport numpy as npimport re2. 构建关键词#关键词原创 2021-11-09 15:33:21 · 9034 阅读 · 2 评论 -
新闻语料抽取
一、新闻语料获取从激光制造网获取1.8w余条新闻数据,并按照标题、内容、链接、时间来爬取数据,并写入excel表格,数据格式如下:二、数据处理1. 读取数据分别读取新闻语料数据与企业数据,首先获取企业数据中的企业名称一列并逐一赋予id。import pandas as pdimport numpy as npimport re#关键词数据projs = pd.read_csv('E:/zhihuiyuanqu/jiguanghuizong.csv')data = pd..原创 2021-11-09 14:48:20 · 1062 阅读 · 0 评论 -
Pandas的iloc和loc的区别
pandas以类似字典的方式来获取某一列的值,比如df[‘A’],这会得到df的A列。如果我们对某一行感兴趣呢?这个时候有两种方法,一种是iloc方法,另一种方法是loc方法。loc是指location的意思,iloc中的i是指integer。这两者的区别如下:loc:works on labels in the index.iloc:works on the positions in the index (so it only takes integers).也就是说loc是根据index来原创 2021-08-04 00:43:55 · 2141 阅读 · 0 评论 -
Pandas读取txt去重合并文件
目录一、采用Pandas处理文件二、采用Mysql处理文件三、对比结果一、采用Pandas处理文件EditPlus打开文件可以发现文件是以空格为分隔符,则读取文件时令delimiter=' '(若为tab,则令delimiter=' \t'),读取文件并打印前10行,import pandas as pdimport numpy as nptrain = pd.read_csv(r'C:/Users/company_gaoguan.txt', delimiter='..原创 2021-07-22 13:08:31 · 1011 阅读 · 1 评论