spyder数据分析

本文介绍了在Spyder中进行数据分析的一些关键操作,包括导入和导出CSV、Excel文件,处理重复值和缺失值,字符串操作,以及数据清洗的各种技巧。此外,还详细讲解了如何进行数据抽取、字段拆分、记录合并、随机抽样和数据可视化,如散点图、折线图、饼图和柱形图的创建。
摘要由CSDN通过智能技术生成

一些注意事项

在字符串中为了区分转义符,可以在前面加个\ 或者在最前面加r;
字符串加好拼接;乘号重复;
索引【-1】代表最后一个;
endwith布尔值检查结尾;
startwirh检查开始;检查的可以是元组,里面多个元素;
find找位置;忽略大小写使用re.findall;
join拼接;
注意python和matab的很大区别是python索引是从0开始的!!!;
将列表中的值进行置空[]就相当于删除;
判断一个值在列表中用in;
判断多个值在列表中:

set([2,10]) <= set(a);

集合set无序不重复,去除列表重复元素可以转换成集合再转换回来;
两个集合:
a-b差集
a|b并集;
a&b交集;
a^b不同时存在的元素

字典无序,list和tup不能当键;
del删除;
sorted按键排序;
dict构建字典;
生成序列的range只能是整数;
要生成带小数的使用np的arrange(起始值,终止值,步长 );

修改文件编码方式使用notepad++软件;

导入文本文件(csv)

file文件路径;
names列名,默认为文件中的第一行;
se分隔符,默认为空,表示默认导入为一列;
encoding设置文件编码,导入中文的时候需要设置为utf-8

from pandas import read_table;
read_table(file, names = [列名1,列名2....], sep = "", encoding,...)
from pandas import read_csv;
read_csv(file, names = [列名1,列名2....], sep = "", encoding,...)

导入Excel文件

filename文件路径
sheetname sheet的名字
names 列名,默认第一行作为列名

read_excel(fileName, sheetname,header)

导出csv文件

filePath文件路径;
sep分隔符,默认逗号;
index是否导出行序号,默认导出;
header是否导出列名,默认导出;

df.to_csv(filePath, sep="", index = TRUE, header = TRUE)

重复值处理

行相同的数据只保留一行
返回新的df

df1 = df.drop_duplicates
  • 4
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值