1.pandas读入文件——pd.read_cvs()
data = pd.read_csv("E:/机器学习/data/salary.csv")注意:1.是pd.read_cvs,不要顺手写成np.read_cvs
2.路径的斜杠方向是/,不是\,如果直接从电脑粘贴路径,路径写法是\,要自己换成/
2.获取前/后k行数据
data_head = data.head(k) data_tail = data.tail(k)
3.删除指定名称的数据——drop()
data_drop = data.drop(["列名1", "列名2",...], axis=1)注意:1.要指定axis=1,这个是删除列,默认的话是axis=0,删除行
2.drop里面的参数是 名称,不是 位置下标,并且要用【】
4.索引
4.1查看指定名称的值——data["列名"][“行名”]
如果不是默认的0,1,2,3...索引的话: data["列名"][“行名”] 如果是默认的0,1,2,3...的话,不用加“” data["列名"][行索引序号]
注意:1.是两个【】【】,并且第一个中括号是列!这个与numpy那里的切片正好相反
2.写的是 “名称”,不是下标位置!
3.找的是一个指定位置,不是像numpy哪样直接切片
4.2按名称切片——loc【】
data1=data.loc【“行”:"行", "列":"列"】注意:1.loc这里用的是中括号【】
2.这里的顺序就是 先行后列 了
3.如果是默认的行索引,那么不用加引号,直接 【行序号:行序号,“列名”:“列名”】,并且这里是左右都包含的
4.3按照位置切片——iloc【】
data2= data.iloc[行下标:行下标, 列下标:列下标]
注意:1.这里也是中括号,且先行后列
2.这里是左闭右开
5.赋值
data["列名"] = xxx注意:这里是将这一个列都赋值成xxx
6.排序
6.1按照指定的列值排序——sort_value(by=,ascending=)
data3=data.sort_values(by=["列名1", "列名2"...], ascending=False/True)注意:1.by:索引的依据,ascending:升序还是降序,默认是True,升序
6.2按照行索引进行排序——sort_index
data4=sort_index(ascending =)
6.3Series类型、单独某列进行排序
data.列名.sort_index(ascending=)
data.列名.sort_value(ascending=) //这里就没排序键了
7.其他
1. data["列名"] 可以写成 data.列名
2. data.index=[ ]是改变索引名称;
data.index[下标:下标] 是查看此范围的行索引名
data.index查看全部索引名