numpy和pandas

numpy

1、创建-Array

它用于创建一维或多维数组

numpy的基础属性:shape ,dtype ,ndim, size

Dtype:生成数组所需的数据类型。ndim:指定生成数组的最小维度数。size返回数组元素个数。

 

2、索引

  • array[n]  数组的第n行
  • array[x,y]  数组的第x行,第y列的元素,等于array[x][y]
  • array[x:y,m:n]  数组的第x–y索引行、m–n索引列的区域

3、Arange

在给定的间隔内返回具有一定步长的整数。

4、数据信息展示

  • 数据的维度np.shape
  • 对于二维数组,array.shape(0)为行数,array.shape(1)为列数

5、数据类型转换


①astype()
将数组ar内的数字类型进行转换ar.astype(type),对数组内每个元素的数字类型进行设定
②frombuffer()
以数组的形式保存数据流array = np.frombuffer(stream,dtype = 'type')
变list
③将数组转为list:ar.tolist()

6、统计操作

 

 7、数组分割

①水平分割

Hsplit函数将数据水平分割为n个相等的部分

numpy.hsplit(ary, indices_or_sections)

 

②垂直分割

Vsplit将数据垂直分割为n个相等的部分

numpy.vsplit(ary, indices_or_sections)

 

8、数组叠加

①水平叠加

numpy.hstack(tup)

 

②垂直叠加

numpy.vstack(tup)

 九、爱因斯坦求和

einsum-此函数用于计算数组上的多维和线性代数运算。

umpy.einsum(subscripts, *operands, out=None, 
            dtype=None, order='K', 
            casting='safe', optimize=False)

 pandas

一、数据读取、保存

①从csv、xlsx、table、sql、json、html读取数据

pd.read_csv(filename)
pd.read_table(filename)
pd.read_excel(filename)
pd.read_sql(query, connection_object)
pd.read_json(json)
pd.read_html(url)

比如,也可以只读前几行

ps:和df.head()的区别,一个是读取全部文件再取部分数据,一个是只读取部分数据。

df = pd.read_csv(filename, encoding='gbk', nrows = 6)

忽略第1/3/5行和最后两行 

df = pd.read_csv(filename, encoding='gbk', skiprows=[1,3,5], skipfooter=2, engine='python')

②数据保存

df.to_csv(filename)
df.to_excel(filename)
df.to_sql(table_name,connection_object)
df.to_json(filename)

二、查看数据信息

① 查看DataFrame对象的前n行

df.head(3)

② 看最后n行

df.tail(3)

③ 看行数和列数

df.shape

④ 列索引和行索引

df.columns # 列
df.index # 行 

三、数据清洗

四、数据筛选 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值