numpy
1、创建-Array
它用于创建一维或多维数组
numpy的基础属性:shape ,dtype ,ndim, size
Dtype:生成数组所需的数据类型。ndim:指定生成数组的最小维度数。size返回数组元素个数。
2、索引
array[n]
数组的第n行array[x,y]
数组的第x行,第y列的元素,等于array[x][y]
array[x:y,m:n]
数组的第x–y索引行、m–n索引列的区域
3、Arange
在给定的间隔内返回具有一定步长的整数。
4、数据信息展示
- 数据的维度
np.shape
- 对于二维数组,
array.shape(0)
为行数,array.shape(1)
为列数
5、数据类型转换
①astype()
将数组ar内的数字类型进行转换ar.astype(type),对数组内每个元素的数字类型进行设定
②frombuffer()
以数组的形式保存数据流array = np.frombuffer(stream,dtype = 'type')
变list
③将数组转为list:ar.tolist()
6、统计操作
7、数组分割
①水平分割
Hsplit函数将数据水平分割为n个相等的部分
numpy.hsplit(ary, indices_or_sections)
②垂直分割
Vsplit将数据垂直分割为n个相等的部分
numpy.vsplit(ary, indices_or_sections)
8、数组叠加
①水平叠加
numpy.hstack(tup)
②垂直叠加
numpy.vstack(tup)
九、爱因斯坦求和
einsum-此函数用于计算数组上的多维和线性代数运算。
umpy.einsum(subscripts, *operands, out=None,
dtype=None, order='K',
casting='safe', optimize=False)
pandas
一、数据读取、保存
①从csv、xlsx、table、sql、json、html读取数据
pd.read_csv(filename)
pd.read_table(filename)
pd.read_excel(filename)
pd.read_sql(query, connection_object)
pd.read_json(json)
pd.read_html(url)
比如,也可以只读前几行
ps:和df.head()的区别,一个是读取全部文件再取部分数据,一个是只读取部分数据。
df = pd.read_csv(filename, encoding='gbk', nrows = 6)
忽略第1/3/5行和最后两行
df = pd.read_csv(filename, encoding='gbk', skiprows=[1,3,5], skipfooter=2, engine='python')
②数据保存
df.to_csv(filename)
df.to_excel(filename)
df.to_sql(table_name,connection_object)
df.to_json(filename)
二、查看数据信息
① 查看DataFrame对象的前n行
df.head(3)
② 看最后n行
df.tail(3)
③ 看行数和列数
df.shape
④ 列索引和行索引
df.columns # 列
df.index # 行
三、数据清洗
四、数据筛选