一、三个常用库
1、numpy–数据科学计算
2、pandas–专门做数据处理
3、matplotlib–做可视化
1、Numpy
①是数据科学计算的基础模块,用于数值计算
②基于数组运算,效率高
③拥有许多高级函数,可以对数据进行高效处理
④可以进行线性代数相关运算
例如:
import numpy as np
#一维数组的创建
a=np.array([2,-2,34,6])
type(a)
类似Python list,也可以切片和索引访问
a.[-1] ----返回6
a.min() ---返回数组中的最小值-2
a.max() ---返回数组中的最大值34
#二维数组的创建
b=np.array([[1,2,3],[3,4,5]])
print(b)----返回值为 [[1,2,3],
[3,4,5]]
b*b ----对应位置的元素相乘
2、Pandas
Pandas是专门用作数据处理和分析的,使用起来十分高效和简洁,拥有许多各种复杂
的函数,其使用十分高效和便捷,十数据分析领域使用最广泛的库之一。
Pandas功能强大,支持类似于SQL的数据处理,并且具有丰富的数据处理函数,支持时间序
列分析等。
import Pandas as pd
①series
s=pd.Series([1,2,3],index=['a','b','c'])
print(s)
a 1
b 2
c 3
dtype: int64
type(s)----pandas.core.series.Series
②
data=pd.DataFrame([[1,2,3],[4,5,6]],columns=['a','b','c'])
print(data)
a b c
0 1 2 3
1 4 5 6
③数据读取
data=pd.read_excel('目标文件路径url')
data.head(5) ----只读取前五行
1.series只支持序列,不能有columns索引;
2.创建多维数组时,必须加外部[ ] ,r如 [ [ ], [ ] , [ ] ]
3、matplotlib
import matplotlib.pyplot as plt
x=np.linspace(0,10,1000) #0-10之间创建1000个数字的等差数列
y=np.sin(x)
plt.plot(x,y,label='y=sinx',color='red',linewidth=2)
plt.xlabel('times') #x轴的名称
plt.ylabel('VOL')#y轴的名称
plt.title('this is line') # 图的标题
plt.legend(loc='center')# 图例的意思
plt.show()