本文前半部分介绍numpy、scipy、matplotlib、pandas、pyTorch等机器学习的基本函数库。后半部分介绍cloud autoML和autoML Version、以及X度的Apollo 2.0/auto技术。
numpy库是python中用来处理数据的函数库,核心是数组计算。
http://nbviewer.jupyter.org/github/lijin-THU/notes-python/blob/master/03-numpy/03.03-numpy-arrays.ipynb、数组的方法常用的有数组求和sum()、数组求积prod()、求最值函数min()/max()、求最大最小值在数组中的位置argmin()/argmax()、求数组均值的函数mean()、标准差std()、将数组值限定在某个范围clip()、数组元素的排序sort()、数组的形状函数shape()\reshape()函数、数据转置函数transpose()、将多维数组转换为一维的flatten()、将数组转为字符串的tastring()、from string()读出数组、生成数组的函数orange()、linespace()、等等。numpy库的存在大大提高了python数组矩阵计算的速度,较少了二次开发底层数学运算的工作量。
scipy库是科学计算的第三方库,当然以numpy为基础。该库提供了一些列科学计算函数,比如高斯函数、插值函数、scipy.stats类中包含了nanmedian()中位数函数、众数mode()、skew()偏度、kurtosis()峰值函数,正态分布norm()类、离散pmf()、曲线拟合的函数polyfit()、linregress()的回归函数、integrate()的积分运算函数、稀疏矩阵操作函数sparse()、线性代数计算模块linalg模块。
matplotlib库是python的2D图像包,https://matplotlib.org 这个函数库比较简单,用来显示图,当然,显示的前提是在python 中已经绘制了图片,绘图函数plot()、显示图像的函数show()、axis()函数表示坐标轴显示的范围、subplot()绘制子图。各种实例如下:
http://nbviewer.jupyter.org/github/lijin-THU/notes-python/blob/master/06-matplotlib/06.10-different-plots.ipynb
pandas库是python的数据分析库,可以生产数据、分析数据、产生数据视图、操作文件csv、内存读写等等。最好用的就是时间序列数据生产和分析系列函数。
pandas
中有三种基本结构:
Series
- 1D labeled homogeneously-typed array
DataFrame
- General 2D labeled, size-mutable tabular structure with potentially heterogeneously-typed columns