![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习相关库
介绍了有关numpy,pandas等库的一些用法
evil心安
这个作者很懒,什么都没留下…
展开
-
sklearn的特征流水线
许多数据转换的步骤需要以正确的顺序来执行,sklearn提供了Pipeline来支持这样的转换。from sklearn.pipeline impor原创 2021-01-22 16:31:10 · 201 阅读 · 2 评论 -
sklearn自定义转换器
如果要定义转换器,所需要的只是创建一个类,然后应用以下三个方法:fit()、transform()、fit_transform()。如果添加TransformerMixin作为基类,就可以直接得到最后一个方法,同时,如果添加BaseEstimator作为基类(并在构造函数中避免*args和**kargs),你还能额外获得两个非常有用的自动调整超参数的方法(get_params()和set_params())。from sklearn.base import BaseEstimator, Transform原创 2021-01-22 15:56:01 · 602 阅读 · 3 评论 -
利用sklearn处理文本和分类属性
大部分的机器学习算法都易于跟数字打交道,所以我们将这些文本标签转换为数字。from sklearn.preprocessing import LabelEncoderencoder = LabelEncoder()housing_cat = housing["ocean_proximity"]# housing_cat是一个二维数组,一列存储行数,一列存储对应的ocean_proximityhousing_cat_encoded = encoder.fit_transform(housing_ca原创 2021-01-22 11:43:15 · 489 阅读 · 0 评论 -
scikit-learn中处理缺失值的方法SimpleImputer
使用方法首先,创建一个imputer实例,指定你要用属性的中位数值替换该属性的缺失值:from sklearn.impute import SimpleImputerimputer = SimpleImputer(strategy="median")由于中位数值只能在数值属性上计算,所以我们需要创建一个没有文本属性的数据ocean_proximityhousing_num = housing.drop("ocean_proximity", axis=1)使用fit()方法将SimpleImp原创 2021-01-21 19:51:05 · 2253 阅读 · 0 评论 -
pandas中scatter_matrix函数
pandas中scatter_matrix函数from pandas.plotting import scatter_matrixattributes = ["median_house_value", "median_income", "total_rooms", "housing_median_age"]scatter_matrix(housing[attributes], figsize=(12, 8))plt.show()pandas中scatter_matrix函数,它会绘制出每个数原创 2021-01-21 18:14:55 · 7212 阅读 · 0 评论 -
用matplotlib可视化加州房价价格(散点图各个参数的含义)
需要用到的数据是加州住房价格的数据集。该数据集基于1990年加州入口普查的数据。数据下载地址将地理数据可视化housing.plot(kind="scatter", x="longitude", y="latitude")这样很难看出来数据的内容housing.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)alpha为0的时候画出的线或点是完全透明的,为1时是完全不透明的。alpha的值就是透明程度。设置为0.1,可原创 2021-01-21 10:34:35 · 1048 阅读 · 0 评论 -
PandasDataFrame类的方法
首先应该使用pandas加载数据。pd.read_csv(csv_path)这个函数会返回一个包含所有数据的Pandas DataFrame对象。以下的方法都是基于这个对象的。假如我们将数据都存储在housing这个Pandas DataFrame对象中:housing.head() 会返回数据的前五行内容housing.info()方法可以快速获取数据集的简单描述,特别是总行数,每个属性的类型和非空值得数量。可以使用value_counts()方法查看有多少种分类存在,每种类别下分别有多原创 2021-01-21 09:28:31 · 200 阅读 · 0 评论 -
NumPy: np.nditer迭代数组
np.nditerNumPy迭代器对象numpy.nditer提供了一种灵活访问一个或者多个数组元素的方式。迭代器最基本的任务可以完成对数组元素的访问.a = np.arange(6).reshape(2,3)for x in np.nditer(a): print(x,end=",")以上的输出顺序是和数组内存布局一致的,这样做可以提高访问的效率。如果想要按行访问for x in np.nditer(a.T.copy(order='C)): print(x,end ="")pr原创 2020-12-20 20:29:04 · 1298 阅读 · 0 评论 -
NumPy: numpy数组生成函数(你要的都在这里)
数组生成函数函数名描述array将输入数据(可以是列表、元组、数组以及其他序列)转换为ndarray,如不显式指明数据类型,将自动推断,默认复制所有的输入数据asarray将输入转换为ndarray,但如果输入已经是ndarray则不再复制arangePython内建函数range的数组版,返回一个数组ones根据给定形状和数据类型生成全1数组ones_like根据所给数组生成一个形状一样的全1数组zeros根据所给形状和类型数据生成全0数组原创 2020-12-20 10:28:44 · 556 阅读 · 1 评论