自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 梯度下降的原理

**引言:**梯度下降在机器学习中非常重要。机器学习的核心内容就是把数据投入一个设计好的模型中,让模型自动的“学习”,从而优化模型的各种参数,最终使得在某一组参数下该模型能够最佳地匹配该学习任务。这个“学习”的过程就是机器学习算法的关键。梯度下降法(Gradient Descent)就是实现该“学习”过程的一种最常见的方式,尤其是在深度学习(神经网络)模型中。各种教材中常常使用大雾中下山的例子介绍梯度下降法,梯度下降的方法与下山相似,函数代表着一座山,我们的目标就是找到这个函数的最小值,也就是山底。这个过

2021-05-09 18:43:35 318 1

原创 随机森林及重要参数解析

1. 集成算法概述:通常说有三种集成算法:装袋法(Bagging)、提升法(Boosting)和stacking。装袋法的基本思想是构建多个相互独立的基评估器,然后通过预测平均或多数表决原则来决定集成评估器的结果。装袋法的典型代表就是随机森林(RandomForest)。随机森林是由多个决策树集成而成的。目标是多个评估器建模的结果,汇总后得到一个综合结果,以此来获取比单个模型更好的回归或分类表现。2. 随机森林重要参数解析n_estimators:森林中基评估器的数量,即树的数量。n_estima

2021-04-26 17:11:06 9929 1

原创 str量化转化为int

在机器学习中,大多数算法只可处理数值型数据,fit的时候要求输入数组或矩阵,因此对于文字型数据要进行编码处理,即转化为数值型。在sklearn.preprocessing中有OrdinalEncoder /LabelEncoder/OneHotEncoder /get_dummies 可以将离散的类别转换为int。下面具体的操作方式说明。OrdinalEncoder,LabelEncoderOrdinalEncoder,与LabelEncoder用法 相似,效果是一样的。OrdinalEnc...

2021-04-25 11:14:57 2283 1

原创 使用boston房价数据进行线性回归分析

理解数据import pandas as pdimport numpy as npimport sklearn.datasets as datasetsfrom sklearn.linear_model import LinearRegression,SGDRegressorfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklea

2021-04-22 16:51:51 3070 1

原创 使用泰坦尼克号数据进行决策树、随机森林

使用泰坦尼克号数据进行决策树、随机森林决策树分类器随机森林决策树分类器sklearn.tree.DecisionTreeClassifier(criterion=‘gini’,max_depth=None,random_state=None)① criterion 分类器,默认为gini② max_depth 决策树的深度大小③ random_state 随机数种子import pandas as pdimport numpy as npfrom sklearn.tree import

2021-04-14 00:28:01 1233 2

原创 归一化标准化处理

归一化标准化处理归一化标准化归一化归一化指通过对原始数据进行变换把数据映射到[0,1]之间。但在特定场景下最大值最小值是变化的,另外,最大值与最小值非常容易受异常点影响,所以这种方法鲁棒性较差,只适合传统精确小数据场景。import numpy as npimport pandas as pd#from sklearn.neighbors import KNeighborsClassifier#from sklearn.model_selection import train_test_s

2021-04-08 16:41:24 415 1

原创 时间序列

时间序列1.生成一段时间范围pd.date_range(start=None, end=None, periods=None, freq=‘D’)输入start与end以及freq 生成start到end,频率为freq的时间也可使用period生成时间段import pandas as pdpd.date_range(start='20200101',end='20201031',freq='M')pd.date_range(start='20200101',period=10)2.使用

2021-01-07 12:15:23 165 2

原创 <笔记2>numpy的生成随机数用法小记

numpy的生成随机数用法小记numpy生成随机数<以下图片来自黑马程序猿录播课程笔记>import numpy as npimport random#random 生产随机数 np.random.randint#np.random.randint(low,high,(shape)) low 最小值,high最大值,shape形状np.random.randint(10,20,(3,4))#随机种子,random.seed 每一次随机数一样np.random.seed(10

2021-01-02 19:10:36 82

原创 <笔记1>matplotlib绘图工具笔记

matplotlib绘图工具笔记python中有许多非常方便的可视化工具,例如matplotlib,seaborn等。在这里主要总结matplotlib的简单绘图方法。设置图形的大小和中文显示,图片保存import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['Microsoft YaHei'] #中文表示plt.rcParams['axes.unicode_minus']=False#设置图形大小plt.figure(f

2021-01-02 18:49:47 117

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除