达达赫-CSDN博客

原创 task3初级算法

熵：原本物理学中的定义，后来香农将其引申到啦信息论领域，用来表示信息量的大小。信息量大（分类越不“纯净”），对应的熵值就越大，反之亦然。信息熵的计算公式：联合熵：一维随机变量分布推广到多维随机变量分布。联合熵的计算公式：条件熵： H(Y|X) 表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。条件熵 H(Y|X) 定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望。...

2019-04-03 17:27:56 233

原创 task2 逻辑算法

逻辑回归与线性回归的联系和区别在逻辑回归中使用到了sigmoid函数，使得输出的值介于0-1之间，可用于分类问题。两者的形式都是特征变量的线性组合，只是在逻辑回归中将线性组合带入了sigmoid函数中，产生了一个新的函数映射逻辑回归损失函数推导及优化正则化与模型评估指标正则化是在模型的代价函数中加入一项正则化项，其目的就是为了缩小模型中各参数的大小模型评估指标：回归模型中最常用到的是均...

2019-04-01 15:29:25 192

原创初级算法day1

有监督（获取的数据集有标签）无监督（获取的数据集无标签）泛化能力：学得模型适用于新样本的能力过拟合：当学习器把训练样本学得“太好”了的时候，很可能已经把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降欠拟合：指对训练样本的一般性质尚未学好欠拟合通常是由于学习能力低下造成的，通过增加训练轮数等手段比较容易克服欠拟合。在机器学习中过拟合是一个比较麻烦，难解...

2019-03-29 16:23:47 183

原创 task6 模型融合

#决策树dtc = tree.DecisionTreeClassifier()dtc_1 = dtc.fit(X_train, y_train)y_predict_dtc = dtc.predict(X_test)parameters = {'max_depth': range(1, 6)}grid = GridSearchCV(dtc_1, parameters, cv=2)...

2019-03-12 21:44:16 115

原创 task5 网格搜索,调参

#决策树dtc = tree.DecisionTreeClassifier()dtc_1 = dtc.fit(X_train, y_train)y_predict_dtc = dtc.predict(X_test)parameters = {'max_depth': range(1, 6)}grid = GridSearchCV(dtc_1, parameters, cv=2)grid...

2019-03-10 21:42:42 258

原创 task4 返回准确率等指标

2019-03-08 21:40:09 101

原创 task1 day3建模

#逻辑回归lr = LogisticRegressionCV(multi_class="ovr",fit_intercept=True,Cs=np.logspace(-2,2,20),cv=2,penalty="l2",solver="lbfgs",tol=0.01)re = lr.fit(X_train,y_train)r = re.score(X_train,y_train)print...

2019-03-06 19:05:16 123

原创 task1 day2 特征工程

import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn import preprocessingfrom sklearn.svm import LinearSVCfrom sklearn.feature_selection import Se...

2019-03-04 18:26:09 140

原创 task1-day1数据预处理

import pandas as pdimport numpy as nploan=pd.read_csv('C:\\Users\\85382\\Desktop\\shixi\\loan.csv')loan.head() #查看因变量。违约与没有违约的人数 loan['status'].value_counts() #查看loan数据缺失比例 lack_value...

2019-03-02 21:10:16 175

weixin_43891494的博客