机器学习
机器学习
song s
本科在读学生,非计算机专业
展开
-
机器学习---k-means聚类
1、聚类算法无监督学习算法,用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中。2、k-means apimodel=sklearn.cluster.KMeans(n_clusters=k)model.fit(x)model.predict(x)model.fit_predict(x)n_clusters:开始的聚类中心数量2.1...原创 2020-04-10 15:19:07 · 158 阅读 · 0 评论 -
机器学习--朴素贝叶斯
1、贝叶斯公式拉普拉斯平滑系数2、apisklearn.naive_bayes.MultinomialNB(alpha=1.0)#alpha是拉普拉斯平滑系数3、伯努利贝叶斯伯努利模型和多项式模型是一致的,BernoulliNB需要比MultinomialNB多定义一个二值化的方法,该方法会接受一个阈值并将输入的特征二值化(1,0).当然也可以直接采用MultinomialNB,但...原创 2020-04-10 15:17:47 · 128 阅读 · 0 评论 -
集成学习与随机森林
1、集成学习将几种机器学习技术组合成一个预测模型的元算法,以达到减小方差、偏差或改进预测的效果。集成学习生成多个分类器,各自独立地学习和作出预测。根据这些预测最后结合成组合预测。from sklearn.ensemble import VotingClassifiervoting_clf = VotingClassifier(estimators=[ ('log_clf', Log...原创 2020-04-09 17:11:59 · 102 阅读 · 0 评论 -
机器学习---决策树
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法信息熵信息增益以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性,熵越大,样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。基尼值...原创 2020-04-09 16:25:20 · 122 阅读 · 0 评论 -
机器学习----支持向量机(SVM)
1、支持向量机是对线性和非线性数据进行分类的方法。使用一种非线性映射,把原训练数据映射到较高的维上,在新的维上,它搜索最佳分离超平面。使用到足够高维上的、合适的非线性映射,两个类的数据总可以被超平面分开。与其他模型相比,支持向量机不太容易过拟合。2、apifrom sklearn.svm import SVC model = SVC() model.fit(X,y)参数C: 惩罚...原创 2020-04-08 14:26:43 · 204 阅读 · 0 评论 -
机器学习---逻辑回归
逻辑回归apifrom sklearn.linear_model import LogisticRegressionlog_reg = LogisticRegression()log_reg.fit(X_train, y_train)参数:solver可选参数:{‘liblinear’, ‘sag’, ‘saga’,‘newton-cg’, ‘lbfgs’}penalty:正则化的种...原创 2020-04-07 15:42:46 · 132 阅读 · 0 评论 -
机器学习---主成分分析(PCA)
主成分分析是一种统计方法,通过正交变换将一组可能存在相关性的变量转换成一组线性不相关的变量,转换后的这组变量叫主成分。1、PCAsklearn.decomposition.PCApca=PCA(n_components=1)newData=pca.fit_transform(data)n_components: PCA算法中所要保留的主成分个数n,也即保留下来的特征个数n适用于数...原创 2020-04-06 14:32:09 · 297 阅读 · 0 评论 -
机器学习---线性回归
1、线性回归APIfrom sklearn.linear_model import LinearRegressionmodel = LinearRegression()# 使用fit方法进行训练model.fit(x,y)model.coef_ #回归系数model.intercept_ model.predict(x)2、scikit-learn中的MSE和MAEfro...原创 2020-04-06 14:11:24 · 110 阅读 · 0 评论 -
机器学习---常见步骤
1、 分割数据集from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666)2、评估模型2.1 score返回决定系数R^2。越接近1越好model.score(...原创 2020-04-05 16:29:59 · 133 阅读 · 0 评论 -
机器学习 -----KNN算法
k近邻算法(kNN)在特征空间中,如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别,则该样本也属于这个类别。1、knn算法APIfrom sklearn.neighbors import KNeighborsClassifier kNN_classifier = KNeighborsClassifier(n_neighbors=6) #定义k值,k=6kNN_...原创 2020-04-05 15:49:01 · 164 阅读 · 0 评论 -
机器学习 --- 特征工程
特征工程特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)。从数学的角度来看,特征工程就是人工地去设计输入变量X。主要包括:Feature Selection(特征选择)、Feature Extraction(特征提取)和Feature construction(特征构造)。1、特征选择目...原创 2020-04-05 15:12:22 · 169 阅读 · 0 评论 -
机器学习----特征预处理
特征预处理通过一些转换函数将特征数据转换成更加适合算法模型的特征数据的过程。特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征。对数据进行标准化或者归一化可解决此类现象from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustS...原创 2020-03-16 17:54:52 · 417 阅读 · 0 评论