Educoder机器学习编程题解析
川师_King
川师King永远的神
展开
-
Docker基础实战教程四:数据卷操作
在实际的生产环境中,数据的持久化是常见的操作。那么使用Docker如何实现数据持久化呢?数据卷是Docker容器对数据进行共享和持久化的方式之一。数据卷是一个可供容器使用的特殊目录,它将主机操作系统目录直接映射进容器,其生命周期独立于容器本身。本实训主要介绍数据卷的创建、挂载、删除与恢复等操作。通过本实训,学习者应该理解和掌握Docker中数据卷的基本原理和管理操作等创建一个数据卷#!/bin/bash#创建一个名为vo1的数据卷,并将该数据卷挂载到container1容器的/dir1目录。#拉取原创 2020-12-31 18:05:50 · 6195 阅读 · 0 评论 -
Docker基础实战教程三:Dockerfile
镜像是分层存储的,其制作过程实际上是对每一层需要添加的配置、文件等进行定制。Dockerfile本质上就是一个制作镜像的脚本,将每一层的修改、安装、构建、操作等命令都在这个脚本中进行清晰透明的定义。本实训将详细介绍Dockerfile制作镜像的语法及命令,以及其制作流程。通过本实训,学习者应基本掌握基于Dockerfile的镜像制作。初识Dockerfile#创建一个空文件夹,并进入其中mkdir newdir1cd newdir1#创建一个Dockerfile文件touch Dockerfi原创 2020-12-31 18:02:18 · 9915 阅读 · 0 评论 -
Docker基础实战教程二:镜像管理
镜像是Docker中非常重要的一个组成部分,相当于一个root文件系统,它保存着容器运行环境的文件。类比于面向对象中的类和实例,镜像是一个静态的定义,容器是镜像运行时的实体。没有镜像,将没有一切!本实训将学习镜像管理方面的知识点,主要从镜像构成、保存于加载镜像、导入导出镜像、删除镜像这几个方面展开。希望学习完本教程,你能够有效对镜像进行管理。基于Commit定制镜像#以busybox镜像创建一个容器,在容器中创建一个hello.txt的文件。#拉取busybox 最新镜像,实际生产中,docker原创 2020-12-31 17:58:20 · 6186 阅读 · 0 评论 -
Docker基础实战教程一:入门
相比,Docker具有更高效的系统资源利用率、更快速的启动时间、提供一致的运行环境、更轻松的迁移等众多优势。自2013年0.1版本发布以来,围绕Docker逐渐形成了繁荣的生态,迅速的成为国内外各大云计算厂商和开发者手中的利器,并得到大规模的实践应用。本实训的主要目标是让大家学习Docker的基本概念如镜像、容器等,并掌握Docker的一些基本操作,主要内容包括Docker镜像的拉取、容器的启动、停止与删除等。通过本个实训,建立起对Docker初步的了解,后续大家可以通过进阶学习来掌握Docker的具体应原创 2020-12-27 20:23:28 · 6990 阅读 · 1 评论 -
大数据从入门到实战 - 第2章 分布式文件系统HDFS
简介当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区并存储到若干台单独的计算机上,管理网络中跨多台计算机存储的文件系统称之为分布式文件系统(distributed filesystem)。该系统架构于网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂,例如,该文件系统能够容忍节点故障而不丢失任何数据,就是一个极大的挑战。Hadoop自带一个称为HDFS的分布式文件系统,即Hadoop Distributed FileSystem。有时候也称为DFS原创 2020-12-27 20:18:06 · 4955 阅读 · 1 评论 -
机器学习 --- 线性判别分析
简介线性判别分析( Linear Discriminant Analysis ,简称 LDA )是一种经典的线性学习方法,在二分类问题上因为最早由 Fisher 提出,因此亦称“Fisher 判别分析”。LDA 的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影尽可能近、异类样例的投影尽可能远。在对新样本进行分类时,将其投影到这条直线上,然后根据其投影点的位置确定其类别。本实训项目首先介绍基于LDA进行随机生产数降维的思路,然后基于sklearn的LDA模型解决随机生产数降原创 2020-12-11 16:24:30 · 2724 阅读 · 2 评论 -
美国教育数据分析
现有一份来自kaggle的美国教育相关的数据集,数据中一共有1497个样本,25个属性。我们先将这份数据的缺失值进行补充,并进行标准化,然后将这份数据中的学生数学成绩作为标签,利用其它的24个属性构建机器学习方法,来对学生成绩进行预测,通过本实训,您将学习并掌握如何对一份数据进行处理,然后应用机器学习算法进行分析,并且成绩预测的准确度将高达95%。认识数据# -*- coding: utf-8 -*-def get_feature_names(df): ''' input:df(Da原创 2020-12-07 17:48:04 · 5702 阅读 · 3 评论 -
数据科学导论——回归进阶
简介回归是属于机器学习里面的监督学习,与分类问题不同的是,在回归问题中,其目标是通过对训练样本的学习,得到从样本特征到样本标签直接的映射,在回归问题中样本的标签是连续值。线性回归是一类重要的回归问题,在线性回归中,目标值与特征值存在线性关系。本节主要关注线性回归模型,也以神经网络为例说明非线性模型。本实训主要内容:简单线性回归;多元线性回归;神经网络回归。简单线性回归# -*- coding: utf-8 -*-import randomimport pandas as pddef原创 2020-12-02 22:56:32 · 1672 阅读 · 0 评论 -
机器学习 --- Adaboost
简介Adaboost 是属于机器学习里面的监督学习,是一个二分类模型。它是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用 adaboost 分类器可以排除一些不必要的训练数原创 2020-12-02 22:28:21 · 8390 阅读 · 4 评论 -
机器学习 --- 随机森林
简介随机森林是 Bagging 的一种扩展变体。该算法由于实现简单,抗噪声能力强,不容易发生过拟合现象,因此在很多业务中被广泛应用。本实训项目的主要内容是基于 python 语言搭建出随机森林模型,并使用 sklearn 实现手写数字识别。Baggingimport numpy as npfrom sklearn.tree import DecisionTreeClassifierclass BaggingClassifier(object): def __init__(self,原创 2020-12-02 22:24:06 · 2965 阅读 · 0 评论 -
机器学习 --- k-means
k-means是属于机器学习里面的非监督学习,通常是大家接触到的第一个聚类算法,其原理非常简单,是一种典型的基于距离的聚类算法。聚类算法中,将相似的数据划分为一个集合,一个集合称为一个簇。 k-means(k均值)聚类,之所以称为 k均值,是因为它可以发现k个簇,且每个簇的中心采用簇中所含值的均值计算而成。本实训项目将基于Python语言搭建出一个k-means模型,并基于sklean实现对红酒数据进行聚类。距离度量#encoding=utf8 import numpy as npdef原创 2020-11-26 15:21:19 · 6500 阅读 · 5 评论 -
机器学习 --- DBSCAN
简介DBSCAN是属于机器学习里面的非监督学习,与 k-means一样是一种聚类算法。不过k-means算法是基于距离的聚类算法,基于距离的聚类算法的聚类结果是球状的簇,当数据中的聚类结果是非球状结构时,基于距离的聚类算法的效果并不好,然而,基于密度的聚类算法从样本的密度角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果,它可以发现任意形状的簇。DBSCAN (density-based spatial clustering of applications with noi原创 2020-11-26 15:16:51 · 3680 阅读 · 1 评论 -
机器学习 --- 神经网络
神经网络方面的研究很早就已经出现了,最近一类被称为神经网络的算法以深度学习的名字再度流行。深度学习以神经网络为基础,神经网络由多个感知机组成,并引入激活函数,是一个比感知机更复杂,能解决更多问题的模型。本实训项目的主要内容是基于pytorch框架搭建出卷积神经网络模型,并训练出一个能够正确对手写数字进行识别的模型。激活函数#encoding=utf8def relu(x): ''' x:负无穷到正无穷的实数 ''' #********* Begin ********原创 2020-11-12 21:49:05 · 4846 阅读 · 2 评论 -
机器学习 --- 模型评估、选择与验证
机器学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。不同的学习方法会训练出不同的模型,不同的模型可能会对未知数据作出不同的预测,然而我们手上并没有“未知”的数据。所以,如何评价模型好坏,并选择出好的模型是我们这个实训需要掌握的内容。准确度的陷阱与混淆矩阵import numpy as npdef confusion_matrix(y_true, y_predict): ''' 构建二分类的混淆矩阵,并将其返回 :param y_true: 真实类别,原创 2020-11-05 14:18:30 · 8198 阅读 · 4 评论 -
机器学习之kNN算法
古人云:“近朱者赤,近墨者黑”。其实机器学习中的kNN算法的核心思想就是这句流传至今的名言。kNN算法又称为K近邻算法,是众多机器学习算法中少有的懒惰学习算法,该算法不仅可以用来回归也可以用来分类。本实训将带你学习kNN算法的基本原理、怎样使用sklearn中实现的kNN算法来对数据进行分类与回归。最后,将带你学习如何使用kNN算法解决实际问题-红酒分类。使用sklearn中的kNN算法进行分类from sklearn.neighbors import KNeighborsClassifierde原创 2020-11-01 11:57:38 · 10602 阅读 · 6 评论 -
机器学习之支持向量回归(SVR)
简介支持向量机 (Support Vector Machine) 是由Vapnik等人于1995年提出来的,之后随着统计理论的发展,支持向量机 SVM 也逐渐受到了各领域研究者的关注,在很短的时间就得到了很广泛的应用。支持向量机是被公认的比较优秀的分类模型。同时,在支持向量机的发展过程中,其理论方面的研究得到了同步的发展,为支持向量机的研究提供了强有力的理论支撑。本实训项目主要围绕支持向量机的原理和技术进行介绍,并基于实际案例进行实战实训。线性支持向量机#encoding=utf8from sk原创 2020-10-24 18:02:04 · 13777 阅读 · 2 评论 -
机器学习 --- 朴素贝叶斯分类器 python
简介朴素贝叶斯分类算法是基于贝叶斯理论和特征条件独立假设的分类算法。对于给定的训练集,首先基于特征条件独立假设学习数据的概率分布。然后基于此模型,对于给定的特征数据x,利用贝叶斯定理计算出标签y。朴素贝叶斯分类算法实现简单,预测效率很高,是一种常用的分类算法。本实训项目的主要内容是基于 Python 语言搭建朴素贝叶斯分类器,并使用sklearn 实现新闻文本进行主题分类的功能。朴素贝叶斯分类算法流程import numpy as npclass NaiveBayesClassifier(ob原创 2020-10-22 21:07:42 · 9393 阅读 · 0 评论 -
机器学习 --- 决策树 python
简介决策树说通俗点就是一棵能够替我们做决策的树,或者说是我们人类在要做决策时脑回路的一种表现形式。本实训项目的主要内容是基于 python 语言搭建出决策树模型对数据分类,并使用 sklearn 的决策时模型对鸢尾花数据进行分类。信息熵与信息增益import numpy as npdef calcInfoGain(feature, label, index): ''' 计算信息增益 :param feature:测试用例中字典里的feature,类型为ndarray原创 2020-10-22 20:58:16 · 15575 阅读 · 8 评论 -
机器学习 --- 多分类学习
在现实生活中,很多问题并非“非黑即白”的问题,而是可以分为多个不同的类别,这些问题可以视为多分类学习任务。多分类学习任务可以基于二分类算法进行推广后解决。有些二分类算法可以直接推广用于解决多分类问题,但是在更多情形下需要基于一些基本策略来对二分类算法进行处理从而更有效的解决多分类问题。最经典和最基础的拆分策略包括两种:“一对一”(One vs. One,简称OvO)和“一对其余”(“One vs. Rest”,简称OvR)。本实训项目主要介绍这两类多分类处理策OvO多分类策略import numpy原创 2020-10-22 20:51:20 · 5552 阅读 · 5 评论 -
机器学习 --- 线性回归(第一关-第四关)
线性回归是属于机器学习里面的监督学习,与分类问题不同的是,在回归问题中,其目标是通过对训练样本的学习,得到从样本特征到样本标签直接的映射,其中,在回归问题中,样本的标签是连续值。线性回归是一类重要的回归问题。在线性回归中,目标值与特征直接存在线性关系。本实训项目介绍线性回归模型的类别和性能度量等知识,并基于sklearn线性回归面向解决房价预测问题。第二关#encoding=utf8 import numpy as npdef mse_score(y_predict,y_test): ''原创 2020-10-10 10:37:57 · 6506 阅读 · 5 评论 -
数据挖掘算法原理与实践:数据预处理(第一关-第五关)
第1关:标准化# -*- coding: utf-8 -*-from sklearn.preprocessing import scale,MaxAbsScaler,MinMaxScaler#实现数据预处理方法def Preprocessing(x,y): ''' x(ndarray):处理 数据 y(str):y等于'z_score'使用z_score方法 y等于'minmax'使用MinMaxScaler方法 y等于'max原创 2020-09-25 20:13:59 · 10985 阅读 · 0 评论 -
Pandas进阶(第一关,第二关)
简介Pandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量快速便捷地处理数据的函数和方法。使Python成为强大而高效的数据分析环境的重要因素之一。本实训的主要内容是:1.Pandas使用分组聚合进行组内计算,2.创建透视表和交叉表。本实训需要学员对Pandas的数据结构和统计函数有一定的了解。第1关:Pandas分组聚合任务描述相关知识分组单列和多列分组Seri原创 2020-09-25 20:09:30 · 14864 阅读 · 1 评论 -
Pandas初体验(第一关到第八关)
简介Pandas是面向数据分析场景设计的Python开源软件工具包,其名字来自英文词组panel data,作为经济界的术语指多维结构化的数据集。从命名来看,Pandas特别适合处理序列数据、表格数据等具有良好结构的数据。在软件使用上,由于Pandsa是基于BSD开源软件许可证发布的,能够很方便地在学习、办公和工业应用等场合使用。历史Pandas是程序员Wes McKinney于2008年在AQR资产管理公司工作时,为了满足分析师对金融数据量化分析所需的高性能和高灵活性工具软件需求而开发的。在Wes离原创 2020-09-22 15:54:18 · 20995 阅读 · 3 评论 -
NumPy数组的高级操作第五关
NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。是在学习机器学习、深度学习之前应该掌握的一个非常基本且实用的Python库。本实训将介绍NumPy的一些更高级的知识与使用方法。实训通关后你将学会NumPy的进阶使用技能,并为后续的综合练习部分打好基础。如果你对NumPy的基础知识不熟,可以看看这里。PS:若需要更加详细的查阅NumPy所提供的接口,可以查阅官方文档。任务描述相关知识nump原创 2020-09-22 15:47:36 · 2430 阅读 · 2 评论 -
NumPy数组的高级操作第四关
NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。是在学习机器学习、深度学习之前应该掌握的一个非常基本且实用的Python库。本实训将介绍NumPy的一些更高级的知识与使用方法。实训通关后你将学会NumPy的进阶使用技能,并为后续的综合练习部分打好基础。如果你对NumPy的基础知识不熟,可以看看这里。PS:若需要更加详细的查阅NumPy所提供的接口,可以查阅官方文档。任务描述相关知识什么是广原创 2020-09-22 15:45:03 · 1722 阅读 · 0 评论 -
NumPy数组的高级操作第二关
简介NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。是在学习机器学习、深度学习之前应该掌握的一个非常基本且实用的Python库。本实训将介绍NumPy的一些更高级的知识与使用方法。实训通关后你将学会NumPy的进阶使用技能,并为后续的综合练习部分打好基础。如果你对NumPy的基础知识不熟,可以看看这里。PS:若需要更加详细的查阅NumPy所提供的接口,可以查阅官方文档。任务描述相关知识比原创 2020-09-22 15:43:28 · 3237 阅读 · 0 评论 -
NumPy数组的高级操作第一关
NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。是在学习机器学习、深度学习之前应该掌握的一个非常基本且实用的Python库。本实训将介绍NumPy的一些更高级的知识与使用方法。实训通关后你将学会NumPy的进阶使用技能,并为后续的综合练习部分打好基础。如果你对NumPy的基础知识不熟,可以看看这里。PS:若需要更加详细的查阅NumPy所提供的接口,可以查阅官方文档。任务描述相关知识stac原创 2020-09-22 15:39:02 · 2527 阅读 · 0 评论 -
NumPy数组的高级操作第三关
简介NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。是在学习机器学习、深度学习之前应该掌握的一个非常基本且实用的Python库。本实训将介绍NumPy的一些更高级的知识与使用方法。实训通关后你将学会NumPy的进阶使用技能,并为后续的综合练习部分打好基础。如果你对NumPy的基础知识不熟,可以看看这里。PS:若需要更加详细的查阅NumPy所提供的接口,可以查阅官方文档。第一关任务描述相关原创 2020-09-22 15:31:41 · 2299 阅读 · 0 评论 -
Educoder机器学习编程题解析(NumPy基础及取值操作)
机器学习Educoder机器学习(python)NumPy基础及取值操作简介NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。是在学习机器学习、深度学习之前应该掌握的一个非常基本且实用的Python库。本实训将介绍NumPy的一些基础知识以及常用的一些基本功能。实训通关后您将学会NumPy的基础使用技能,并为后续的进阶部分与综合练习部分打好基础。PS:若需要更加详细的查阅NumPy所提供的原创 2020-09-22 15:14:00 · 6724 阅读 · 0 评论