2020年12月_川师_King

原创 Docker基础实战教程四：数据卷操作

在实际的生产环境中，数据的持久化是常见的操作。那么使用Docker如何实现数据持久化呢？数据卷是Docker容器对数据进行共享和持久化的方式之一。数据卷是一个可供容器使用的特殊目录，它将主机操作系统目录直接映射进容器，其生命周期独立于容器本身。本实训主要介绍数据卷的创建、挂载、删除与恢复等操作。通过本实训，学习者应该理解和掌握Docker中数据卷的基本原理和管理操作等创建一个数据卷#!/bin/bash#创建一个名为vo1的数据卷，并将该数据卷挂载到container1容器的/dir1目录。#拉取

2020-12-31 18:05:50 5767

原创 Docker基础实战教程三：Dockerfile

镜像是分层存储的，其制作过程实际上是对每一层需要添加的配置、文件等进行定制。Dockerfile本质上就是一个制作镜像的脚本，将每一层的修改、安装、构建、操作等命令都在这个脚本中进行清晰透明的定义。本实训将详细介绍Dockerfile制作镜像的语法及命令，以及其制作流程。通过本实训，学习者应基本掌握基于Dockerfile的镜像制作。初识Dockerfile#创建一个空文件夹，并进入其中mkdir newdir1cd newdir1#创建一个Dockerfile文件touch Dockerfi

2020-12-31 18:02:18 9187

原创 Docker基础实战教程二：镜像管理

镜像是Docker中非常重要的一个组成部分，相当于一个root文件系统，它保存着容器运行环境的文件。类比于面向对象中的类和实例，镜像是一个静态的定义，容器是镜像运行时的实体。没有镜像，将没有一切！本实训将学习镜像管理方面的知识点，主要从镜像构成、保存于加载镜像、导入导出镜像、删除镜像这几个方面展开。希望学习完本教程，你能够有效对镜像进行管理。基于Commit定制镜像#以busybox镜像创建一个容器，在容器中创建一个hello.txt的文件。#拉取busybox 最新镜像，实际生产中，docker

2020-12-31 17:58:20 5679

原创 Docker基础实战教程一：入门

相比，Docker具有更高效的系统资源利用率、更快速的启动时间、提供一致的运行环境、更轻松的迁移等众多优势。自2013年0.1版本发布以来，围绕Docker逐渐形成了繁荣的生态，迅速的成为国内外各大云计算厂商和开发者手中的利器，并得到大规模的实践应用。本实训的主要目标是让大家学习Docker的基本概念如镜像、容器等，并掌握Docker的一些基本操作，主要内容包括Docker镜像的拉取、容器的启动、停止与删除等。通过本个实训，建立起对Docker初步的了解，后续大家可以通过进阶学习来掌握Docker的具体应

2020-12-27 20:23:28 6662 1

原创大数据从入门到实战 - 第2章分布式文件系统HDFS

简介当数据集的大小超过一台独立的物理计算机的存储能力时，就有必要对它进行分区并存储到若干台单独的计算机上，管理网络中跨多台计算机存储的文件系统称之为分布式文件系统（distributed filesystem）。该系统架构于网络之上，势必会引入网络编程的复杂性，因此分布式文件系统比普通磁盘文件系统更为复杂，例如，该文件系统能够容忍节点故障而不丢失任何数据，就是一个极大的挑战。Hadoop自带一个称为HDFS的分布式文件系统，即Hadoop Distributed FileSystem。有时候也称为DFS

2020-12-27 20:18:06 4868 1

原创机器学习 --- 线性判别分析

简介线性判别分析( Linear Discriminant Analysis ，简称 LDA )是一种经典的线性学习方法，在二分类问题上因为最早由 Fisher 提出，因此亦称“Fisher 判别分析”。LDA 的思想非常朴素：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影尽可能近、异类样例的投影尽可能远。在对新样本进行分类时，将其投影到这条直线上，然后根据其投影点的位置确定其类别。本实训项目首先介绍基于LDA进行随机生产数降维的思路，然后基于sklearn的LDA模型解决随机生产数降

2020-12-11 16:24:30 2462 2

原创美国教育数据分析

现有一份来自kaggle的美国教育相关的数据集，数据中一共有1497个样本，25个属性。我们先将这份数据的缺失值进行补充，并进行标准化，然后将这份数据中的学生数学成绩作为标签，利用其它的24个属性构建机器学习方法，来对学生成绩进行预测，通过本实训，您将学习并掌握如何对一份数据进行处理，然后应用机器学习算法进行分析，并且成绩预测的准确度将高达95%。认识数据# -*- coding: utf-8 -*-def get_feature_names(df): ''' input:df(Da

2020-12-07 17:48:04 5039 3

原创机器学习

2020-12-03 11:59:27 722

原创数据科学导论——回归进阶

简介回归是属于机器学习里面的监督学习，与分类问题不同的是，在回归问题中，其目标是通过对训练样本的学习，得到从样本特征到样本标签直接的映射，在回归问题中样本的标签是连续值。线性回归是一类重要的回归问题，在线性回归中，目标值与特征值存在线性关系。本节主要关注线性回归模型，也以神经网络为例说明非线性模型。本实训主要内容：简单线性回归；多元线性回归；神经网络回归。简单线性回归# -*- coding: utf-8 -*-import randomimport pandas as pddef

2020-12-02 22:56:32 1342

原创机器学习 --- Adaboost

简介Adaboost 是属于机器学习里面的监督学习，是一个二分类模型。它是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。使用 adaboost 分类器可以排除一些不必要的训练数

2020-12-02 22:28:21 8113 4

原创机器学习 --- 随机森林

简介随机森林是 Bagging 的一种扩展变体。该算法由于实现简单，抗噪声能力强，不容易发生过拟合现象，因此在很多业务中被广泛应用。本实训项目的主要内容是基于 python 语言搭建出随机森林模型，并使用 sklearn 实现手写数字识别。Baggingimport numpy as npfrom sklearn.tree import DecisionTreeClassifierclass BaggingClassifier(object): def __init__(self,

2020-12-02 22:24:06 2853

weixin_44196785的博客