自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 资源 (1)
  • 收藏
  • 关注

原创 Docker基础实战教程四:数据卷操作

在实际的生产环境中,数据的持久化是常见的操作。那么使用Docker如何实现数据持久化呢?数据卷是Docker容器对数据进行共享和持久化的方式之一。数据卷是一个可供容器使用的特殊目录,它将主机操作系统目录直接映射进容器,其生命周期独立于容器本身。本实训主要介绍数据卷的创建、挂载、删除与恢复等操作。通过本实训,学习者应该理解和掌握Docker中数据卷的基本原理和管理操作等创建一个数据卷#!/bin/bash#创建一个名为vo1的数据卷,并将该数据卷挂载到container1容器的/dir1目录。#拉取

2020-12-31 18:05:50 110

原创 Docker基础实战教程三:Dockerfile

镜像是分层存储的,其制作过程实际上是对每一层需要添加的配置、文件等进行定制。Dockerfile本质上就是一个制作镜像的脚本,将每一层的修改、安装、构建、操作等命令都在这个脚本中进行清晰透明的定义。本实训将详细介绍Dockerfile制作镜像的语法及命令,以及其制作流程。通过本实训,学习者应基本掌握基于Dockerfile的镜像制作。初识Dockerfile#创建一个空文件夹,并进入其中mkdir newdir1cd newdir1#创建一个Dockerfile文件touch Dockerfi

2020-12-31 18:02:18 107

原创 Docker基础实战教程二:镜像管理

镜像是Docker中非常重要的一个组成部分,相当于一个root文件系统,它保存着容器运行环境的文件。类比于面向对象中的类和实例,镜像是一个静态的定义,容器是镜像运行时的实体。没有镜像,将没有一切!本实训将学习镜像管理方面的知识点,主要从镜像构成、保存于加载镜像、导入导出镜像、删除镜像这几个方面展开。希望学习完本教程,你能够有效对镜像进行管理。基于Commit定制镜像#以busybox镜像创建一个容器,在容器中创建一个hello.txt的文件。#拉取busybox 最新镜像,实际生产中,docker

2020-12-31 17:58:20 91

原创 Docker基础实战教程一:入门

相比,Docker具有更高效的系统资源利用率、更快速的启动时间、提供一致的运行环境、更轻松的迁移等众多优势。自2013年0.1版本发布以来,围绕Docker逐渐形成了繁荣的生态,迅速的成为国内外各大云计算厂商和开发者手中的利器,并得到大规模的实践应用。本实训的主要目标是让大家学习Docker的基本概念如镜像、容器等,并掌握Docker的一些基本操作,主要内容包括Docker镜像的拉取、容器的启动、停止与删除等。通过本个实训,建立起对Docker初步的了解,后续大家可以通过进阶学习来掌握Docker的具体应

2020-12-27 20:23:28 116

原创 大数据从入门到实战 - 第2章 分布式文件系统HDFS

简介当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区并存储到若干台单独的计算机上,管理网络中跨多台计算机存储的文件系统称之为分布式文件系统(distributed filesystem)。该系统架构于网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂,例如,该文件系统能够容忍节点故障而不丢失任何数据,就是一个极大的挑战。Hadoop自带一个称为HDFS的分布式文件系统,即Hadoop Distributed FileSystem。有时候也称为DFS

2020-12-27 20:18:06 111 1

原创 机器学习 --- 线性判别分析

简介线性判别分析( Linear Discriminant Analysis ,简称 LDA )是一种经典的线性学习方法,在二分类问题上因为最早由 Fisher 提出,因此亦称“Fisher 判别分析”。LDA 的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影尽可能近、异类样例的投影尽可能远。在对新样本进行分类时,将其投影到这条直线上,然后根据其投影点的位置确定其类别。本实训项目首先介绍基于LDA进行随机生产数降维的思路,然后基于sklearn的LDA模型解决随机生产数降

2020-12-11 16:24:30 74 1

原创 美国教育数据分析

现有一份来自kaggle的美国教育相关的数据集,数据中一共有1497个样本,25个属性。我们先将这份数据的缺失值进行补充,并进行标准化,然后将这份数据中的学生数学成绩作为标签,利用其它的24个属性构建机器学习方法,来对学生成绩进行预测,通过本实训,您将学习并掌握如何对一份数据进行处理,然后应用机器学习算法进行分析,并且成绩预测的准确度将高达95%。认识数据# -*- coding: utf-8 -*-def get_feature_names(df): ''' input:df(Da

2020-12-07 17:48:04 289 1

原创 机器学习

2020-12-03 11:59:27 161

原创 数据科学导论——回归进阶

简介回归是属于机器学习里面的监督学习,与分类问题不同的是,在回归问题中,其目标是通过对训练样本的学习,得到从样本特征到样本标签直接的映射,在回归问题中样本的标签是连续值。线性回归是一类重要的回归问题,在线性回归中,目标值与特征值存在线性关系。本节主要关注线性回归模型,也以神经网络为例说明非线性模型。本实训主要内容:简单线性回归;多元线性回归;神经网络回归。简单线性回归# -*- coding: utf-8 -*-import randomimport pandas as pddef

2020-12-02 22:56:32 104

原创 机器学习 --- Adaboost

简介Adaboost 是属于机器学习里面的监督学习,是一个二分类模型。它是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器。使用 adaboost 分类器可以排除一些不必要的训练数

2020-12-02 22:28:21 124

原创 机器学习 --- 随机森林

简介随机森林是 Bagging 的一种扩展变体。该算法由于实现简单,抗噪声能力强,不容易发生过拟合现象,因此在很多业务中被广泛应用。本实训项目的主要内容是基于 python 语言搭建出随机森林模型,并使用 sklearn 实现手写数字识别。Baggingimport numpy as npfrom sklearn.tree import DecisionTreeClassifierclass BaggingClassifier(object): def __init__(self,

2020-12-02 22:24:06 251

原创 降维

2020-11-26 15:33:54 125 1

原创 机器学习 --- k-means

k-means是属于机器学习里面的非监督学习,通常是大家接触到的第一个聚类算法,其原理非常简单,是一种典型的基于距离的聚类算法。聚类算法中,将相似的数据划分为一个集合,一个集合称为一个簇。 k-means(k均值)聚类,之所以称为 k均值,是因为它可以发现k个簇,且每个簇的中心采用簇中所含值的均值计算而成。本实训项目将基于Python语言搭建出一个k-means模型,并基于sklean实现对红酒数据进行聚类。距离度量#encoding=utf8 import numpy as npdef

2020-11-26 15:21:19 1627 5

原创 机器学习 --- DBSCAN

简介DBSCAN是属于机器学习里面的非监督学习,与 k-means一样是一种聚类算法。不过k-means算法是基于距离的聚类算法,基于距离的聚类算法的聚类结果是球状的簇,当数据中的聚类结果是非球状结构时,基于距离的聚类算法的效果并不好,然而,基于密度的聚类算法从样本的密度角度来考察样本之间的可连接性,并基于可连接样本不断扩展聚类簇以获得最终的聚类结果,它可以发现任意形状的簇。DBSCAN (density-based spatial clustering of applications with noi

2020-11-26 15:16:51 388 1

原创 Redis安全与性能

Redis 作为内存型数据库,需要提供维护数据安全和应对系统故障的方法。本实训,我们会介绍 Redis 的各个持久化选项和复制选项,以提升系统的性能和数据安全性。同时,我们还将介绍 Redis 的事务特性和流水线特性,并通过使用事务和流水线解决某些性能问题。持久化复制Redis事务与流水线#!/usr/bin/env python#-*- coding:utf-8 -*-import timeimport redisconn = redis.Redis()# 将商品放

2020-11-22 21:28:34 171 1

原创 使用Redis构建支持程序

Redis 可用于处理业务逻辑,作为系统的一部分。除此之外,Redis 还可以帮助和支持系统的其他部分,例如:用于记录日志,进行数据统计,实现配置自动化以及制作一些有趣的实用小程序等。本实训将通过构建日志记录组件,统计网页访问数据以及 IP 地址库小工具三个实际应用场景展示如何使用 Redis 帮助和支持应用程序。使用Redis记录日志#!/usr/bin/env python#-*- coding:utf-8 -*-import timeimport redisimport logging

2020-11-22 21:24:20 152

原创 使用Redis构建自动补全组件

自动补全与输入联想功能已经是大多数网站的标配,给表单加入自动补全功能大大节省了用户输入时间,而输入联想功能则起到了预测用户喜好的作用,两个功能都是提升用户体验的利器。本实训,我们通过实现搜索历史、自动补全和搜索预测三大常用功能,带领大家编写实用的程序组件。搜索历史功能#!/usr/bin/env python#-*- coding:utf-8 -*-import redisconn = redis.Redis()# 将最新搜索词记录到搜索记录列表中def add_search_hist

2020-11-22 21:19:27 753

原创 分布式锁与信号量

**分布式锁,是指在分布式的部署环境下,通过锁机制来让多客户端互斥的对共享资源进行访问。信号量的本质也是一种数据操作锁,它本身不具有数据交换的功能,而是通过控制其他的通信资源来实现进程间通信,从而负责数据操作的互斥与同步。本实训项目的主要内容是使用 Redis 构建锁和信号量,进一步提高 Redis 性能。我们将通过构建简易锁,超时限制锁,计数信号量和公平信号量来掌握分布式锁与信号量的相关知识。**简易锁#!/usr/bin/env python#-*- coding:utf-8 -*-im

2020-11-22 21:16:32 123

原创 使用Redis构建任务队列

任务队列可以看作是消息队列的一种,只是其用于管理异步任务。任务队列有基本的在应用程序间传递,保持任务的功能。本实训项目的主要内容是使用Redis分别构建先进先出任务队列,优先级任务队列和定时任务队列。先进先出任务队列#!/usr/bin/env python#-*- coding:utf-8 -*-import redisconn = redis.Redis()# 将任务加入队列def add_task(task_name): # 请在下面完成要求的功能 #******

2020-11-22 21:12:43 108

原创 机器学习 --- 神经网络

神经网络方面的研究很早就已经出现了,最近一类被称为神经网络的算法以深度学习的名字再度流行。深度学习以神经网络为基础,神经网络由多个感知机组成,并引入激活函数,是一个比感知机更复杂,能解决更多问题的模型。本实训项目的主要内容是基于pytorch框架搭建出卷积神经网络模型,并训练出一个能够正确对手写数字进行识别的模型。激活函数#encoding=utf8def relu(x): ''' x:负无穷到正无穷的实数 ''' #********* Begin ********

2020-11-12 21:49:05 483 1

原创 ZooKeeper之节点基本操作(一)

ZooKeeper的数据存储采用的是结构化存储(如下图所示为数据树结构示例),结构化存储是没有文件和目录的概念,里边的目录和文件被抽象成了节点,ZooKeeper里可以称为znode。![](https://img-blog.csdnimg.cn/20201108210700873.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhp

2020-11-08 21:07:34 239

原创 ZooKeeper之节点基本操作(二)

Zookeeper作为一个分布式协调框架,其内部存储的都是一些关于分布式系统运行时状态的元数据,尤其是设计到一些分布式锁,Master选举和协调等应用场景。节点监控、ACL访问控制列表等特性是ZooKeeper实现分布式应用的重要特性。本节着重介绍ZooKeeper的节点监控机制,ACL访问控制列表的应用和节点配额三个方面。...

2020-11-08 21:04:59 159

原创 ZooKeeper之分布式环境搭建

ZooKeeper的standalone模式主要便于评估,开发,测试和学习。实际生产中均是仲裁模式,即多个服务器节点提供服务。本实训的主要内容是介绍ZooKeeper的仲裁模式和伪分布式的安装方法,以及分布式与伪分布式的不同。感谢大家的支持!!!!!...

2020-11-08 18:04:02 306 1

原创 ZooKeeper入门-初体验

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。Server是ZooKeeper集群的基础,包含Leader、Follower和Observer三种角色。Client通过TCP协议与Server建立Session,从而完成用户特定功能。熟悉掌握Server和Client的基本操作、ZooKeeper的配置是学习ZooKeeper的基础。本实训项目的主要内容是介

2020-11-08 18:01:30 203

原创 机器学习 --- 模型评估、选择与验证

机器学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。不同的学习方法会训练出不同的模型,不同的模型可能会对未知数据作出不同的预测,然而我们手上并没有“未知”的数据。所以,如何评价模型好坏,并选择出好的模型是我们这个实训需要掌握的内容。准确度的陷阱与混淆矩阵import numpy as npdef confusion_matrix(y_true, y_predict): ''' 构建二分类的混淆矩阵,并将其返回 :param y_true: 真实类别,

2020-11-05 14:18:30 579

原创 机器学习之kNN算法

古人云:“近朱者赤,近墨者黑”。其实机器学习中的kNN算法的核心思想就是这句流传至今的名言。kNN算法又称为K近邻算法,是众多机器学习算法中少有的懒惰学习算法,该算法不仅可以用来回归也可以用来分类。本实训将带你学习kNN算法的基本原理、怎样使用sklearn中实现的kNN算法来对数据进行分类与回归。最后,将带你学习如何使用kNN算法解决实际问题-红酒分类。使用sklearn中的kNN算法进行分类from sklearn.neighbors import KNeighborsClassifierde

2020-11-01 11:57:38 661 4

原创 机器学习之支持向量回归(SVR)

简介支持向量机 (Support Vector Machine) 是由Vapnik等人于1995年提出来的,之后随着统计理论的发展,支持向量机 SVM 也逐渐受到了各领域研究者的关注,在很短的时间就得到了很广泛的应用。支持向量机是被公认的比较优秀的分类模型。同时,在支持向量机的发展过程中,其理论方面的研究得到了同步的发展,为支持向量机的研究提供了强有力的理论支撑。本实训项目主要围绕支持向量机的原理和技术进行介绍,并基于实际案例进行实战实训。线性支持向量机#encoding=utf8from sk

2020-10-24 18:02:04 949 2

原创 机器学习 --- 朴素贝叶斯分类器 python

简介朴素贝叶斯分类算法是基于贝叶斯理论和特征条件独立假设的分类算法。对于给定的训练集,首先基于特征条件独立假设学习数据的概率分布。然后基于此模型,对于给定的特征数据x,利用贝叶斯定理计算出标签y。朴素贝叶斯分类算法实现简单,预测效率很高,是一种常用的分类算法。本实训项目的主要内容是基于 Python 语言搭建朴素贝叶斯分类器,并使用sklearn 实现新闻文本进行主题分类的功能。朴素贝叶斯分类算法流程import numpy as npclass NaiveBayesClassifier(ob

2020-10-22 21:07:42 793

原创 机器学习 --- 决策树 python

简介决策树说通俗点就是一棵能够替我们做决策的树,或者说是我们人类在要做决策时脑回路的一种表现形式。本实训项目的主要内容是基于 python 语言搭建出决策树模型对数据分类,并使用 sklearn 的决策时模型对鸢尾花数据进行分类。信息熵与信息增益import numpy as npdef calcInfoGain(feature, label, index): ''' 计算信息增益 :param feature:测试用例中字典里的feature,类型为ndarray

2020-10-22 20:58:16 1047

原创 机器学习 --- 多分类学习

在现实生活中,很多问题并非“非黑即白”的问题,而是可以分为多个不同的类别,这些问题可以视为多分类学习任务。多分类学习任务可以基于二分类算法进行推广后解决。有些二分类算法可以直接推广用于解决多分类问题,但是在更多情形下需要基于一些基本策略来对二分类算法进行处理从而更有效的解决多分类问题。最经典和最基础的拆分策略包括两种:“一对一”(One vs. One,简称OvO)和“一对其余”(“One vs. Rest”,简称OvR)。本实训项目主要介绍这两类多分类处理策OvO多分类策略import numpy

2020-10-22 20:51:20 503 3

原创 使用Redis进行搜索

搜索引擎以及各种网站中的搜索功能已经是人们从海量信息中快速获取特定信息的常用方式。使用 Redis 可以搭建高性能、多特性的搜索引擎,也特别适合解决基于搜索的问题。本实训项目从构建反向索引,基本搜索操作,实现搜索三个方面介绍如何使用 Redis 解决基于搜索的问题。第1关:构建反向索引#!/usr/bin/env python#-*- coding:utf-8 -*-import reimport redisconn = redis.Redis()# 文本序列化def tokeniz

2020-10-20 23:26:27 321

原创 使用Redis构建简单的社交网站

社交网站已经成为人类生活中不可或缺的部分。现有的两大社交网站——微博,推特都高度依赖 Redis 承载海量用户访问。本实训项目从创建用户与状态,处理用户关系,状态与信息流三个方面介绍如何使用 Redis 构建简单的社交网站。第1关:创建用户与动态#!/usr/bin/env python#-*- coding:utf-8 -*-import reimport timeimport redisconn = redis.Redis()# 创建新用户def create_user(log

2020-10-20 23:23:30 315

原创 Redis命令实践

Redis 基于实用主义,它有着非常广泛的应用场景,例如:消息队列,缓存,排行榜等等。我们已经学习了 Redis 的常用命令,接下来开始在应用中使用这些命令吧!本实训通过四个典型的应用介绍 Redis 能做什么事情,并通过四个关卡检测你对 Redis 基本命令的掌握程度。**第1关:使用Redis管理登录令牌**#!/usr/bin/env python#-*- coding:utf-8 -*-import timeimport redisconn = redis.Redis()#

2020-10-20 23:21:28 323

原创 Redis基本命令

简介Redis 命令十分丰富,包括键(Key)、字符串(String)、哈希(Hash)、列表(List)、集合(Set)、有序集合(Sorted Set)、发布与订阅(Pub/Sub)等 14 个 Redis 命令组,共两百多条 Redis 命令。本实训项目的主要内容是通过 API 学习常用的 Redis 命令,并使用客户端与 Redis 进行交互,最终将通过三个实际问题来检测学习效果。第一关#!/usr/bin/env python#-*- coding:utf-8 -*-import r

2020-10-20 23:18:14 391

原创 机器学习 --- 感知机

简介神经网络中最基本的成分是神经元模型,感知机(Perceptron)是由两层神经元组成的双层神经网络模型, 其输入层接受外界输入信号传递给输出层, 输出层是 M-P 神经元(阈值逻辑单元)。感知机也属于二分类的线性分类模型, 其输入为实例的特征向量, 输出为实例的类别, 取 +1 和 –1 二值。本实训项目基于西瓜好坏识别的简单案例介绍感知机的基本原理和思路,然后基于sklearn框架提供的感知机模型完成癌细胞精准识别的实战案例。第一关#encoding=utf8import numpy as

2020-10-20 23:15:24 331 8

原创 机器学习 --- 逻辑回归

简介逻辑回归是属于机器学习里面的监督学习,它是以回归的思想来解决分类问题的一种非常经典的二分类分类器。由于其训练后的参数有较强的可解释性,在诸多领域中,逻辑回归通常用作 baseline 模型,以方便后期更好的挖掘业务相关信息或提升模型性能。本实训项目的主要内容是基于 Python 语言搭建出一个能够识别恶性肿瘤的逻辑回归模型,并使用 sklearn 中的 LogisticRegression 实现手写数字识别。第一关#encoding=utf8import numpy as npdef si

2020-10-15 16:15:22 644

原创 机器学习 --- 线性回归(第一关-第四关)

线性回归是属于机器学习里面的监督学习,与分类问题不同的是,在回归问题中,其目标是通过对训练样本的学习,得到从样本特征到样本标签直接的映射,其中,在回归问题中,样本的标签是连续值。线性回归是一类重要的回归问题。在线性回归中,目标值与特征直接存在线性关系。本实训项目介绍线性回归模型的类别和性能度量等知识,并基于sklearn线性回归面向解决房价预测问题。第二关#encoding=utf8 import numpy as npdef mse_score(y_predict,y_test): ''

2020-10-10 10:37:57 1032 5

原创 数据挖掘算法原理与实践:数据预处理(第一关-第五关)

第1关:标准化# -*- coding: utf-8 -*-from sklearn.preprocessing import scale,MaxAbsScaler,MinMaxScaler#实现数据预处理方法def Preprocessing(x,y): ''' x(ndarray):处理 数据 y(str):y等于'z_score'使用z_score方法 y等于'minmax'使用MinMaxScaler方法 y等于'max

2020-09-25 20:13:59 618

原创 Pandas进阶(第一关,第二关)

简介Pandas是基于NumPy的一种工具,该工具是为了解决数据分析任务而创建的。Pandas纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas提供了大量快速便捷地处理数据的函数和方法。使Python成为强大而高效的数据分析环境的重要因素之一。本实训的主要内容是:1.Pandas使用分组聚合进行组内计算,2.创建透视表和交叉表。本实训需要学员对Pandas的数据结构和统计函数有一定的了解。第1关:Pandas分组聚合任务描述相关知识分组单列和多列分组Seri

2020-09-25 20:09:30 303

原创 Pandas初体验(第一关到第八关)

简介Pandas是面向数据分析场景设计的Python开源软件工具包,其名字来自英文词组panel data,作为经济界的术语指多维结构化的数据集。从命名来看,Pandas特别适合处理序列数据、表格数据等具有良好结构的数据。在软件使用上,由于Pandsa是基于BSD开源软件许可证发布的,能够很方便地在学习、办公和工业应用等场合使用。历史Pandas是程序员Wes McKinney于2008年在AQR资产管理公司工作时,为了满足分析师对金融数据量化分析所需的高性能和高灵活性工具软件需求而开发的。在Wes离

2020-09-22 15:54:18 381

C语言数据结构实验六.doc

通过实验,掌握二叉树的两种基本的存储结构及二叉树的建立、遍历(先序、中序、后序、层次遍历),并加以应用(计算二叉树的高度、统计结点数目等)

2020-03-11

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除