黄杰ed-CSDN博客

原创 DW组队学习-机器学习数据基础-Task04-一元函数微分学几何应用

2021-08-28 23:15:06 188

原创 DW组队学习-机器学习数据基础-Task03-一元函数微分学

2021-08-26 00:54:33 184

原创 DW组队学习-机器学习数据基础-Task02-数列极限

打卡task02，继续加油！

2021-08-21 23:35:38 169

原创 DW组队学习-机器学习数据基础-Task01-函数极限与连续性打卡

太久没学高数了，趁这个机会好好复习复习，习题到目前也只是做了一半，还得慢慢啃啊，加油！

2021-08-19 00:17:47 133

原创 GitHub快速访问

GitHub快速访问前言近期github不太稳定，总是出现连接不上，加载过慢的情况。作为一名Blog的爱好者，deploy到gihub上时不时就来个connect faield，这能忍？于是我翻了翻度娘，找了找谷哥，大概是因为DNS域名污染，导致github连接总是会出错，之前配置的hosts域名映射太久没整了也会“过期”失效，又看到网络上一大把博客直接贴出host配置，让众多像我这种傻白甜直接“ctrl+c”，“ctrl+v”，起初看起来有用，心里默念“博主NB”，过一段时间又访问不了了心里“MMP

2021-05-04 13:01:08 15563 10

转载 Task02-DW-基本的回归模型

Task02-DW-基本的回归模型使用sklearn构建完整的机器学习项目流程一般来说，一个完整的机器学习项目分为以下步骤：明确项目任务：回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。使用sklearn构建完整的回归项目1.收集数据集并选择合适的特征：在数据集上我们使用我们比较熟悉的Boston房价数据集，原因是：第一个，我们通过这些简单的数据集快速让我们上手sklearn，以及掌握sklearn的相关操作

2021-03-18 22:54:48 291

原创万字长文——最详Hive入门指南

万字长文——最详Hive入门指南Hive基础Hive简介产生原因对存在HDFS上的文件或Hbase中的表进行查询时，是要手写一堆MapReducec代码；对于统计任务，只能由懂MapReduce的程序员才能完成；耗时耗力，更多精力没有有效的释放出来；基于以上原因，Hive就此诞生了，Hive基于一个统一的查询分析层通过sql语句的方式对HDFS上的数据进行查询、统计和分析。Hive的本质就是一个SQL解析引擎，将SQL语句转换成MR job。Hive的定位是Hadoop大数据仓库，而S

2021-03-13 11:14:00 430

原创避坑指南！Hexo自动化部署阿里云服务器详解

避坑指南！Hexo自动化部署阿里云服务器详解前言之前Hexo部署在coding，后面coding要钱了，就改静态托管在了github和gitee，当然访问速度极其慢，但胜在人家免费啊，没办法只好妥协。到后面突然发现github和gitee都访问不了我的blog了，太惨了，没办法，趁着阿里云搞活动，买了个2core2g的云服务器来搭建搭建，这里记录一下我的踩坑历程。这篇教程适合：有一定linux基础；有本地搭建hexo并部署过github等平台经验的人；对nginx有点点了解的人；按照网上一些

2021-03-12 13:23:00 625 1

原创大数据资源调度架构--Yarn

文章目录Yarn的作用Yarn基本架构RMRM的功能AMAM的作用AM的启动流程NMNM的作用ContainerContainer作用Slot VS ContainerSlotcontainer总结Yarn工作机制Yarn作业提交过程作业提交作业初始化任务分配任务运行进度和状态更新作业完成Yarn容错能力Yarn 是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。Yarn的作用对集群资源进行

2021-02-25 20:28:00 987

原创快速入门大数据分布式文件存储系统--HDFS

HDFS文章目录HDFSHDFS基础HDFS系统架构NameNodeNameNode(NN)作用1.为什么hadoop更倾向于存储大文件？NN单节点故障解决方案DataNode(NN)作用机架感知策略--Block副本放置策略数据完整性--检测数据是否受到损坏容错--数据可靠性HDFS特点优点缺点HDFS&MapReduce的本地模式HDFS2.0新特性NameNode的HA(高可用)单点故障问题解决方案数据一致性如何保证？NameNode2.0JN(网络共享文件系统)当activeNN挂掉了，s

2021-02-22 22:52:03 704 2

原创大数据计算框架MapReduce快速入门

MapReduce文章目录MapReduceMaprReduce基础MR定义MR优缺点优点缺点MR核心思想MR进程MRv1MRv2MR任务运行时产生的进程MR作业原理拓展2Hadoop序列序列化定义为什么要序列化为什么不要Java序列化Hadoop序列化特点MR进阶MR框架原理InputFormat数据输入切片与MapTask并行度决定机制MapTask并行度决定机制FileInputFormat切片机制切片机制CombineTextInputFormat 切片机制切片机制MR工作流程MapReduce流

2021-02-22 20:50:30 228

原创 DataWhale-Numpy-Task05-iris数据集实操

一、题目:本次练习使用鸢尾属植物数据集 .\iris.data ，在这个数据集中，包括了三类不同的鸢尾属植物：Iris Setosa，Iris Versicolour，Iris Virginica。每类收集了50个样本，因此这个数据集一共包含了150个样本。sepallength：萼片长度sepalwidth：萼片宽度petallength：花瓣长度petalwidth：花瓣宽度以上四个特征的单位都是厘米（cm）如何导入数据集import numpy as np# from sklearn.dat

2020-12-04 11:21:51 493 1

原创 DataWhale-Numpy线性代数-Task04-打开

线性代数Numpy 定义了 matrix 类型，使用该 matrix 类型创建的是矩阵对象，它们的加减乘除运算缺省采用矩阵方式计算，因此用法和Matlab十分类似。但是由于 NumPy 中同时存在 ndarray 和 matrix 对象，因此用户很容易将两者弄混。这有违 Python 的“显式优于隐式”的原则，因此官方并不推荐在程序中使用 matrix。在这里，我们仍然用 ndarray 来介绍。矩阵和向量积矩阵的定义、矩阵的加法、矩阵的数乘、矩阵的转置与二维数组完全一致，不再进行说明，但矩阵的乘法有

2020-11-29 20:30:47 121

原创 DataWhaleNumpy组队学习（下）Day02打卡--Numpy随机抽样

Numpy随机抽样随机抽样numpy.random 模块对 Python 内置的 random 进行了补充，增加了一些用于高效生成多种概率分布的样本值的函数，如正态分布、泊松分布等。numpy.random.seed(seed=None) Seed the generator.seed()用于指定随机数生成时所用算法开始的整数值，如果使用相同的seed()值，则每次生成的随机数都相同，如果不设置这个值，则系统根据时间来自己选择这个值，此时每次生成的随机数因时间差异而不同。在对数据进行预处理时，

2020-11-25 22:36:47 177

原创 DataWhaleNumpy组队学习（下）Day01打卡--Numpy输入输出

Numpy输入和输出Numpy二进制文件save()、savez()和load()函数以 numpy 专用的二进制类型（npy、npz）保存和读取数据，这三个函数会自动处理ndim、dtype、shape等信息，使用它们读写数组非常方便，但是save()输出的文件很难与其它语言编写的程序兼容。npy格式：以二进制的方式存储文件，在二进制文件第一行以文本形式保存了数据的元信息（ndim，dtype，shape等），可以用二进制工具查看内容。npz格式：以压缩打包的方式存储文件，可以用压缩软件解压。n

2020-11-23 22:22:04 120

原创 DataWhale推荐系统组队学习 Day05打卡--GBT&LR

GBDT&LR前面介绍的协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐，忽视了用户自身特征，物品自身特征以及上下文信息等，导致生成的结果往往会比较片面。而这次介绍的这个模型是2014年由Facebook提出的GBDT+LR模型，该模型利用GBDT自动进行特征筛选和组合，进而生成新的离散特征向量，再把该特征向量当做LR模型的输入，来产生最后的预测结果，该模型能够综合利用用户、物品和上下文等多种不同的特征，生成较为全面的推荐结果，在CTR点击率预估场景下使用

2020-10-30 23:57:27 809

原创 Python开发利器 --Virtualenvwrapper配置和使用

Python开发利器 --Virtualenvwrapper废话不多说，直接上代码。#1.步骤1，安装virtualenv包pip install virtualenv#2.步骤2，安装virtualenvwrapper## win系统pip install virtualenvwrapper-win## linux系统pip install virtualenvwrapper#3.步骤3，终端输入mkvirtual，查看是否安装成功下载好后，要先配置一个"WORKON_HOME"

2020-10-29 20:03:16 400

原创 DataWhale-推荐系统打卡Day04--Wide&Deep

Wide&Deep点击率预估简介点击率预估是什么？点击率预估是对每次广告点击情况作出预测，可以输出点击或者不点击，也可以输出该次点击的概率，后者有时候也称为pClick.。点击率预估模型是什么？点击率预估问题就是一个二分类的问题，在机器学习中可以使用逻辑回归作为模型的输出，其输出的就是一个概率值，我们可以将机器学习输出的这个概率值认为是某个用户点击某个广告的概率。点击率预估与推荐算法的区别广告点击率预估是需要得到某个用户对某个广告的点击率，然后结合广告的出价用于排序；而推荐算法很多大多

2020-10-28 21:34:21 162

原创 DataWhale-推荐系统打卡Day03--矩阵分解

矩阵分解算法隐语义模型与矩阵分解协同过滤算法的特点就是完全没有利用到物品本身或者是用户自身的属性，仅仅利用了用户与物品的交互信息就可以实现推荐，是一个可解释性很强，非常直观的模型，但是也存在一些问题，第一个就是处理稀疏矩阵的能力比较弱，所以为了使得协同过滤更好处理稀疏矩阵问题，增强泛化能力，从协同过滤中衍生出矩阵分解模型(Matrix Factorization,MF)或者叫隐语义模型, 两者差不多说的一个意思，就是在协同过滤共现矩阵的基础上，使用更稠密的隐向量表示用户和物品，挖掘用户

2020-10-26 00:17:30 130

原创 DataWhale-推荐系统Day02打卡--协同过滤

协同过滤协同过滤算法介绍所谓协同过滤，基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品(基于对用户历史行为数据的挖掘发现用户的喜好偏向，并预测用户可能喜好的产品进行推荐)，一般是仅仅基于用户的行为数据（评价、购买、下载等）,而不依赖于项的任何附加信息（物品自身特征）或者用户的任何附加信息（年龄，性别等）。目前应用比较广泛的协同过滤算法是基于邻域的方法，而这种方法主要有下面两种算法：1. 基于用户的协同过滤算法(UserCF): 给用户推荐和他兴趣相似的其他用户喜欢的产品

2020-10-22 23:42:28 225

原创 DataWhale打卡Day01--推荐系统入门

推荐系统入门推荐系统简介什么是推荐系统对用户：推荐系统是一种帮助用户快速发现有用信息的工具对公司：推荐系统是一种增加公司产品与用户接触,购买等行为概率的工具本质：本质上是一种实现将用户-商品-公司之间利益最大化的手段.常用评测指标1.用户满意度；2.预测准确度–RMSE等；3.覆盖率覆盖率是用来描述一个推荐系统对物品长尾的发掘能力,一个简单的定义可以是:推荐系统所有推荐出来的商品集合数占总物品集合数的比例.但是对于相同的覆盖率,不同物品的数量分布,或者说是物品的流行度分

2020-10-19 23:48:37 323

原创 Datawhale组队学习--数据挖掘实战-金融风控Day2

金融风险预测数据EDA查看数据大体分布情况# 导入相关库import seaborn as snsimport pandas as pdimport pandas_profiling as ppimport matplotlib.pyplot as pltimport warningsimport timeimport datetimeimport numpy as npimport missingnowarnings.filterwarnings('ignore')%.

2020-09-18 23:22:22 97

原创 Datawhale组队学习--数据挖掘实战-金融风控Day1

金融风控比赛Day1了解数据概况了解有哪些数据字段；各个数据字段含义；各个数据字段的类型；了解比赛的预测指标AUC作为评价指标采用AUC作为评价指标。AUC（Area Under Curve）被定义为 ROC曲线下与坐标轴围成的面积。分类算法常见评估指标1.混淆矩阵若一个实例是正类，并且被预测为正类，即为真正类TP(True Positive ) 若一个实例是正类，但是被预测为负类，即为假负类FN(False Negative ) 若一个实例是负...

2020-09-14 15:56:39 178

原创 LightGBM算法框架一文详解！

简介微软DMTK团队在 github上开源了性能超越其他 boosting decision tree工具！ LIGHTGBM，三天之内star了1000+次，fork了200+次。知乎上有近干人关注如何看待微软开源的 Lightgbm? 问题，被评价为速度惊人”，“非常有启发”，“支持分布式",“代码清晰易慬",“占用内存小"等。lightgbm主要涉及分类、回归、排序等。属于监督学习算法。通过调整模型参数w使得损失函数最小化，但一昧的最小化模型输出和数据标度的差异，可能会使得模型过拟合，所以通.

2020-07-04 17:53:18 964

原创震惊！数据分析还能这样做？

数据分析概述数据分析完整工作流程关于数据分析的大体流程这里以图形的形式展现给大家，就不做过多的讲述。数据探索与相关性分析这一部分是直接从数据分析工作流程中的数据整理与清洗开始。数据探索，探索性数据分析（Exploratory Data Analysis），简称EDA。传统的统计方法是先假定数据服从某种分布，然后运用这种模型进行预测，以概率论为基础，做参数检验。而EDA则是强调数据，“抛开”概率的理论，从数据出发，主要手段是汇总统计，可视化。在进行EDA时，我们可以分为三个阶段，分别是：数.

2020-07-01 20:48:09 339

原创 The Supervised Learning of ML

Activation Functions激活函数，又称为阶跃函数，即当输入的数值达到某个标准时，这个函数的返回值会出现一个明显的变化。部分激活函数如下图所示：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RkxBj3Rm-1587955391478)(https://i.loli.net/2020/04/18/dN6TKbB2RGvnzoO.png)]在此次视频中，选用的便是第一个激活函数来进行学习判断 donuts or bagels，由函数曲线的特点可以发现，随着输

2020-07-01 20:40:43 103

weixin_45604606的博客