![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
文章平均质量分 74
机器学习
adamyoungjack
师傅领进门,修行看个人。
展开
-
数据科学,数据挖掘,人工智能,机器学习,深度学习关系
参考文档:http://innovaleur.com/the-data-science-puzzle-explained/原创 2020-12-05 15:44:00 · 373 阅读 · 0 评论 -
人工智能
1. 人工智能人工智能发展必备三要素1.1 人工智能应用场景人工智能在现实生活中的应用:网络安全、电子商务、计算模拟、社交网络 … …1.2 人工智能小案例案例一:参考链接:https://quickdraw.withgoogle.com案例二:参考链接:https://pjreddie.com/darknet/yolo/案例三:查看更多:https://deepdreamgenerator.com/1.3 人工智能、机器学习和深度学习关系人工智能和机器学习,深度学原创 2020-11-28 22:44:06 · 683 阅读 · 0 评论 -
机器学习
1.4 机器学习工作流程学习目标了解机器学习的定义知道机器学习的工作流程掌握获取到的数据集的特性1 什么是机器学习1. 简介机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。2. 工作流程机器学习工作流程总结1.获取数据2.数据基本处理3.特征工程4.机器学习(模型训练)5.模型评估结果达到要求,上线服务没有达到要求,重新上面步骤2.1 获取数据集1. 简介一行数据我们称为一个样本一列数据我们成为一个特征有些数据有目标值(原创 2020-12-04 23:40:44 · 1260 阅读 · 0 评论 -
K-近邻算法
1. 简介1.1 定义k-近邻算法,也叫KNN算法,是一个非常适合入门的算法上图中的数据点是分布在一个特征空间中的,通常使用一个二维的空间演示横轴表示肿瘤大小,纵轴表示发现时间。恶性肿瘤用蓝色表示,良性肿瘤用红色表示。此时新来了一个病人如上图绿色的点,怎么判断新来的病人(即绿色点)是良性肿瘤还是恶性肿瘤呢?k-近邻算法的做法如下:取一个值k=3(此处的k值可以理解为机器学习的使用者根据经验取得了一个经验的最优值)。k近邻判断绿色点的依据就是在所有的点中找到距离绿色点最近的三个点,原创 2020-11-29 00:08:33 · 707 阅读 · 0 评论 -
梯度下降算法
1. 简介1.1 定义步长(Learning rate):步长决定了在梯度下降迭代的过程中,每一步沿梯度负方向前进的长度是超参数 0.1 0.01特征(feature):指的是样本中输入部分假设函数(hypothesis function):根据经验观察得到的目标值和特征值之间的关系的表达式损失函数(loss function):为了评估模型拟合的好坏,通常用损失函数来度量拟合的程度。1.2 推导流程1 构建假设函数,表示的是标签值和特征值之间的关系2 根据假设函数构建损失函原创 2020-12-07 17:49:41 · 829 阅读 · 0 评论 -
线性回归
1.线性回归简介1 定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FGa6kroX-1607249076148)(day06.assets/_mathjax_53b3b51f.svg)]我们看到特征值与目标值之间建立了一个关系,这个关系可以理解为线性模型。线性回归当中主要有两种模型,一种是线性关系,另一种是非线性原创 2020-12-06 18:10:46 · 222 阅读 · 0 评论 -
欠拟合和过拟合
1. 简介1.1 定义以线性回归为例不划分数据集一阶线性方程import numpy as npimport matplotlib.pyplot as plt# 设置随机种子,使得随机的数都一样(可以不设)np.random.seed(666)# 1. 获取特征值x = np.random.uniform(-3, 3, size = 100)x# 2. 获取目标值# 定义表达式, 加了扰动,# normal:表示正态分布上的点y = 0.5 * x**2 + x原创 2021-01-02 20:24:42 · 239 阅读 · 0 评论 -
逻辑回归
1. 简介1.1 定义逻辑回归(Logistic Regression)是机器学习中的一种分类模型逻辑回归是一种分类算法,虽然名字中带有回归由于算法的简单和高效,在实际中应用非常广泛1.2 特点解决的是一个二分类问题逻辑回归的输入是线性回归的输出1.3 应用场景广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号特点:都属于两个类别之间的判断逻辑回归就是解决二分类问题的利器1.3 原理要想掌握逻辑回归,必须掌握两点:逻辑回归中,其输入值是什么如何判断逻辑原创 2020-12-09 00:40:59 · 1035 阅读 · 0 评论 -
决策树
1. 简介概念:是一种树形结构,本质是一颗由多个判断节点组成的树其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。构建决策树from sklearn.tree import DecisionTreeClassifiertree = DecisionTreeClassifier(max_depth=2,criterion="entropy")tree.fit(X,y)通过上述分析可知:决策树是非参数学习算法决策树可以解决分原创 2020-12-09 18:52:20 · 401 阅读 · 0 评论 -
Gradient Boosting算法
重启原创 2020-12-18 18:40:00 · 1352 阅读 · 1 评论 -
GBDT
1. 简介GBDT 的全称是 Gradient Boosting Decision Tree,梯度提升树。GBDT使用的决策树是CART回归树当CART是回归树时,采用样本的最小方差作为节点分裂的依据CART树是二叉树。2. 回归树生成算法输入:训练数据集D输出:回归树选择每个特征的每个取值,根据该值对样本进行划分成两部分。分别计算每部分的方差,计算过程:对每部分计算平均值,用每部分的每个取值减去平均值求平方再累加。即可得到每个特征每个取值的损失值,此时选择损失值最小的特征和对应的取值作为分原创 2020-12-11 18:17:08 · 740 阅读 · 0 评论 -
XGBOOST
不同算法解决不同的问题,但是首先需要确定的是问题本身(分类还是回归)原创 2020-12-20 22:07:17 · 311 阅读 · 1 评论 -
集成学习
1. 简介集成学习是一种思想,不是某一个算法集成学习 (Ensemble Learning) 算法的基本思想就是将多个学习器组合,从而实现一个预测效果更好的集成学习器集成算法大致可以分为:Bagging,Boosting 和Stacking等类型。bagging 并行 多个学习器互不相关 可以并行训练boosting 串行 后一个学习器依赖于前一个学习器stacking 多个学习器的输出作为后面一个学习器的输入2. Bagging和随机森林2.1 简介每次采用有放回的抽样从训练集中取出t原创 2020-12-10 20:11:56 · 829 阅读 · 0 评论 -
分类算法
1. 简介逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归。2. 应用场景数据不均衡问题广告点击率是否为垃圾邮件是否患病金融诈骗虚假账号3. 原理线性回归:通过sigmoid函数对线性回归输出结果进行转化,转化到 (0,1) 之间。此时这个结果可以认为是取某个类别的概率值。sigmoid: h(t) = 1/(1+e^(-t))def sigmoid(t): return 1/(1+np.e**原创 2020-12-09 18:53:16 · 14534 阅读 · 0 评论 -
聚类算法
1. 简介1.1 现实中的应用用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别基于位置信息的商业推送,新闻聚类,筛选排序图像分割,降维,识别;离群点检测;信用卡异常消费;发掘相同功能的基因片段1.2 定义聚类算法:一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。1.3 聚类算法与分类算法最大的区别聚类算法是无监督的学习算法,而分类算法属于监督的学习算法。1.4 聚类算法api初步使用sklearn.cluster.KMean原创 2020-12-11 18:16:29 · 1758 阅读 · 0 评论 -
LightGBM
1 常见数据分析网站深圳市政府数据开放平台 https://opendata.sz.gov.cn/kaggle平台 www.kaggle.com天池大赛 https://tianchi.aliyun.com/scikit-learn官网 https://scikit-learn.org/stable/2 Pandas DataFrame 入门1 Pandas DataFrame简介可以实现数据加载,清洗,转换,统计处理,可视化等功能DataFrame和Series是Pandas最基本的两种数原创 2020-11-29 21:35:05 · 224 阅读 · 0 评论 -
金融风控
一 金融风控相关业务介绍学习目标知道常见信贷风险知道知道信贷领域常用术语含义1. 信贷简介1.1 定义信贷业务,就是贷款业务,是商业银行和互联网金融公司最重要的资产业务和主要赢利手段通过放款收回本金和利息,扣除成本后获得利润。贷款平台预测有信贷需求用户的还款情况,然后将本金借贷给还款概率大的用户1.2 风险信用风险:借款人的的还款能力和还款意愿在贷款后出现问题的风险欺诈风险:借款人压根没想还钱,以诈骗为目的2. 风控简介2.1 定义信贷业务中,使用信用来预支金原创 2020-12-14 12:09:47 · 1059 阅读 · 0 评论 -
风控建模
1 风控建模流程1 评分卡简介贷前 申请评分卡 Application score card贷中 行为评分卡 Behavior score card贷后 催收评分卡 Collection score cardA B逾期的客户是正样本C 能够被内催催回来的客户2 机器学习模型的完整工程流程准备明确需求模型设计业务抽象成分类/回归问题定义标签(目标值)样本设计特征工程数据处理,选取合适的样本,并匹配出全部的信息作为基础特征特征构建特征评估原创 2020-12-21 15:21:11 · 5606 阅读 · 0 评论 -
特征构造
1. 风控建模流程1.1 评分卡贷前 申请评分卡 Application score card贷中 行为评分卡 Behavior score card贷后 催收评分卡 Collection score cardA B逾期的客户是正样本C 能够被内催催回来的客户1.2 机器学习模型的完整工程流程准备明确需求模型设计业务抽象成分类/回归问题定义标签(目标值)样本设计特征工程数据处理,选取合适的样本,并匹配出全部的信息作为基础特征特征构建特原创 2020-12-21 15:22:43 · 2940 阅读 · 0 评论 -
特征筛选
1. 特征筛选单特征分析覆盖度区分度稳定性多特征筛选星座BorutaVIFRFEL1业务内部特征的监控前端稳定性后端区分度外部特征的评估评分型数据名单型数据保护隐私未来信息1.1 单特征分析1. 简介好特征可以从几个角度衡量:覆盖度,区分度,相关性,稳定性2. 分析角度2.1 覆盖度采集类,授权类,第三方数据在使用前都会分析覆盖度采集类 :如APP list (Android 手机 90%)授权类:如爬虫数据(20% 30原创 2020-12-21 17:14:31 · 6265 阅读 · 0 评论 -
评分卡模型构建
不同算法解决不同的问题,但是首先需要确定的是问题本身(分类还是回归)原创 2020-12-19 00:59:07 · 426 阅读 · 3 评论 -
样本不均衡
1. 简介通常分类机器学习任务期望每种类别的样本是均衡的,即不同目标值样本的总量接近相同。在梯度下降过程中,不同类别的样本量有较大差异时,很难收敛到最优解。很多真实场景下,数据集往往是不平衡的,一些类别含有的数据要远远多于其他类的数据在风控场景下,负样本的占比要远远小于正样本的占比2. 样本不均衡解决方案2.1 代价敏感在风控领域中,将一个坏用户分类为好用户所造成的损失远远大于将一个好用户分类来坏用户的损失,因此在这种情况下要尽量避免将坏用户分类为好用户类权重计算方法如下:weight原创 2020-12-18 18:45:08 · 668 阅读 · 1 评论 -
推荐系统
1. 简介没有明确需求的用户访问了我们的服务, 且服务的物品对用户构成了信息过载, 系统通过一定的规则对物品进行排序,并将排在前面的物品展示给用户,这样的系统就是推荐系统信息过载 & 用户需求不明确分类⽬录搜索引擎推荐系统推荐系统 V.S. 搜索引擎行为方式意图个性化流量分布目标推荐系统的工作原理及作用社会化推荐 基于内容的推荐 基于流行度的推荐 基于协同过滤的推荐推荐系统的作用高效连接用户和物品提高用户停留时间和用户活跃程度有效的帮助产品实现其商业价值原创 2020-12-18 18:52:12 · 422 阅读 · 1 评论