机器学习
文章平均质量分 54
Foina数据分析狮
公众号 DataLion
定期分享数据分析和机器学习的技术。
展开
-
天池二手车交易价格预测--赛题理解与数据探索性分析
一、赛题理解1.1赛题概述赛题以预测二手车的交易价格为任务,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。具体的数据表如下:SaleID - 销售样本IDname - 汽车编码regDate - 汽车注册时间model - 车型编码brand - 品牌bodyType - 车身类型fuelType - 燃油类型gearbo...原创 2020-03-24 21:15:59 · 553 阅读 · 0 评论 -
贝叶斯网络
这篇讲的很清楚:贝叶斯网络原创 2019-11-12 23:19:08 · 217 阅读 · 0 评论 -
朴素贝叶斯(二)模型、推导、拉普拉斯平滑
写给自己:快速过算法的话,朴素贝叶斯算法看1 朴素贝叶斯模型定义:基于贝叶斯定理和特征条件独立假设的分类方法。贝叶斯定理(可以参考我的上篇文章朴素贝叶斯(一)知识准备—条件概率、全概率、贝叶斯公式)条件独立假设—后面会介绍贝叶斯模型是通过训练集学习联合分布P(X,Y),从而进一步求解 后验概率P(Y | X)贝叶斯模型是生成模型。下面我们先来看变量表示变量表示...原创 2019-11-12 22:33:03 · 495 阅读 · 0 评论 -
朴素贝叶斯(一)知识准备---条件概率、全概率、贝叶斯公式
1 条件概率 设A,B是两个事件,且P(B)>0,则在事件B发生的条件下,事件A发生的条件概率为:P(A∣B)=P(A,B)P(B)P(A|B)=\frac{P(A,B)}{P(B)}P(A∣B)=P(B)P(A,B) 一般说到条件概率这一概念的时候,事件A和事件B都是同一实验...原创 2019-11-11 23:19:57 · 880 阅读 · 0 评论 -
机器学习中的评估方法
评估方法 在实际任务中,我们希望得到的是泛化误差小的学习器,理想的解决方案是对模型的泛化误差进行评估,然后选择泛化误差最小的那个学习器。但是,泛化误差指的是模型在所有新样本上的适用能力,我们无法直接获得泛化误差。 因此,通常我们采用一个测试集来测试学习器对新样本的判别能力,然后以测试集上的测试误差作为泛化误差的近似。显然:我们选取的测试集应尽可能与训练集互斥,下面用一个小故事来解释...原创 2019-10-15 13:51:58 · 409 阅读 · 0 评论 -
机器学习中的性能度量
最常见的性能度量 在回归任务中,即预测连续值的问题,最常用的性能度量是“均方误差”(mean squared error),很多的经典算法都是采用了MSE作为评价函数: 在分类任务中,即预测离散值的问题,最常用的是错误率和精度,错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例,易知:错误率+精度=1。 ...原创 2019-10-15 13:11:54 · 514 阅读 · 0 评论 -
决策树(ID3、C4.5)
决策树是什么决策树由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性。叶结点表示一个类,是无法再拆分的结点。决策树构造过程 把决策树看成一个if-then规则的集合,将决策树转换成if-then规则的过程是这...原创 2019-06-17 15:13:35 · 452 阅读 · 0 评论 -
决策树(CART算法)
分类问题中,假设有K个类,样本点属于第k类的概率为pkp_kpk,则概率分布的基尼指数定义为: &...原创 2019-06-19 14:56:14 · 294 阅读 · 0 评论 -
Softmax
模型 进行多分类时,就要用到softmax。 训练样本是:{(x(1),y(1)),...,(x(m),y(m))}\lbrace{(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})}\rbrace{(x(1),y(1)),...,(x(m),y(m))},值得注意...原创 2019-06-08 23:44:08 · 4322 阅读 · 0 评论 -
LR逻辑斯蒂回归(对数几率回归)
从LR模型的三要素出发。模型模型引入如果在线性模型 ( z=wTx+bz = w^T x + bz=wTx+b) 的基础上做分类,比如二分类任务,即y∈{0,1}y \in \{0,1\}y∈{0,1}.最直观的,可以将线性模型的输出值再套上一个函数 y=g(z)y = g(z)y=g(z),最简单的就是“单位阶跃函数”.y={0z<00.5z=01z>0y= ...原创 2019-05-31 19:01:38 · 427 阅读 · 0 评论 -
概率分布、概率分布函数
随机变量概率函数 概率函数是用函数的形式表示概率 Pi=P(X=ai)(i=1,2,3,4,5,6)P_i=P(X=a_i)(i=1,2,3,4,5,6)Pi=P(X=ai)(i=1,2,3,4,5,6)在这个函数里,自变量 X 是随机变量的取值,因变量 PiP_iPi是取值的概率。它就代表了每个取值的概率,所以顺理成章的它就叫做了X的概率函数。从公式上来看,概率函数一次只能表示一...原创 2019-05-31 13:48:02 · 11743 阅读 · 0 评论 -
机器学习 统计学习方法笔记(三)
训练误差与测试误差 一般情况下,我们将数据集分为两大类:训练集和测试集。(有的时候分成三部分:训练集、验证集、测试集)。 训练误差是指模型在训练集上的误差,反映的是模型的学习能力。 训练误差是模型关于 训练数据集的平均损失: ...原创 2018-08-31 10:20:11 · 291 阅读 · 2 评论 -
机器学习 统计学习方法笔记(二)
第一章 统计学习方法概论 目录统计学习 统计学习特点统计学习对象统计学习目的统计学习分类 统计学习方法三要素统计学方法步骤监督学习 三要素模型策略损失函数 经验损失或经验风险 经验风险最小化 结构风险最小化 算法统计学习 统计学习特点 1.平 台:计算机及网络2.研究对象:数据,是数据驱动的学...原创 2018-08-29 18:36:31 · 378 阅读 · 2 评论 -
统计学习方法笔记(四) 感知机原理及matlab代码
感知机感知机(perceptron)是二类分类的线性分类模型,其输入是实例的特征向量,输出为实例的类别,取+1和-1两个值。感知机对应于输入空间中将实例分为正负两类的分离超平面,属于判别模型。感知机学习算法分为原始形式和对偶形式原始形式 算法步骤matlab代码实现 function [ w,b ] = original_style( training_s...原创 2018-09-06 15:57:22 · 949 阅读 · 1 评论 -
矩阵求导
矩阵求导这块儿特别容易迷糊。推荐维基百科的矩阵推导的公式:https://en.wikipedia.org/wiki/matrix_calculus,很全面,易查表。原创 2018-12-05 22:02:36 · 152 阅读 · 0 评论 -
线性回归及正规方程和梯度下降求解及正则化
目录1.定义2.求解3.回归性能评估4.总结 线性回归是最为简单、易用的回归模型。从某种程度上限制了使用,尽管如此,在不知道特征之间关系的前提下,我们仍然使用线性回归器作为大多数系统的首要选择。1.定义回归:目标值是连续值;分类:目标值是离散值。线性回归:通过一个或者多个自变量(特征)与因变量(目标值)之间进行建模的回归分析。其中特点为一个...原创 2019-03-04 11:11:24 · 1840 阅读 · 0 评论 -
机器学习 学习笔记(一)
1.了解基本知识 机器学习算法的本质是找到一个目标函数(f),使其成为输入变量(X)到输出变量(Y)之间的最佳映射:Y = f(X) 机器学习里面三个主要类别:监督学习,无监督学习和强化学习。监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。 在监督学习(supervised learning...原创 2018-08-28 16:11:01 · 300 阅读 · 1 评论