机器学习
zaishaoyi
如果学习不用来装逼,那将毫无意义~
展开
-
Task04 吃瓜教程——第五章 神经网络
神经网络(neural networks)是仿照动物的神经系统而来,期望机器可以获得类似人类的学习的能力。神经网络中最基本的模型叫做神经元(neuron)或者(unit)。1943年, McCulloch and Pitts 按照生物神经元的功能(兴奋的接受,传递)抽象出神经元模型,即"M-P神经元模型"。上图中,表示来自n个其他神经元的输入信号,为这个n信号的权重。神经元收到这些输入之后,会计算总输入值,并将总输入值与当前神经元的阈值进行比较,然后通过激活函数(activation function)处理原创 2022-06-26 01:10:24 · 274 阅读 · 1 评论 -
Task03 吃瓜教程——西瓜书第四章决策树
决策树(Decision tree)是一种常见的机器学习方法,常用于分类任务。包括一个根节点,若干内部节点和若干叶子节点。一、决策树的流程二、划分选择信息增益增益率基尼指数三、剪枝处理剪枝(pruning)是解决过拟合问题的主要手段。预剪枝后剪枝四、连续与缺失值连续值处理缺失值处理五、多变量决策树...原创 2022-06-24 00:44:28 · 383 阅读 · 0 评论 -
Task2 吃瓜教程——西瓜书第三章 线性模型
定义:线性模型(linear model)是通过属性的线性组合来进行预测的函数模型。给定由d个属性组成的示例线性模型学习的过程即确定和的过程。给定数据集, 其中(列向量),。试图学得 和以尽可能准确预测输出的过程,叫作线性回归。示例中属性是d维向量, 共有m个样本。问题:数据集简写为, 试图学得使得 (1)损失函数——均方误差:(2)记最小二乘法参数估计:分别对求导得:(3)(4)因为在偏导为0时取得极值,因此令(3)(4)为0,可解得:其中多元线性回归需要转换为矩阵的运算。而b无法直接在矩阵中表示。可以原创 2022-06-20 22:00:35 · 410 阅读 · 0 评论 -
TF-IDF
一、基本概念TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数(TF)成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量。通过计算文档中字词的TF-IDF可以进行文章关键词的抽取。给定一批文档D , 文档个数为|D|, 第j个文档记为。对每篇文档进行切词,第i个词为,第i个词在第j个文档中出现次数为二、计算方式2.1 计算T原创 2020-07-21 16:01:27 · 446 阅读 · 0 评论 -
机器学习一——初识机器学习
课程地址:https://www.bilibili.com/video/av9912938/?p=10这个课程比之前网易公开课更加浅显易懂,注重基础知识的讲解。适合小白入门。只是字幕翻译不够完美。第一节标题是机器学习的动机与应用,主要介绍了一下几个方面:1、机器学习的定义课程中的定义很复杂,简言之 就是从经验中学得一个解决某一任务的方法,并按照某种衡量标准迭代,使这个方法最优。...原创 2019-07-09 16:45:42 · 228 阅读 · 0 评论 -
【百面机器学习】第二章 模型评估
目录一、评估指标1、数值指标2、曲线指标3、距离指标二、模型评估方法1、留出法(Holdout)2、交叉验证(cross-validation)3、自助法:三、A/B测试1、什么是A/B测试:2、已经有离线评估的各种数据,为什么还要进行A/B测试:3、应该注意的问题四、过拟合/欠拟合1、定义:2、降低过拟合风险:3、降低欠拟合风险:...原创 2019-09-07 15:28:47 · 752 阅读 · 0 评论 -
【百面机器学习】第一章 特征工程
百面机器学习开篇一句话非常经典:对于一个机器学习问题,数据和特征往往决定了结果的上限,而模型和算法的选择及优化则是在逐步接近这个上限。一、特征工程1、特征工程定义对原始数据进行一系列的工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程,在世界工作中,特征工程还包括对数据的一些预处理工作。2、原始数据类型:原始数据类型常用的有两种...原创 2019-09-16 00:25:38 · 232 阅读 · 0 评论