毕业就要失业了-CSDN博客

原创共指消解CoNLL-2012/OntoNotes数据集下载与处理

至此，everything is down！

2023-12-13 19:16:57 604 2

原创 LLM校准 - On the Calibration of Large Language Models and Alignment

一个比较有意思的发现是，当参数量增大，confidence distribution倾向于坍缩到一个很小的区间内。注：本notes不介绍calibration相关的基础知识，如有兴趣请自行阅读相关文献～

2023-11-27 20:25:25 923 1

原创机器学习——聚类

1. 分类 vs 聚类分类：有监督学习（需要标签）；依据已知标签的数据，根据一定规则或模式，对新输入数据标记上影响标签（有明确的训练集，有人为给定标签）。聚类：无监督学习（没有标签）；对于给定数据按照其相似性进行划分（没有训练集，没有标签，也不知道确切的类别或簇的数目）。2. 聚类任务在“无监督学习”任务中研究最多、应用最广；聚类的目标是将数据样本划分为若干个通常不相交的簇（cluster）；既可以作为一个单独过程（用于找寻数据内在的分布结构），也可作为分类等其他学习任务的前驱

2021-12-11 22:37:55 1719

原创机器学习——子空间学习（PCA & LDA）

1. 引入：子空间学习与降维什么是子空间学习？子空间学习大意是指通过投影，实现高维特征向低维空间的映射，是一种经典的降维思想。绝大多数的维数约简（降维，投影）算法都算是子空间学习，如PCA、LDA、LPP、LLE等；本文只介绍前两种维数约减算法，即主成分分析（PCA）和线性判别分析（LDA）。什么是降维？什么情况下需要降维？降维：寻找一组映射对样本进行重新表示（representation）。原样本：x=[x1;x2;...;xd]∈Rdx=[x_1;x_2;...;x_d]∈\mathb

2021-12-11 20:41:38 6652 4

原创机器学习——神经网络

1. 神经元模型1.1 什么是神经网络？神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所做的交互反应。神经网络中最基本的成分是神经元模型。1.2 M-P神经元模型神经元接收来自nnn个其他神经元的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总加权输入值与神经元的阈值进行比较，然后通过激活函数处理以产生神经元的输出。神经元状态：当∑i=1nwixi≥θ\sum\limits_{i=1}^nw_ix_i≥\thetai=1

2021-12-06 00:05:36 959

原创机器学习——决策树

1. 决策树算法思想1.1 概述决策树算法：是一种分治算法，目的是构建一个基于属性的树形分类器。每个非叶结点代表一个特征属性上的测试（分割）；每个分支代表这个特征属性在某个值域上的输出；每个叶结点代表一个类别。使用决策树进行决策的过程就是从根结点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到达到叶结点，将叶结点存放的类别作为决策结果。1.2 决策树构建决策树构建：分治思想（递归）对于当前结点结束递归的条件：当前结点样本均属于同一类别，无需划分；当前属性集为

2021-12-02 22:12:53 1328

原创机器学习——线性模型

1. 基本形式给定有ddd个属性的示例x=(x1;x2;...;xd)x=(x_1;x_2;...;x_d)x=(x1;x2;...;xd)，其中xix_ixi是xxx的第iii个属性上的取值。线性模型试图学得一个通过属性的线性组合来进行预测的函数，即：f(x)=w1x1+w2x2+...+wdxD+bf(x)=w_1x_1+w_2x_2+...+w_dx_D+bf(x)=w1x1+w2x2+...+wdxD+bf(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b2. 线性

2021-12-01 13:08:20 396

原创机器学习——模型评估与选择

1. 经验误差与过拟合经验：对于特定机器学习任务，已存在的可利用数据即是解决该机器学习任务的经验。误差：模型的预测输出和样本的真实输出之间的差异。经验误差：模型在训练集上的误差，也称训练误差。泛化误差：模型在新样本上的误差，是实际误差。测试误差：模型在测试集上的误差，用来近似泛化误差。问题：什么是好的模型？答：能够很好地适用于未见样本（新样本），也就是泛化误差小的模型。过拟合：模型把训练样本自身特点当做一般性质，导致泛化性能下降。欠拟合：模型对训练样本的一般性质尚未学好。欠拟

2021-11-29 15:31:31 830

原创机器学习——绪论

1. 什么是机器学习？定义：机器学习是一门致力于研究如何通过计算的手段，利用经验来改善系统自身的性能的学科。2. 基本术语数据集，示例=样本=特征向量，属性=特征，属性值属性空间=样本空间=输入空间=假设空间：由属性张成的空间。特征空间：排除线性相关和对模型构建无益处的属性后得到的空间。.........

2021-11-29 09:54:57 688

原创机器学习——支持向量机（SVM）

SVM基本型与对偶问题优化目标：最大化分类间隔(margin)(margin)(margin)原始模型：minω,b12∣∣ω∣∣2\underset{\omega,b}{min} \quad \frac{1}{2}||\omega||^2ω,bmin21∣∣ω∣∣2s.t.yi(ωTxi+b)≥1,i=1,2,...,ms.t. \quad y_i(\omega^Tx_i+b)≥1, \quad i=1,2,...,ms.t.yi(ωTxi+b)≥1,i=1,2,...,m变量：ω=(.

2021-10-30 14:26:59 581

weixin_47779143的博客