自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 共指消解CoNLL-2012/OntoNotes数据集下载与处理

至此,everything is down!

2023-12-13 19:16:57 553 2

原创 LLM校准 - On the Calibration of Large Language Models and Alignment

一个比较有意思的发现是,当参数量增大,confidence distribution倾向于坍缩到一个很小的区间内。注:本notes不介绍calibration相关的基础知识,如有兴趣请自行阅读相关文献~

2023-11-27 20:25:25 893 1

原创 机器学习——聚类

1. 分类 vs 聚类分类:有监督学习(需要标签);依据已知标签的数据,根据一定规则或模式,对新输入数据标记上影响标签(有明确的训练集,有人为给定标签)。聚类:无监督学习(没有标签);对于给定数据按照其相似性进行划分(没有训练集,没有标签,也不知道确切的类别或簇的数目)。2. 聚类任务在“无监督学习”任务中研究最多、应用最广;聚类的目标是将数据样本划分为若干个通常不相交的簇(cluster);既可以作为一个单独过程(用于找寻数据内在的分布结构),也可作为分类等其他学习任务的前驱

2021-12-11 22:37:55 1707

原创 机器学习——子空间学习(PCA & LDA)

1. 引入:子空间学习与降维什么是子空间学习?子空间学习大意是指通过投影,实现高维特征向低维空间的映射,是一种经典的降维思想。绝大多数的维数约简(降维,投影)算法都算是子空间学习,如PCA、LDA、LPP、LLE等;本文只介绍前两种维数约减算法,即主成分分析(PCA)和线性判别分析(LDA)。什么是降维?什么情况下需要降维?降维:寻找一组映射对样本进行重新表示(representation)。原样本:x=[x1;x2;...;xd]∈Rdx=[x_1;x_2;...;x_d]∈\mathb

2021-12-11 20:41:38 6406 4

原创 机器学习——神经网络

1. 神经元模型1.1 什么是神经网络?神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做的交互反应。神经网络中最基本的成分是神经元模型。1.2 M-P神经元模型神经元接收来自nnn个其他神经元的输入信号,这些输入信号通过带权重的连接进行传递,神经元接收到的总加权输入值与神经元的阈值进行比较,然后通过激活函数处理以产生神经元的输出。神经元状态:当∑i=1nwixi≥θ\sum\limits_{i=1}^nw_ix_i≥\thetai=1

2021-12-06 00:05:36 941

原创 机器学习——决策树

1. 决策树算法思想1.1 概述决策树算法:是一种分治算法,目的是构建一个基于属性的树形分类器。每个非叶结点代表一个特征属性上的测试(分割);每个分支代表这个特征属性在某个值域上的输出;每个叶结点代表一个类别。使用决策树进行决策的过程就是从根结点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到达到叶结点,将叶结点存放的类别作为决策结果。1.2 决策树构建决策树构建:分治思想(递归)对于当前结点结束递归的条件:当前结点样本均属于同一类别,无需划分;当前属性集为

2021-12-02 22:12:53 1310

原创 机器学习——线性模型

1. 基本形式给定有ddd个属性的示例x=(x1;x2;...;xd)x=(x_1;x_2;...;x_d)x=(x1​;x2​;...;xd​),其中xix_ixi​是xxx的第iii个属性上的取值。线性模型试图学得一个通过属性的线性组合来进行预测的函数,即:f(x)=w1x1+w2x2+...+wdxD+bf(x)=w_1x_1+w_2x_2+...+w_dx_D+bf(x)=w1​x1​+w2​x2​+...+wd​xD​+bf(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b2. 线性

2021-12-01 13:08:20 363

原创 机器学习——模型评估与选择

1. 经验误差与过拟合经验:对于特定机器学习任务,已存在的可利用数据即是解决该机器学习任务的经验。误差:模型的预测输出和样本的真实输出之间的差异。经验误差:模型在训练集上的误差,也称训练误差。泛化误差:模型在新样本上的误差,是实际误差。测试误差:模型在测试集上的误差,用来近似泛化误差。问题:什么是好的模型?答:能够很好地适用于未见样本(新样本),也就是泛化误差小的模型。过拟合:模型把训练样本自身特点当做一般性质,导致泛化性能下降。欠拟合:模型对训练样本的一般性质尚未学好。欠拟

2021-11-29 15:31:31 815

原创 机器学习——绪论

1. 什么是机器学习?定义:机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。2. 基本术语数据集,示例=样本=特征向量,属性=特征,属性值属性空间=样本空间=输入空间=假设空间:由属性张成的空间。特征空间:排除线性相关和对模型构建无益处的属性后得到的空间。.........

2021-11-29 09:54:57 676

原创 机器学习——支持向量机(SVM)

SVM基本型与对偶问题优化目标:最大化分类间隔(margin)(margin)(margin)原始模型:minω,b12∣∣ω∣∣2\underset{\omega,b}{min} \quad \frac{1}{2}||\omega||^2ω,bmin​21​∣∣ω∣∣2s.t.yi(ωTxi+b)≥1,i=1,2,...,ms.t. \quad y_i(\omega^Tx_i+b)≥1, \quad i=1,2,...,ms.t.yi​(ωTxi​+b)≥1,i=1,2,...,m变量:ω=(.

2021-10-30 14:26:59 574

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除