机器学习
文章平均质量分 92
池边的树
你有多渴望 你有多付出
展开
-
朴素贝叶斯文本分类
1、文档共有 4 种类型:女性、体育、文学、校园2、训练集放到 train 文件夹里,测试集放到 test 文件夹里,停用词放到 stop 文件夹里使用朴素贝叶斯分类对训练集进行训练,并对测试集进行验证,并给出测试集的准确率极客时间|数据分析45讲练习题https://time.geekbang.org/column/article/79762import osimport j...原创 2019-02-12 21:34:52 · 591 阅读 · 0 评论 -
K-Means
K-Means在无监督学习(unsupervised learning)中,训练样本的标记信息是未知的。无监督学习的目标:通过对无标记训练样本的学习来揭露数据的内在性质以及规律。一个经典的无监督学习任务:寻找数据的最佳表达(representation)。常见的有:低维表达:试图将数据(位于高维空间)中的信息尽可能压缩在一个较低维空间中。稀疏表达:将数据嵌入到大多数项为零的...原创 2019-05-24 00:06:58 · 948 阅读 · 0 评论 -
K近邻
K近邻k近邻法(k-Nearest Neighbor,简称kNN)是一种基本的分类与回归方法。分类问题:对新的样本,根据其k个最近邻的训练样本的类别,通过多数表决等方式进行预测。回归问题:对新的样本,根据其k个最近邻的训练样本标签值的均值作为预测值。k近邻法不具有显式的学习过程,它是直接预测。它是惰性学习(lazy learning)的著名代表。它实际上利用训练数据集对特...转载 2019-05-11 23:04:30 · 5527 阅读 · 0 评论 -
支持向量机
支持向量机支持向量机(Support Vector Machine ,简称SVM)是一种二分类模型。它是定义在特征空间上的、间隔最大的线性分类器。间隔最大使得支持向量机有别于感知机。如果数据集是线性可分的,那么感知机获得的模型可能有很多个,而支持向量机选择的是间隔最大的那一个。支持向量机还支持核技巧,从而使它成为实质上的非线性分类器。支持向量机支持处理线性可分数据集、...原创 2019-05-08 22:52:18 · 494 阅读 · 0 评论 -
约束优化-拉格朗日乘子法
约束优化-拉格朗日乘子法拉格朗日乘子法(Lagrange multipliers)是一种寻找多元函数在一组约束下的极值方法。通过引入拉格朗日乘子,可将有ddd个变量与kkk个约束条件的最优化问题转化为具有d+kd+kd+k个变量的无约束优化问题求解一、原始问题假设x\mathbf xx为ddd维向量,,欲寻找x\mathbf xx的某个取值x∗\mathbf x^*x∗,使目标函数f(x...原创 2019-05-01 20:24:53 · 1283 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯一、贝叶斯定理设S\mathbb{S}S为试验EEE的样本空间; B1,B2,…,BnB_1,B_2,…,B_nB1,B2,…,Bn为EEE的一组事件。若 :Bi⋂Bj=ϕ,i≠j,i,j=1,2,…,nB_i\bigcap B_j = \phi,i\neq j,i,j=1, 2,…,nBi⋂Bj=ϕ,i̸=j,i,j=1,2,…,nB1⋃B2…⋃Bn=SB_...原创 2019-04-27 15:15:38 · 239 阅读 · 0 评论 -
决策树
决策树决策树(decision tree)是一种常见的机器学习算法。以二分类任务为例,我们希望从给定训练数据集学得一个模型用以对新示例进行分类,这个把样本分类的任务,可看作对"当前样本属于正类吗?"这个问题的"决策"或"判定"过程。顾名思义,决策树是基于树结构来进行决策的,这恰是人类在面临决策问题时一种很自然的处理机制。一般的,一颗决策树包含一个根节点、若干个内部节点和若干个叶节点;叶节点对应...原创 2019-04-20 22:21:50 · 1271 阅读 · 0 评论 -
逻辑回归
逻辑回归一、问题考虑二分类问题给定给定数据集D\mathbf{D}D = {(x1\mathbf{x}_{1}x1,y1y_{1}y1),(x2\mathbf{x}_{2}x2,y2y_{2}y2),…,(xm\mathbf{x}_{m}xm,ymy_{m}ym)},其中 xi\mathbf{x}_{i}xi = {xi1x_{i1}xi1;xi2x_{i2}xi2;…...原创 2019-04-07 18:20:15 · 287 阅读 · 0 评论 -
线性回归
线性回归一、问题1.1 线性模型基本形式给定d个属性描述的示例 x=(x1;x2;...;xd)\mathbf{x} = (x_{1};x_{2};...;x_{d})x=(x1;x2;...;xd),其中xix_{i}xi是x\mathbf{x}x在第iii个属性上的取值,线性模型(linear model)试图学得一个通过属性的线性组合来进行预测的函数,即(1)f(x)=ω1x...原创 2019-04-06 14:54:59 · 315 阅读 · 0 评论 -
集成学习
集成学习集成学习(ensemble learning)是通过构建并结合多个学习器来完成学习任务。其一般结构为:先产生一组个体学习器(individual learner) 。个体学习器通常由一种或者多种现有的学习算法从训练数据中产生。如果个体学习器都是从某一种学习算法从训练数据中产生,则称这样的集成学习是同质的(homogenerous)。此时的个体学习器也称作基学习器(bas...原创 2019-06-07 19:03:55 · 1335 阅读 · 0 评论