算法
文章平均质量分 70
AI强仔
人工智能爱好者、机器人爱好者
展开
-
状态空间模型与卡尔曼滤波
状态空间模型与卡尔曼滤波、HMM、ARMAX、最小二乘原创 2023-02-02 18:23:53 · 4518 阅读 · 0 评论 -
几种最小二乘法及python代码:ELS、TLS、RLS
增广最小二乘法Extended Least Squares method、总体最小二乘法Total Least Squares method、递推/递归最小二乘法Recursive Least Squares method、加权最小二乘法原创 2023-01-29 17:34:38 · 4087 阅读 · 0 评论 -
信息准则:AIC、BIC、FPE、LILC
信息准则方法:AIC、BIC、FPE、LILC原创 2023-01-17 18:14:51 · 6114 阅读 · 0 评论 -
推荐系统介绍
推荐系统介绍原创 2022-09-06 10:30:19 · 611 阅读 · 0 评论 -
DeepFM: A Factorization-Machine based Neural Network for CTR Prediction
1 简介本文根据2017年《DeepFM: A Factorization-Machine based Neural Network for CTR Prediction》翻译总结的。CTR :Click-Through-Rate (点击通过比率),CTR=实际点击次数/展示量。DeepFM有3个优点:1)它不需要预训练;2)它同时学习高阶和低阶特征交互(feature interactions,如两种特征的交互),DeepFM集成了FM和deep neural networks (DNN),其中翻译 2022-05-28 23:12:27 · 556 阅读 · 1 评论 -
各种数学不等式
1.琴生(Jensen)不等式(也称为詹森不等式)以丹麦技术大学数学家约翰·延森(John Jensen)命名。它给出积分的凸函数值和凸函数的积分值间的关系。2.柯西不等式是数学家柯西(Cauchy)在研究数学分析中的“流数”问题时得到的。2.2 卡尔松不等式(Carlson)是柯西不等式的推广.3.赫尔德不等式赫尔德不等式是数学分析的一条不等式,取名自奥图·赫尔德(Otto Hölder)4.闵可夫斯基不等式(Minkowski inequality)是德国数学家赫尔曼·闵可夫原创 2022-05-23 22:53:10 · 5514 阅读 · 0 评论 -
WBF(Weighted boxes fusion)-模型融合与NMS、soft-NMS
WBF在融合多个模型的结果上效果好于NMS、soft-NMS,但如果只是处理单个模型,其效果没有NMS、soft-NMS的好,是因为NMS、soft-NMS在处理很多低可信度的box过滤上效果好吧翻译 2022-03-20 11:31:17 · 3168 阅读 · 0 评论 -
模型融合Boosting、Bagging、Stacking、Blending等
模型融合Boosting、Bagging、Stacking、Blending等转载 2022-03-17 14:00:43 · 474 阅读 · 0 评论 -
ADASYN: Adaptive Synthetic--不平衡数据采样方法
ADASYN不仅可以减少原始不平衡数据分布导致的学习偏见,而且可以自适应偏移决策边界,使其聚焦于那些较难学习的样本上。翻译 2022-03-15 15:04:43 · 6980 阅读 · 0 评论 -
受限玻尔兹曼机RBM
受限玻尔兹曼机RBM(Restricted Boltzmann Machines):如下图,包含隐藏单元h和可见单元v,其中只在h与v间有连接,h内部、v内部没有连接。每个可能的可见和隐藏单元组合的概率,是如下能量函数:其中具体能量函数E如下,是v部分、h部分、和v与h交互部分,共3部分构成。:Z是配分函数,是所有可见和隐藏单元组合的和,如下:...原创 2021-09-24 23:46:12 · 113 阅读 · 0 评论 -
SCHWARTZ- HEARST算法-缩写短语识别
1 简介本文根据2003年《A simple Algorithm for identifying abbreviation definitions in Biomedical Text》-一个简单的识别生物医学缩写的算法,翻译总结的。作者是ARIEL S. SCHWARTZ 和MARTI A. HEARST。生物医学文献的规模和增长速度致使产生了大量的缩写,研究者面临着要不断更新知道这些缩写的挑战。如 methyl methanesulfonate sulfate (MMS)、Gcn5-related翻译 2021-07-21 22:45:51 · 282 阅读 · 0 评论 -
深度神经网络与高斯过程的等价性
1 概要近些年,深度神经网络发展迅速,而Gaussian process (GP)只是被当做传统的非参数工具。而在无限宽度的单层神经网络时,这两者的等价性在1994年就被发现了。在无限网络宽度的限制下,参数为独立同分布的单层全连接神经网络等价于高斯过程(Gaussian process (GP))。这样就可以通过评估GP,在回归任务上进行无限宽度神经网络的贝叶斯预测。最近,模仿多层随机神经网络的核函数有所发展,但也不是贝叶斯的。所以,目前这些核函数还没有被用来作为GP的协方差函数,进而用于深度神经网络的翻译 2021-05-25 18:02:13 · 1860 阅读 · 0 评论 -
优化机器翻译的汉语分割Optimizing Chinese Word Segmentation
1 简介本文主要讲机器翻译时如何更好的进行汉字分割。本文参考2008年《Optimizing Chinese Word Segmentation for Machine Translation Performance》翻译总结。基于基本的机器翻译结果分析,我们发现下面文字分割有利于机器翻译:1)基于特征的分割,比如支持向量机、条件随机场(CRF),有非常好的表现。主要是其一致性。而上下文分割方法可能存在不一致性。单纯的字符分割(即每个汉字当作一个词),或者标准的词语分割对于机器翻译都不是最佳的,可以使翻译 2021-01-16 15:12:58 · 279 阅读 · 0 评论 -
SHAP论文--统一的解释模型预测的方法
##1. 简介SHAP (SHapley Additive exPlanations).。本文主要是根据《A Unified Approach to Interpreting Model Predictions》翻译总结。模型的准确率和可解释性同等重要,但是现在模型越复杂准确率越高,但其可解释下越差,面临着准确率和可解释性的矛盾。本文我们提出了一个新颖的统一的方法(SHAP)来解释模型的预测。1)我们定义了additive feature attribution方法,统一了以前的6种方法,包括LI翻译 2021-01-14 15:33:57 · 5391 阅读 · 0 评论 -
K折交叉验证K-CV与StratifiedKFold
1. K折交叉验证K-fold Cross Validation,记为K-CVKFold 将所有的样例划分为 k 个组,称为折叠 (fold) ,每组数据都具有相同的大小。每一次分割会将其中的 K-1 组作为训练数据,剩下的一组用作测试数据,一共会分割K次.比如训练样本有4000个,假设K=4. 那么模型会训练4次,生成4个模型结果。每次训练的数据是3000(即3个4000/4,3=K-1),验证数据是1000(1个4000/4))。如果是lightGBM,那么可以将这4个模型的结果取平均,即为最终结原创 2021-01-11 22:40:53 · 1127 阅读 · 0 评论 -
奇异值分解(SVD)与PCA
奇异值分解在数据降维中有较多的应用1. 原理参考文章:https://www.cnblogs.com/endlesscoding/p/10033527.html2. python 计算x=二维数组,svd_v,=np.linalg.svd(x,full_matrices=1,compute_uv=1)svd_v就是算出的奇异值。原创 2021-01-11 16:02:05 · 321 阅读 · 3 评论 -
lightGBM自定义损失函数loss和metric
def self_loss(labels, preds):preds = preds.get_label()k = labels - preds# 对labels求导grad = np.where(k>0, 2*np.abs(preds)/(np.power(np.abs(labels)+np.abs(preds), 2)+0.1), -2*np.abs(preds)/(np.power(np.abs(labels)+np.abs(preds), 2)+0.1))hess = np.转载 2021-01-09 23:21:01 · 5108 阅读 · 1 评论 -
SHAP分析lightGBM
SHAP (SHapley Additive exPlanations) is a game theoretic approach to explain the output of any machine learning model. It connects optimal credit allocation with local explanations using the classic Shapley values from game theory and their related extensi原创 2021-01-02 12:25:55 · 4259 阅读 · 1 评论 -
Factorization Machines 因子分解机FM
1 简介本文是根据2010年 Steffen Rendle的《Factorization Machines》翻译总结的。Factorization Machines简称FM,因子分解机。FM结合了因子分解的优点和支持向量机SVM的优点。FM用因子参数构建了所有变量间的交互。这些交互通常是存在很大的稀疏性,FM的优点就是处理这些稀疏性。而且是线性的计算时间。可以直接进行优化计算的。另外,像其他因子模型,比如matrix factorization、parallel factor analysis,以及翻译 2020-12-05 13:34:02 · 696 阅读 · 0 评论 -
WOE-weights of evidence
WOE的全称是“Weight of Evidence”,及证据权重,WOE是对原始自变量的一种编码形式从上述公式中看出,WOE表示的实际上是“ 当前分组中响应客户占所有响应客户的比例”和“ 当前分组中没有响应的客户占所有没有响应的客户的比例”的差异将公式进行变换可以看出,WOE可以这么理解,当前 这个组中响应的客户和未响应的比值,和所 有样本中这个比值的差异。将这两个比值在做比值,再取对数来表示。WOE越大,这种差异越大,这个分组里的样本响应的可能性就越大,WOE越小,差异越小from repo原创 2020-12-01 21:45:55 · 748 阅读 · 0 评论 -
XGBoost vs lightGBM vs CatBoost
1 简介本文比较了XGBoost、LightGBM 、 Catboost。本文基于2019年1月《Benchmarking and Optimization of Gradient Boosting Decision Tree Algorithms》翻译总结。GBDT算法的基准和优化。总体结论是这三个算法,没有一个是具有领先地位的,或者说都在伯仲之间。XGBoost在GPU上可以更快的训练,在多分类任务上准确率也高,但在部分大数据任务上会因使用内存太大,不能运行。而lightGBM虽然运行慢,但在单分翻译 2020-11-29 16:58:33 · 722 阅读 · 0 评论 -
CatBoost论文笔记
1 简介CatBoost ( “Categorical Boosting”)。2017年就有了,不过本文是根据2019年的《CatBoost: unbiased boosting with categorical features》翻译总结的。文中主要是将CatBoost与XGBoost和lightGBM比较。运行时间比XGBoost快,和lightGBM差不多,但准确率CatBoost比XGBoost和lightGBM高。我自己在实验中,感觉没那么容易获得更高的准确率,还得参数调优吧。CatBoo翻译 2020-11-28 23:29:02 · 821 阅读 · 0 评论 -
GBDT 残差与负梯度
如下图,残差是梯度的相反数,即残差是负梯度。原创 2020-10-26 21:34:59 · 484 阅读 · 0 评论 -
GBDT、XGBoost、LightGBM比较
1.GBDTGBDT (Gradient Boosting Decision Tree) 梯度提升决策树。DT-Decision Tree决策树,GB是Gradient Boosting,是一种学习策略,GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型在前几年深度学习还没有大行其道之前,GBDT在各种竞赛是大放异彩。一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。Boosting共有的缺点为训练是按顺序的,难以并行,这样在大规模数据上可能导致速度过原创 2020-10-23 16:31:22 · 806 阅读 · 0 评论 -
《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》论文笔记
1 简介本文根据2017年microsoft研究所等人写的论文《LightGBM: A Highly Efficient Gradient Boosting Decision Tree》翻译总结。Gradient Boosting Decision Tree (GBDT)已是一个流行的机器学习方法,也存在一些实施,例如XGBoost和pGBRT。可以进行多类别分类、点击率预测、学习排名等应用场景。但他们的效率和可扩展性还是不太满意,尤其是针对高维度数据和大数据时。其中一个主要原因是:对于每个特征,他们需原创 2020-10-23 15:55:58 · 1909 阅读 · 0 评论 -
NP、NPC、NP-Hard
**P类:**已有多项式时间算法的判定问题.NP问题(Non-deterministic problem):多项式复杂程度的非确定性问题。 NP 就是指能在多项式时间内 验证 一个解是否满足的一类问题。NPC问题:而如果任何一个NP问题都能通过一个多项式时间算法转换为某个NP问题,那么这个NP问题就称为NP完全问题(Non-deterministic Polynomial complete problem)。NP完全问题也叫做NPC问题。NP-Hard :Class of problems wh原创 2020-10-22 15:51:29 · 234 阅读 · 0 评论 -
XGBoost论文笔记
1.简介XGBoost在2015年到2017年间kaggle比赛中大放异彩。本文依据2016年论文《XGBoost: A Scalable Tree Boosting System》翻译总结。处理的问题包括:库存销售预测、高能量物理事件分类、web text 分类、客户行为预测、运动检测、广告点击率预测、产品分类、风险预测等。XGBoost成功的最主要因素是其可扩展性。比大部分算法快10倍,可以扩展支持几十亿的样本数据。XGBoost支持hadoop、Flink、Spark。阿里天池云平台也集成了X翻译 2020-10-21 22:57:27 · 343 阅读 · 0 评论 -
《SLIQ:A fast scalable classifier for data mining》论文笔记
1 简介本文根据1996年《SLIQ:A fast scalable classifier for data mining》翻译总结的,即一个快速的可扩展的数据挖掘分类器。看了论文,论文中没找到SLIQ的缩写,还不清楚为什么这么叫。SLIQ之前的算法都是基于内存的,无法应用于大量数据,SLIQ可以,基于内存和硬盘。主要使用了两个技术:pre-sorting、宽度优先(breadth-first)树增长策略。SLIQ采用决策树分类,决策树分类相对于其他分类方法更加快速。比如神经网络需要非常长的训练时间翻译 2020-10-19 21:33:45 · 362 阅读 · 2 评论 -
国内人工智能/算法比赛平台汇总
阿里天池:https://tianchi.aliyun.com/DataFountain:https://www.datafountain.cn/京东JDATA:https://jdata.jd.com/DC竞赛:http://www.dcjingsai.com/Kesci:https://www.kesci.com/home/competition百度大脑:https://aistudio.baidu.com/aistudio/competition腾讯广告:https://algo.qq.c原创 2020-10-11 16:53:17 · 1762 阅读 · 0 评论 -
数据不平衡处理-Focal loss
Focal loss主要是为了解决one-stage目标检测中正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重,也可理解为一种困难样本挖掘。1.因子gamma>0使得减少易分类样本的损失。使得更关注于困难的、错分的样本.2.平衡因子alpha,用来平衡正负样本本身的比例不均:文中alpha取0.25,即正样本要比负样本占比小,这是因为负例易分。作者认为one-stage和two-stage的表现差异主要原因是大量前景背景类别不平衡导致。作者设计了一个简单密集型网络R转载 2020-09-20 10:50:29 · 722 阅读 · 1 评论 -
概率图模型概览
摘自:https://www.bilibili.com/video/BV1dt411U7ad?p=4包括:朴素贝叶斯NB、高斯混合模型GMM、隐马尔可夫模型HMM、卡曼滤波、最大熵马尔可夫模型MEMM、条件随机场CRF、玻尔兹曼机BM、受限玻尔兹曼机RBM。...转载 2020-07-03 22:40:01 · 167 阅读 · 0 评论 -
推荐算法
作者:奔波的梦想链接:https://www.zhihu.com/question/20326697/answer/58148605来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。推荐算法大致可以分为三类:基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法。基于内容的推荐算法,原理是用户喜欢和自己关注过的Item在内容上类似的Item,比如你看了哈利波特I,基于内容的推荐算法发现哈利波特II-VI,与你以前观看的在内容上面(共有很多关键词)有很大关联性,就把转载 2020-06-22 14:44:24 · 252 阅读 · 0 评论 -
mAP-Mean Average Precision
转载:https://www.pianshen.com/article/9216329593/reference:https://github.com/rafaelpadilla/Object-Detection-Metrics计算mAP的github:https://github.com/Cartucho/mAP1.TP、TN、FP、FNTrue positives(TP): 被正确地划分为正例的个数,即实际为正例且被分类器划分为正例的实例数;False positives(FP): 被错误地转载 2020-06-11 22:44:57 · 168 阅读 · 0 评论 -
机器学习算法分类与汇总
1机器学习简介机器学习是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式, 并将现有内容进行知识结构划分来有效提高学习效率。目前看来主要是通过各种数学模型,对数据进行处理,包括分类和预测。分类,比如据一堆属性,识别是猫是狗;预测,比如给你一个人一些体检数据,预测该人健康程度甚至患癌概率等等。2机器学习算法分类2.1监督与非监督在机器学习中,无监督学习主要就是聚类,事先不知道样本的类别,通过某种办法,把相似的样本放在一起原创 2020-06-06 11:03:15 · 1268 阅读 · 0 评论 -
论文笔记:SIFT(Scale-invariant feature transform 尺度不变特征变换)
1.SIFT介绍1.1.介绍SIFT(Scale-invariant feature transform 尺度不变特征变换)图像特征匹配,即使图像有旋转、模糊、尺度、亮度的变化,即使使用不同的相机,即使图像拍摄的角度不同,SIFT总能检测到稳定的特征点。SIFT是人工设计特征的一个巅峰。SIFT算法由加拿大英属哥伦比亚大学教授David Lowe 于 1999 年发表于会议ICCV ,原论文...原创 2020-04-01 22:29:58 · 6863 阅读 · 0 评论 -
图像预处理方法总结
1. 图像二值化1.1. 简单阈值或全局阈值gray = cv.cvtColor(image, cv.COLOR_RGB2GRAY) #把输入图像灰度化ret, binary = cv.threshold(gray, 0, 255, cv.THRESH_BINARY | cv.THRESH_TRIANGLE)简单阈值当然是最简单,选取一个全局阈值,然后就把整幅图像分成了非黑即白的二值图像...原创 2020-03-30 15:31:45 · 16776 阅读 · 0 评论 -
Tesseract OCR论文笔记及使用说明
1.Tesseract介绍Tesseract是惠普布里斯托实验室在1985到1995年间开发的一一个开源的OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2005年,惠普将其对外开源,2006 由Google对Tesseract进行改进、消除Bug、优化工作。目前项目地址为: https://github.com/tesseract-ocr/tessera...原创 2020-03-17 18:29:08 · 3238 阅读 · 0 评论 -
各排序算法介绍及时间复杂度分析
1.排序算法总览通过任何键比较的算法,其时间复杂度不会优于nlgn。分配排序不是键比较算法。2.交换排序(冒泡排序)算法介绍所谓交换,就是根据序列中两个记录键值的比较结果来对换这两个记录在序列中的位置,交换排序的特点是:将键值较大的记录向序列的尾部移动,键值较小的记录向序列的前部移动。void swapsort(int a[]){for(int i=1; i<=n; i++)...原创 2020-02-11 16:12:23 · 1498 阅读 · 0 评论