机器学习
文章平均质量分 87
just do it now
to do or not to do --> just do it
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习可解释性框架
它提供全方位可解释的人工智能和可解释的机器学习能力来解决实践中机器学习模型在产生中需要判断的几个问题。对于需要在ML过程的各个阶段解释各种类型的数据、模型和解释技术的数据科学家、ML研究人员,OmniXAI希望提供一个一站式的综合库,使可解释的AI变得简单。InterpretML展示了两种类型的可解释性:glassbox模型——为可解释性设计的机器学习模型(如:线性模型、规则列表、广义可加模型)和黑箱可解释性技术——用于解释现有系统(如:部分依赖,LIME)。在可解释性领域,最早出名的方法之一是LIME。原创 2022-10-09 11:16:37 · 1022 阅读 · 0 评论 -
GLUE基准数据集介绍
图1: 整篇文章的思维导图一、简介自然语言处理(NLP)主要自然语言理解(NLU)和自然语言生成(NLG)。为了让NLU任务发挥最大的作用,来自纽约大学、华盛顿大学等机构创建了一个多任务的自然语言理解基准和分析平台,也就是GLUE(General Language Understanding Evaluation)。GLUE包含九项NLU任务,语言均为英语。GLUE九项任务涉及到自然语言推断、文本蕴含、情感分析、语义相似等多个任务。像BERT、XLNet、RoBERTa、ERINE、T.转载 2022-03-24 09:08:47 · 15018 阅读 · 1 评论 -
时间序列数据的预处理
来源:Deephub Imba时间序列数据随处可见,要进行时间序列分析,我们必须先对数据进行预处理。时间序列预处理技术对数据建模的准确性有重大影响。在本文中,我们将主要讨论以下几点: 时间序列数据的定义及其重要性。 时间序列数据的预处理步骤。 构建时间序列数据,查找缺失值,对特征进行去噪,并查找数据集中存在的异常值。 首先,让我们先了解时间序列的定义:时间序列是在特定时间间隔内记录的一系列均匀分布的观测值。时间序列的一个例子是黄金价格。在这种情况.转载 2022-02-24 18:03:43 · 1755 阅读 · 3 评论 -
机器学习:以数据为中心 VS 以模型为中心
以数据为中心的方法 VS 以模型为中心的方法以模型为中心的方法意味着需要通过实验来提高机器学习模型性能,这涉及模型架构的选择、训练过程。而在以模型为中心的方法中,你需要保持数据相同,通过改进代码和模型架构来提高性能。此外,对代码的改进是以模型为中心的根本目标。目前,大多数 AI 应用都是以模型为中心的,其中一个可能的原因是学术研究非常重视 AI 领域。根据吴恩达的说法,AI 领域 90% 以上的研究论文都是以模型为中心的,因为我们很难创建大型数据集,使其成为公认的标准。因此,AI 社区认为以原创 2022-02-24 15:42:43 · 1637 阅读 · 0 评论 -
机器学习模型训练全流程
周末在家无聊闲逛github,发现一个很有趣的开源项目,作者用手绘图的方式讲解了机器学习模型构建的全流程,逻辑清晰、生动形象。同时,作者也对几张图进行了详细的讲解,学习之后,收获很多,于是将其翻译下来,和大家一起学习。地址:https://github.com/dataprofessor/infographic全文如下:感觉学习数据科学枯燥无味,那如何能让学习数据科学变得有趣而简单呢?带着这个目标,我开始在iPad上涂鸦建立机器学习模型所需的流程。经过几天的努力,上图所示的信息图就是..转载 2022-01-14 17:54:10 · 1362 阅读 · 0 评论 -
拉普拉斯矩阵(Laplacian matrix)
拉普拉斯矩阵是图论中用到的一种重要矩阵,给定一个有n个顶点的图 G=(V,E),其拉普拉斯矩阵被定义为 L = D-A,D其中为图的度矩阵,A为图的邻接矩阵。例如,给定一个简单的图,如下(例子来自wiki百科):把此“图”转换为邻接矩阵的形式,记为A:把W的每一列元素加起来得到N个数,然后把它们放在对角线上(其它地方都是零),组成一个N×N的对角矩阵,记为度矩阵D,如下图所示。其实度矩阵(对角线元素)表示的就是原图中每个点的度数,即由该点发出的边之数量。根据拉普拉斯矩..原创 2021-07-21 15:13:43 · 2692 阅读 · 0 评论 -
Autoformer-时序模型的突破
【导读】近日,清华大学软件学院机器学习实验室另辟蹊径,基于随机过程经典理论,提出全新Autoformer架构,包括深度分解架构及全新自相关机制,长序预测性能平均提升38%。尽可能延长预测时效是时序预测的核心难题,对于能源、交通、经济的长期规划,气象灾害、疾病的早期预警等具有重要意义。清华大学软件学院机器学习实验室的研究人员近日发表了一篇论文,探究了在信息有限的情况下预测更长期未来的这个难题。针对上述问题,作者大刀阔斧革新Transformer,提出全新的Autoformer模型,在长时序预测.转载 2021-07-09 17:49:56 · 14079 阅读 · 0 评论 -
文本生成评价指标-A Survey
文本生成是自然语言处理最基础的任务之一,应用广泛,包括闲聊、写诗、作曲、讲故事等等,如图是清华大学“九歌”机器人生成的五言绝句。本文聚焦于文本生成的评价方式,通过综述论文解读,介绍文本生成多种评价方式及优缺点。论文标题:Evaluation of Text Generation: A Survey链接:https://arxiv.org/abs/2006.14799文本生成的评价指标是一个很棘手的问题,因为语言表达具有多样性,比如在使用CVAE生成商品的描述时,同一种文本条件,能转载 2021-07-05 16:29:08 · 1626 阅读 · 0 评论 -
模型解释器-LIME
模型解释性--LIME算法简 介简单的模型例如线性回归,LR等模型非常易于解释,但在实际应用中的效果却远远低于复杂的梯度提升树模型以及神经网络等模型。现在大部分互联网公司的建模都是基于梯度提升树或者神经网络模型等复杂模型,遗憾的是,这些模型虽然效果好,但是我们却较难对其进行很好地解释,这也是目前一直困扰着大家的一个重要问题,现在大家也越来越加关注模型的解释性。本文介绍一种解释机器学习模型输出的方法LIME。LIMELIME(Local Interpretable Model-ag转载 2021-07-05 15:53:23 · 1745 阅读 · 5 评论 -
百分点智能对话技术探索实践
以下文章来源于DataFunTalk,作者苏海波 博士导读:智能对话系统因其巨大的潜力和商业价值受到越来越多研究者和从业者的关注,对话的主要种类包括闲聊型、知识型、任务型、阅读理解型等,目前已经广泛应用在智能客服、智能音箱、智能车载等众多场景。近年来,智能对话还出现了新的应用场景,例如可以将自然语言转换为各种程序性语言,如SQL,从数据库中找到相应的答案,让用户和数据库的交互变得更加直接和方便。本文将围绕智能问答中的问题语义等价模型、知识图谱问答模型、NL2SQL模型等进行展开介绍,同时会介绍百分点智.原创 2021-02-19 18:01:54 · 643 阅读 · 0 评论 -
知识图谱在小米的应用与探索
以下文章来源于DataFunTalk,作者彭力导读:小米知识图谱于2017年创立,已支持公司了每天亿级的访问,已赋能小爱同学,小米有品、智能问答、用户画像、虚拟助手、智能客服等互联网产品。通过引入知识图谱,这些产品在内容理解、用户理解、实体推荐等方面都有了显著的效果提升。本文的主要内容包括: 小米知识图谱介绍:包括小米的商业模式、小米人工智能部、知识图谱在人工智能部的定位、小米知识图谱的发展历程、以及小米知识图谱的落地场景。 小米知识图谱关键技术:小米知识图谱在成长过程中的技术积累。.原创 2021-02-19 17:57:57 · 542 阅读 · 0 评论 -
9 行代码提高少样本学习泛化能力
本文介绍一篇最新发表在ICLR2021 Oral上的少样本学习工作,他们尝试从数据分布估计的角度去缓解少样本学习中的过拟合现象,并提出通过分布矫正(估计)的方式弥合这种差距。链接:https://openreview.net/forum?id=JWOiYxMG92s代码:https://github.com/ShuoYang-1998/ICLR2021-Oral_Distribution_Calibration简介从极少量样本中学习到泛化性能良好的模型是很困难的,因为极...原创 2021-02-18 18:31:24 · 570 阅读 · 0 评论 -
怎样将Embedding融入传统机器学习框架?
LR本身是一个经典的CTR模型,广泛应用于推荐/广告系统。输入的特征大多数是离散型/组合型。那么对于Embedding技术,如何在不使用深度学习模型的情况下(假设就是不能用DNN),融入到LR框架中呢?让我们来看看清华大学的博士石塔西大佬是如何解答的。问题实战意义其实这个问题可以再扩展一下,即,如何在传统机器学习算法(LR/GBDT)中使用Embedding信息。这个问题并非空穴来风,而是有一定的实战价值。目前DNN热度不减,基本上成为推荐、搜索系统的标配算法。传统机器学习算法,如LR、GBD.转载 2021-02-18 18:30:18 · 305 阅读 · 0 评论 -
超强文本半监督方法MixText
低资源少样本NLP问题是JayJay比较关注的一个方向,说白了就是一个问题:标注样本少怎么办?而半监督学习就是解决这一问题的一个重要手段。半监督学习在CV领域早已经“大显身手”,而在NLP领域的应用却不太多。此外,随着BERT等预训练模型的强大,本质上也缓解了少样本问题。而BERT如果能和其他机器学习方法(如:半监督学习 或 主动学习 等)结合起来,或许少样本问题的增益会更加明显。本文JayJay介绍一篇来自ACL20的paper《MixText: Linguistically-Informed I转载 2021-02-18 18:25:24 · 1731 阅读 · 0 评论 -
文本分类只需标签名称,不需要任何标注数据!
当前的文本分类任务需要利用众多标注数据,标注成本是昂贵的。而半监督文本分类虽然减少了对标注数据的依赖,但还是需要领域专家手动进行标注,特别是在类别数目很大的情况下。试想一下,我们人类是如何对新闻文本进行分类的?其实,我们不要任何标注样本,只需要利用和分类类别相关的少数词汇就可以啦,这些词汇也就是我们常说的关键词。BUT!我们之前获取分类关键词的方式,大多还是需要靠人工标注数据、或者人工积累关键词表的;而就算积累了某些关键词,关键词在不同上下文中也会代表不同类别。那么,有没有一种方式,可以让文本分转载 2021-02-18 18:23:37 · 2186 阅读 · 0 评论 -
QizNLP使用:利用Transformer训练单轮闲聊机器人
QizNLP介绍:基于tensorflow(1.x)的NLP框架,提供NLP多种任务(分类、匹配、序列标注、生成等)代码模板,包括数据处理、模型训练、部署推断的全流程,同时内置一些常见模型提供调用,并支持基于horovod的数据并行式分布训练。(没错,安利这个才是本文重点^_^)Qznan/QizNLPhttps://github.com/Qznan/QizNLP前言深度学习中的单轮闲聊机器人(single-turn chitchat-bot),通常采用与机器翻译相同的处理范式,即序列.转载 2021-01-19 17:41:15 · 717 阅读 · 2 评论 -
谷歌40人发表59页长文:为何真实场景中ML模型表现不好?
~前不久,在卖萌屋NLP群里默默潜水的白鹡鸰被群友提到的一篇Google几天前放出的59页超长论文炸得飞了起来。来,大家来感受一下气势浩大的论文首页文章名字是Underspecification Presents Challenges for Credibility in Modern Machine Learning。论文作者大都来自Google,横跨了计算机视觉、自然语言处理、生物信息多个领域,他们一起分析了真实场景中的机器学习模型表现欠佳的原理。论文题目:Underspecifica转载 2021-01-19 17:07:10 · 288 阅读 · 0 评论 -
根据标签分布来选择损失函数
首先回到经典的面试问题:为什么线性回归使用mse作为损失函数?为什么逻辑回归二分类常用二元交叉熵作为损失函数?熟悉lgb、xgb或者是sklearn中的各类回归模型包括了线性回归,tweedie回归等等应该都比较熟悉,我们在模型的框架之下可以选择不同的损失函数,以lightgbm为例:针对于回归问题有非常多的备选损失函数,那么这些损失函数什么时候用,为什么?回到基本面试问题,首先我们需要知道的是,使用特定损失函数的前提是我们对标签的分布进行了某种假设,在这种假设的前提下通..转载 2021-01-19 17:03:43 · 1017 阅读 · 0 评论 -
PyPinyin 的用法
概述Python 中提供了汉字转拼音的库,名字叫做 PyPinyin,可以用于汉字注音、排序、检索等等场合,是基于 hotto/pinyin 这个库开发的,一些站点链接如下:GitHub:https://github.com/mozillazg/python-pinyin 文档:https://pypinyin.readthedocs.io/zh_CN/master/ PyPi:https://pypi.org/project/pypinyin/它有这么几个特性:根据词组智能匹配最正...转载 2021-01-12 15:37:47 · 522 阅读 · 0 评论 -
统计检验方法
总结不易,且行且珍惜原创 2020-12-10 09:57:23 · 505 阅读 · 0 评论 -
AI领域相关数据集-CV NLP等
1.寻找数据集根据CMU的说法,寻找一个好用的数据集需要注意一下几点:数据集不混乱,否则要花费大量时间来清理数据。数据集不应包含太多行或列,否则会难以使用。数据越干净越好,清理大型数据集可能非常耗时。应该预设一个有趣的问题,而这个问题又可以用数据来回答。2.去哪里找数据集Kaggle:爱竞赛的盆友们应该很熟悉了,Kaggle上有各种有趣的数据集,...原创 2019-02-21 12:02:39 · 278 阅读 · 0 评论 -
奇异值分解-通俗教程
Singular value Decomposition(SVD) A Fast Track Tutorial这篇论文对奇异值分解以实例的形式进行了很简单直观的解释,看完之后给人恍然大悟的感觉,特拿过来分享一下。 以下是从wiki上拿过来的概念解释:1. 奇异值分解(singular value decomposition)是线性代数中一种重要的矩阵分解。假...原创 2019-01-09 20:54:43 · 2683 阅读 · 0 评论 -
机器学习模型评估与选择
一、经验误差与过拟合学习器的实际预测输出与样本的真实输出之间的差异称为‘误差’,学习器在训练集上的误差称为‘训练误差’or‘经验误差’,在新样本上的误差称为‘泛化误差’过拟合:由于学习器把训练样本学的“太好了”的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这将导致泛化性能下降原因:学习器学习能力过于强大,以至于把训练样本所包含的不太一般...原创 2019-01-09 20:52:38 · 400 阅读 · 0 评论 -
visdom 无法正常使用,页面加载失败(蓝色空白页面)解决方案
在学习pytorch过程中,对于可视化visdom 的使用,遇到了页面无法加载的情况,是空白页面。搜罗了网上的一些帖子,最终根据错误提示找到了以下两个可用的帖子:https://blog.csdn.net/chai_zheng/article/details/81545365https://blog.csdn.net/weixin_44041884/article/details/85...原创 2019-01-09 20:26:04 · 10923 阅读 · 8 评论 -
Visdom PyTorch可视化工具
转载自https://blog.csdn.net/u012436149/article/details/69389610本文翻译的时候把 略去了 Torch部分。项目地址一个灵活的可视化工具,可用来对于 实时,富数据的 创建,组织和共享。支持Torch和Numpy。总览 基本概念 Setup 启动 可视化接口 总结总览Visdom目的是促进远程数据的可视化,重点...转载 2019-01-10 16:02:38 · 676 阅读 · 0 评论 -
机器学习的最佳入门学习资源
此篇文章转载于http://blog.jobbole.com/56256/本人是刚开始研究机器学习,发现了作者的这样的一篇文章 ,转载过来分享给大家这是一篇很难写的文章,因为我希望这篇文章能对学习者有所启发。我在空白页前坐下,并且问自己了一个很难的问题:什么样的库、课程、论文和书籍对于机器学习的初学者来说是最好的。文章里到底写什么、不写什么,这个问题真的让我很烦恼。我必须把转载 2016-11-11 16:15:36 · 463 阅读 · 0 评论 -
分类算法简介
由于公式不好上传 ,故将文档转换成了图片,后期将整理上传文本文档。原创 2016-11-20 22:07:40 · 419 阅读 · 0 评论
分享