机器学习
无止境x
现为中科院工程师,更多内容关注微信公众号《科学无止境》。
研究生期间的算法工程师,毕业后进入中科院从事科学装置和系统的研究,分享AI和云计算领域的内容,一个有点自己想法的IT从业者,欢迎关注交流!
展开
-
机器学习(周志华)学习笔记 - 数据集的划分方法
数据集D划分成训练集S和测试集T的方法1. 留出法 (hold - out) 直接将数据集D划分成两个互斥的集合,其中一个集合作为训练集S, 另一个集合作为训练集T 在进行训练集和测试集的划分时,尽可能保持数据划分的一致性,避免因数据划分过程中额外的偏差而对最终的结果产生影响。① 保持样本的类别比例相似 D中1000个样本 500个正例子, 500个反例 ② 70%作为训练集 则挑 S 350...原创 2020-12-04 20:22:23 · 1003 阅读 · 0 评论 -
各种< 熵 >总结
一.什么是熵Ⅰ.信息量首先考虑一个离散的随机变量x,当我们观察到这个变量的一个具体值的时候,我们接收到多少信息呢?我们暂时把信息看做在学习x的值时候的”惊讶程度”(这样非常便于理解且有意义).当我们知道一件必然会发生的事情发生了,比如往下掉的苹果.我们并不惊讶,因为反正这件事情会发生,因此可以认为我们没有接收到信息.但是要是一件平时觉得不可能发生的事情发生了,那么我们接收到的信息要大得多.因此,我们对于信息内容的度量就将依赖于概率分布p(x).因此,我们想要寻找一个函数h(x)来表示信息的多少且转载 2020-09-16 16:10:42 · 1067 阅读 · 1 评论 -
方差、协方差、标准差、均方差、均方根值、均方误差、均方根误差对比分析
方差、协方差、标准差(标准偏差/均方差)、均方误差、均方根误差(标准误差)、均方根值本文由博主经过查阅网上资料整理总结后编写,如存在错误或不恰当之处请留言以便更正,内容仅供大家参考学习。 方差(Variance) 方差用于衡量随机变量或一组数据的离散程度,方差在在统计描述和概率分布中有不同的定义和计算公式。①概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度;②统计中的方差(样本方差)是每个样本值与全体样本均值之差的平方值的平均数,代表每个变量与总体均值间的离散程度...转载 2020-09-16 14:28:42 · 2997 阅读 · 0 评论 -
统计学:偏度和峰度的概念与计算
偏度偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。偏度定义中包括正态分布(偏度=0),右偏分布(也叫正偏分布,其偏度>0),左偏分布(也叫负偏分布,其偏度<0)。峰度峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。随机变量的峰度计算方法为:随机变量的四阶中心矩与方差平方的比值。峰度包括.原创 2020-09-16 11:11:24 · 49330 阅读 · 4 评论 -
机器学习部分:距离的度量(欧氏距离,曼哈顿距离,夹角余弦距离,切比雪夫距离,汉明距离,闵可夫斯基距离,马氏距离)
目录距离计算方法1.欧式距离EuclideanDistance2. 曼哈顿距离(ManhattanDistance)3. 夹角余弦4.切比雪夫距离(Chebyshevdistance)5. 汉明距离(Hamming Distance)6. 闵可夫斯基距离(Minkowski Distance)7. 马氏距离(Mahalanobis Distance)在数据挖掘中,我们经常需要计算样本之间的相似度(Similarity ),我们通常的做法是计算样本之间的距离,本文对距离.转载 2020-09-14 11:42:56 · 1382 阅读 · 0 评论 -
常见的机器学习算法
诞生于1956年的人工智能,由于受到智能算法、计算速度、存储水平等因素的影响,在六十多年的发展过程中经历了多次高潮和低谷。最近几年,得益于数据量的上涨、运算力的提升,特别是机器学习新算法的出现,人工智能迎来了大爆发的时代。提到机器学习这个词时,有些人首先想到的可能是科幻电影里的机器人。事实上,机器学习是一门多领域交叉学科,涉及概率论、统计学、算法复杂度理论等多门学科。专门研究计算机如何模拟或实现人类的学习行为,利用数据或以往的经验,以此优化计算机程序的性能标准。根据学习任务的不同,我们可以.转载 2020-07-22 00:15:43 · 312 阅读 · 0 评论 -
如何解决机器学习中 数据不平衡 的问题
这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。目录一、数据不平衡以二分类为例:二、如何解决1. 采样缺点:上采样下采样2. 数据合成SMOTE:利用小众样本在特征空间的相似性来生成新样本Borderline-SMOTEADASYN3.加权4. 一分类三、如何选择一、数据不平衡在学术研.转载 2020-07-19 12:37:45 · 964 阅读 · 0 评论 -
调参必备--Grid Search网格搜索
什么是Grid Search 网格搜索?Grid Search:一种调参手段;穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果。其原理就像是在数组里找最大值。(为什么叫网格搜索?以有两个参数的模型为例,参数a有3种可能,参数b有4种可能,把所有可能性列出来,可以表示成一个3*4的表格,其中每个cell就是一个网格,循环过程就像是在每个网格里遍历、搜索,所以叫grid search) ...转载 2020-06-16 17:24:07 · 686 阅读 · 0 评论 -
SVM、SVC、SVR三者的区别
支持向量机一直都是机器学习的重要工具,仅仅学会调包的同学一定经常遇到这些缩写SVM、SVR、SVC。使用时经常会用到,但又不知道什么意思,仅仅学会调包调参数不是一个机器学习者的能力体现,但完全搞懂他们的数学公式、学会复现出算法也是没有必要的。知乎上关于什么是支持向量机的解释有很多,主要为为大家总结一下这三者的区别,同时介绍在python-sklearn中的应用。1.SVM-支持向量机什么是超平面SVM with polynomial kernel 可视化_腾讯视频v.qq.com主要功转载 2020-06-16 11:13:05 · 17225 阅读 · 0 评论 -
scikit-learn (sklearn) 官方文档中文版
scikit-learn (sklearn) 官方文档中文版https://sklearn.apachecn.org/docs/0.21.3/scikit-learn 是基于 Python 语言的机器学习工具简单高效的数据挖掘和数据分析工具 可供大家在各种环境中重复使用 建立在 NumPy ,SciPy 和 matplotlib 上 开源,可商业使用 - BSD许可证维护地址...原创 2019-12-24 16:04:49 · 1015 阅读 · 0 评论 -
Python之Sklearn使用教程
1.Sklearn简介Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。当我们面临机器学习问题时,便可根据下图来选择相应的方法。Sklearn具有以下特点:简单高效的数据挖掘...转载 2019-12-24 15:58:54 · 11258 阅读 · 0 评论 -
字典学习(Dictionary Learning)
字典学习——Dictionary Learning我主要从一下几个方面分享一下。什么是字典学习 字典学习的理论依据及公式 字典学习的应用1、什么是字典学习?在人类发展的近几千年历史中,文字对人类文明的推动起着举足轻重的作用。人类用文字记述了千年的历史,用文字留下了各种思想火花,用文字抒发了各种各样的情感等等。但是这一切的内容,只需要一本字典就能表述完。因为人在这环节中的功能,无非...转载 2019-12-19 16:50:17 · 6529 阅读 · 1 评论