机器学习
wuxiaosi808
这个作者很懒,什么都没留下…
展开
-
硬核干货算法文章汇总
17. 持续更新...16. 目标检测算法(第16期)--YOLO-V2算法结构详解15. 目标检测算法(第15期)--YOLO-V1损失函数详解14. 目标检测算法(第14期)--YOLO-V1检测算法详解13. 目标检测算法(第13期)--SSD检测算法必须知道的几个关键点12. 目标检测算法(第12期)--SSD检测算法结构详解11. 目标检测算法(第11期)--Faster RCNN的损失函数以及如何训练?10. 目标检测算法(第10期)--Faster RCNN检测算法转载 2020-08-06 10:50:40 · 377 阅读 · 0 评论 -
数据维度爆炸怎么办?详解5大常用的特征选择方法
数据维度爆炸怎么办?详解5大常用的特征选择方法Datawhale干货 作者:Edwin Jarvis,cnblog博客整理在许多机器学习相关的书里,很难找到关于特征选择的内容,因为特征选择要解决的问题往往被视为机器学习的一个子模块,一般不会单独拿出来讨论。但特征选择是一个重要的数据预处理过程,特征选择主要有两个功能: 减少特征数量、降维,使模型泛化能力更强,减少过拟合 增强对特征和特征值之间的理解 好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这...转载 2020-08-04 13:49:31 · 1853 阅读 · 0 评论 -
机器学习高频面试题(41道)
Q1: What’s the trade-off between bias and variance?问题1: 什么是偏差(bias)、方差(variable)之间的均衡?Bias 是由于你使用的学习算法过度简单地拟合结果或者错误地拟合结果导致的错误。它反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,即算法本身的拟合能力。Bias 可能会导致模型欠拟合,使其难以具有较高的预测准确性,也很难将你的知识从训练集推广到测试集。Variance 是由于你使用的学习算法过于复杂而产生的错转载 2020-07-02 15:08:03 · 48918 阅读 · 1 评论 -
GDBT模型有缺失值处理
在训练GDBT是,执行model.fit(X_train, y_train)语句报错,报错如下:ValueError: Input contains NaN, infinity or a value too large for dtype('float64').说明数据中有缺失值。from sklearn.ensemble import GradientBoostingClassifiermodel = GradientBoostingClassifier(learning_rate=0.02,原创 2020-06-02 15:54:02 · 1844 阅读 · 0 评论 -
短信文本分类的实践
由于最近接触到一些短信内容,本着想要做一个模板提取和分类,先试试水。开局就遇到一堆问题,也可能是我自己太菜。所以想把遇到的问题进行记录,以备不时之需。第一部分①由于我拿到的数据是没有标签的,就是只有短信内容,没有短信标签,是分为那个类。所以我打算只添加两类标签,就用0和1区分。问题出来了,pandas可以把标签都赋值成一类,data1['score']=1。但是就没有负标签,也不能人工去标...原创 2019-11-07 20:15:54 · 545 阅读 · 0 评论 -
损失函数
损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面转载 2017-10-12 13:56:13 · 1735 阅读 · 0 评论 -
svm模型训练后的参数说明
现简单对屏幕回显信息进行说明:#iter 为迭代次数,nu 与前面的操作参数 -n nu 相同,obj 为 SVM 文件转换为的二次规划求解得到的最小值,rho 为判决函数的常数项 b ,nSV 为支持向量个数,nBSV 为边界上的支持向量个数,Total nSV 为支持向量总个数。训练后的模型保存为文件 *.model ,用记事本打开其内容如下:svm转载 2017-12-08 20:44:20 · 9405 阅读 · 1 评论 -
svm(libsvm)在文本分类中的应用
预备知识:1)svm:svm(supportvectormachine)即支持向量机,是一种机器学习算法,2000年左右开始火爆,被认为是(2005年论文上写的)目前分类算法中最好的二个之一(还有一个是boost方法,即使用多个低分辨率的分类器线性组合成一个高分辨率的模式);根据它的原理,个人认为它和人工神经网络的计算公式本质一样,虽然它们的类切分方式不一样。至少svm是完全的基于超平面,利用转载 2017-12-08 21:58:26 · 1621 阅读 · 0 评论 -
十分钟上手sklearn:特征提取,常用模型,交叉验证
更多干货就在我的个人博客 http://blackblog.tech 欢迎关注!这一篇虽然叫做:十分钟上手sklearn:特征提取,常用模型,但是写着写着我就想把每一个模型都详细说一下,所以也可以看作是机器学习算法概述了。上一篇我们讲解了如何安装sklearn,导入自带数据集,创建数据,对数据进行预处理,通过上一篇的讲解,相信大家能够感受到sklearn的强大之处。这一篇,我们将对skl...转载 2018-08-14 20:01:48 · 545 阅读 · 0 评论 -
协同算法总结
推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法,本文就对协同过滤类别的推荐算法做一个概括总结,后续也会对一些典型的协同过滤推荐算法做原理总结。1. 推荐算法概述 推荐算法是非常古老的,在机器学习还没有兴起的时候就有需求和应用了。概括来说,可以分为以下5种: 1)基于内容的推荐:这...转载 2018-08-27 14:02:06 · 8669 阅读 · 0 评论 -
word2vec中数学原理详解以及原理思考
很久没有写博客了,也没有写过相关总结。最近,工作中又开始用到了word2vector,正好就做个相关总结。这方面相关的博客有很多,我看过的讲的最清楚的就是@peghoty的博客。要理解wordvector的原理,有些知识还是需要提前了解一下。 预备知识:http://blog.csdn.net/itplus/article/details/37969635...转载 2018-08-27 17:14:26 · 360 阅读 · 0 评论 -
常见矩阵运算Python
python的numpy库提供矩阵运算的功能,因此我们在需要矩阵运算的时候,需要导入numpy的包。1.numpy的导入和使用from numpy import *;#导入numpy的库函数import numpy as np; #这个方式使用numpy的函数时,需要以np.开头。122.矩阵的创建由一维或二维数据创建矩阵from numpy import *;a1=arr转载 2017-10-12 11:00:37 · 20064 阅读 · 2 评论 -
欧氏距离与余弦距离
距离和相似性度量 在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解转载 2017-10-11 19:37:30 · 2089 阅读 · 0 评论 -
在机器学习中如何应对不均衡分类问题?
在处理机器学习等数据科学问题时,经常会碰到不均衡种类分布的情况,即在样本数据中一个或多个种类的观察值明显少于其他种类的观察值的现象。在我们更关心少数类的问题时这个现象会非常突出,例如窃电问题、银行诈骗性交易、罕见病鉴定等。在这种情况下,运用常规的机器学习算法的预测模型可能会无法准确预测。这是因为机器学习算法通常是通过减少错误来增加准确性,而不考虑种类的平衡。这篇文章讲了不同的方法来解决这个不均衡分转载 2017-10-11 10:32:33 · 944 阅读 · 0 评论 -
基于腾讯信鸽平台的手游流失用户预测模型概览
【编者按】借助大数据和机器学习做用户流失的预测分析是当前的一个应用趋势。本文由腾讯大数据团队技术人员撰写,介绍依托腾讯信鸽平台做手游用户的流失预测。文章着眼于数据、算法和系统三个方面,总结了一套手游通用的业务流失预测模型。本次流失预测的建模中采用了LR模型。背景随着游戏市场竞争的日趋激烈,越来越多的游戏运营服务选择借助大数据挖掘出更多更细的用户群来进行精细化,个性化运营,从而更好的抓住转载 2017-09-22 11:10:23 · 2882 阅读 · 0 评论 -
为什么要数据归一化和归一化方法
转自:https://zhuanlan.zhihu.com/p/27627299在喂给机器学习模型的数据中,对数据要进行归一化的处理。为什么要进行归一化处理,下面从寻找最优解这个角度给出自己的看法。例子假定为预测房价的例子,自变量为面积,房间数两个,因变量为房价。那么可以得到的公式为:其中代表房间数,代表变量前面的系数。其中代表面积,代表变量前面的系数。首先我们祭出转载 2017-09-22 08:59:58 · 32647 阅读 · 2 评论 -
各种有用的牛人链接
转载出处:http://www.cnblogs.com/kshenf/archive/2012/02/07/2342034.html常用牛人主页链接(计算机视觉、模式识别、机器学习相关方向,陆续更新。。。。)如果没有链接的,请看原著作者博客。 牛人主页(主页有很多论文代码)Serge Belongie at UC San Diego Antonio Torralba at MI转载 2017-09-20 22:07:00 · 1137 阅读 · 0 评论 -
kaggle机器学习竞赛冠军及分享
大数据挖掘DT数据分析 公众号: datadwKaggle比赛源代码和讨论的收集整理。本文代码链接较多,以下绿色字体均带有链接。详细资料请阅读原文http://suanfazu.com/t/kaggle/230Algorithmic Trading Challenge40Solution whitepaper41.Solut转载 2017-09-29 08:33:52 · 1798 阅读 · 0 评论 -
布隆过滤器
布隆过滤器 (Bloom Filter)是由Burton Howard Bloom于1970年提出,它是一种space efficient的概率型数据结构,用于判断一个元素是否在集合中。在垃圾邮件过滤的黑白名单方法、爬虫(Crawler)的网址判重模块中等等经常被用到。哈希表也能用于判断元素是否在集合中,但是布隆过滤器只需要哈希表的1/8或1/4的空间复杂度就能完成同样的问题。布隆过滤器可以插入元转载 2017-09-20 20:20:21 · 231 阅读 · 0 评论 -
Spark 快速大数据分析 -垃圾邮件分类示例
垃圾邮件分析是一个用来快速了解MLlib的例子。这个程序用了两个函数:HashingTF与LogisticRegressionWithSGD,前者从文本数据构建词频(termfrequency)特征向量,后者使用随机梯度下降法实现逻辑回归。机器学习算法尝试根据训练数据(training data)使得表示算法行为的数学目标最大化,并 以此来进行预测或作出决定。机器学习问题分为几种,包括分类、回...原创 2018-08-23 20:18:32 · 3383 阅读 · 1 评论 -
Python机器学习实践指南-第二章
# # -*- coding:utf-8 -*-#准备数据import pandas as pdimport reimport numpy as npimport matplotlib.pyplot as pltplt.style.use(('ggplot'))pd.set_option("display.max_columns",30)pd.set_option("displ...原创 2019-01-25 11:10:12 · 416 阅读 · 0 评论 -
算法工程师 -常见面试题
▌1. LDA(线性判别分析) 和 PCA 的区别与联系首先将LDA 扩展到多类高维的情况,以和问题1 中PCA 的求解对应。假设有N 个类别,并需要最终将特征降维至d 维。因此,我们要找到一个d 维投影超平面,使得投影后的样本点满足LDA 的目标—最大化类间距离和最小化类内距离。回顾两个散度矩阵, 类内散度矩阵在类别增加至 N 时仍满足定义, 而之前两类问题的类间散度矩阵在...转载 2019-09-03 11:38:52 · 10537 阅读 · 0 评论 -
Logistic Regression(逻辑回归)模型实现二分类和多分类
一、逻辑回归二、判定边界当将训练集的样本以其各个特征为坐标轴在图中进行绘制时,通常可以找到某一个判定边界去将样本点进行分类。例如:线性判定边界:非线性判定边界:三、二分类和sigmoid函数sigmoid函数图像如下:四、损失函数1. 定义2. 极大似然估计上面是一种求损失函...转载 2019-09-03 10:15:11 · 4924 阅读 · 2 评论 -
Titanic幸存预测
import numpy as npimport pandas as pdfrom sklearn import preprocessingimport matplotlib.pyplot as pltplt.rc("font", size=14)import seaborn as snssns.set(style="white") #设置seaborn画图的背景为白色...原创 2019-07-05 14:25:25 · 383 阅读 · 0 评论 -
KNN学习笔记
k近邻(k-nearest neighbor,k-NN)是一种基本分类与回归的方法。实现简单,直观:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实例分为到这个类里。 k近邻算法使用的模型实际上有三个基本要素,分别是距离度量,k值的选择和分类决策规则。下面分别简述三要素。 1、距离度量 空间中两个实例点的距离反应...原创 2019-06-27 18:01:43 · 258 阅读 · 1 评论 -
线性回归实例学习
# -*- coding:utf-8 -*-import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressiondata = pd.read_csv('height.vs.temperature.csv')# pr...原创 2019-06-26 14:42:07 · 213 阅读 · 0 评论 -
MNIST训练数字识别-Keras
端到端的MNIST训练数字识别# -*- coding:utf-8 -*-import numpy as npfrom keras.datasets import mnistfrom keras.models import Sequentialfrom keras.layers import Dense,Dropout,Flattenfrom keras.layers.convol...原创 2019-06-14 16:02:57 · 188 阅读 · 0 评论 -
python推荐系统库-surprise
@ 2018-01-24Surprise简单易用同时支持多种推荐算法其中基于近邻的方法协同过滤可以设定不同的度量准则支持不同的评估准则使用示例基本使用方法如下载入自己的数据集方法算法调参让推荐系统有更好的效果在自己的数据集上训练模型首先载入数据使用不同的推荐系统算法进行建模比较建模和存储模型用协同过滤构建模型并进行预测1 movielens的例子2 音乐预测的例子...转载 2019-06-05 11:03:01 · 1036 阅读 · 0 评论 -
K-means原理及Python实现
K-means方法是一种非监督学习的算法,它解决的是聚类问题。1、算法简介:K-means方法是聚类中的经典算法,数据挖掘十大经典算法之一;算法接受参数k,然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足聚类中的对象相似度较高,而不同聚类中的对象相似度较小。2、算法思想:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直到得到...原创 2019-05-14 16:25:31 · 21414 阅读 · 2 评论 -
AI必知的十大深度学习算法
首先先让我们来定义一下什么是“深度学习”。对很多人来说,给“深度学习”下一个定义确实很有挑战,因为在过去的十年中,它的形式已经慢慢地发生了很大的变化。先来在视觉上感受一下“深度学习”的地位。下图是AI、机器学习和深度学习三个概念的一个关系图。AI的领域要相对较广泛,机器学习是AI的一个子领域,而深度学习是机器学习领域中的一个子集。深度学习网络与“典型”的前馈多层网络之间是有一些区别...转载 2019-03-13 09:50:00 · 1143 阅读 · 0 评论 -
机器学习算法介绍
前言谷歌董事长施密特曾说过:虽然谷歌的无人驾驶汽车和机器人受到了许多媒体关注,但是这家公司真正的未来在于机器学习,一种让计算机更聪明、更个性化的技术。也许我们生活在人类历史上最关键的时期:从使用大型计算机,到个人电脑,再到现在的云计算。关键的不是过去发生了什么,而是将来会有什么发生。工具和技术的民主化,让像我这样的人对这个时期兴奋不已。计算的蓬勃发展也是一样。如今,作为一名数据科学家,...转载 2019-03-13 09:36:53 · 5448 阅读 · 0 评论 -
sklearn.classification_report预测准确率
SKLearn中预测准确率函数介绍1、在使用Sklearn进行机器学习算法预测测试数据时,常用到classification_report函数来进行测试的准确率的计算输#开始预测y_pred = clf.predict(X_test)print("done in %0.3fs" % (time() - t0))#通过该函数,比较预测出的标签和真实标签,并输出准确率print(cla...转载 2019-03-04 14:30:34 · 1526 阅读 · 0 评论 -
FM算法(一):算法理论
主要内容:动机 FM算法模型 FM算法VS 其他算法一、动机在传统的线性模型如LR中,每个特征都是独立的,如果需要考虑特征与特征直接的交互作用,可能需要人工对特征进行交叉组合;非线性SVM可以对特征进行kernel映射,但是在特征高度稀疏的情况下,并不能很好地进行学习;现在也有很多分解模型Factorization model如矩阵分解MF、SVD++等,这些模型可以学习到特征...转载 2019-03-06 10:24:15 · 567 阅读 · 0 评论 -
Python机器学习实践指南-第四章(1)
由于第三章的国外网站无法翻墙,拿不到数据。故跳过第三章,直接进行第四章.由于篇幅较长,故分篇章实现。PS:这次下周的数据截止到2019年2月的数据,和书上的数据相比数据有小量增加。出现的问题也比较多,在尝试处理。如果有做的不对或者不合理的地方,还希望各位老师、小伙伴指正。有更好的想法也可以给我留言。# -*- encoding:utf-8 -*-import numpy as np...原创 2019-02-15 17:08:13 · 373 阅读 · 0 评论 -
Pyhon机器学习实践指南-第一章
# # -*- coding:utf-8 -*-import osimport pandas as pdimport requests"""先下载iris.data数据集,并写入path目录。实际上下载的是.csv文件,但是通过pandas操作,给文件添加了一列标题。读出来的结果类似Excel,pandas其实就是操作的行和列,数据列Series,表格DataFrame."""...原创 2019-01-21 19:13:37 · 305 阅读 · 0 评论 -
机器学习sklearn参数解释(GDBT+XGBOOST)
机器学习总结-sklearn参数解释实验数据集选取:1分类数据选取 load_iris 鸢尾花数据集from sklearn.datasets import load_irisdata = load_iris()data.data[[10, 25, 50]]data.target[[10, 25, 50]]list(data.target_names)list(data.fe转载 2017-09-20 08:58:33 · 15138 阅读 · 1 评论 -
特征处理与特征选择
特征处理和特征选择统计特征加减平均:与均值进行比较。分位线:处于前百分之几。次序:排在第几位。比例:类目占比。购物推荐中的特征处理示例:加入购物车时间距当前的天数。-用户商品统计特征排除30天内从没买过商品的用户。-数据清洗在购物车里的商品,哪些会买,哪些不会买。-规则点击、加购物车、收藏的购买转化率。-用户商品统计特征自定义函数描述不同商品的当前热度。-商品统计特征不同商品的转载 2017-09-20 08:52:06 · 813 阅读 · 0 评论 -
SVM之核函数
上一篇SVM之对偶问题中讨论到,SVM最终形式化为以下优化问题maxα∑iαi−12∑i,jαiαjyiyjxi,xj>s.t.αi≥0∑iαiyi=0而且最终的判别式可以写成wTx+b=∑iαiyixi,x>+b之前已对(1)的求解做了简单提及,需要注意的是,优化问题(1)虽然可以直接求解,但是要基于训练数据线性可分的基础,如果数据本身线性不可分呢?解决方法之一就是将数据,或者更加正原创 2017-09-02 20:28:57 · 773 阅读 · 0 评论 -
点击率预估
点击率预估综述52cs07/24/2017TwitterFacebookGoogle+PinterestTumblr作者:张红林,腾讯高级工程师背景在计算广告系统中,一个可以携带广告请求的用户流量到达后台时,系统需要在较短时间(一般要求不超过100ms)内返回一个或多个排序好的广告列表;在广告系统中,一般最后一步的排序score=bid*pctralph转载 2017-09-14 21:41:49 · 8860 阅读 · 0 评论 -
如何评价模型的好坏?
介绍 “所有模型都是坏的,但有些模型是有用的”。我们建立模型之后,接下来就要去评估模型,确定这个模型是否‘有用’。当你费尽全力去建立完模型后,你会发现仅仅就是一些单个的数值或单个的曲线去告诉你你的模型到底是否能够派上用场。 在实际情况中,我们会用不同的度量去评估我们的模型,而度量的选择,完全取决于模型的类型和模型以后要做的事。下面我们就会学习到一些用于评价模转载 2017-08-22 15:51:43 · 14363 阅读 · 0 评论