xbmatrix-CSDN博客

原创概念

ground truth参考：https://www.zhihu.com/question/22464082说白了，就是标准答案，真实值，设定的一个正确的基准。有监督学习中，输入的训练数据会有相应的ground truth(真实值，标签)，在计算loss的时候，需要将预测值和这个真实值进行对比从而计算距离。Ground truth当然还可以用来做reinforcement learning，就是在...

2018-02-26 20:53:49 456

转载阿里面试题总结

参考：http://blog.csdn.net/chenchaofuck1/article/details/51620442

2017-04-25 21:43:45 1008

转载 Batch Normalization 学习笔记

参考：http://blog.csdn.net/hjimce/article/details/50866313Batch Normalization 学习笔记原文地址：http://blog.csdn.net/hjimce/article/details/50866313作者：hjimce一、背景意义本篇博文主要讲解2015年深度学习领域，非常值得学习的一篇文献：《

2017-04-10 23:18:40 675

转载解读Batch Normalization

参考：http://blog.csdn.net/shuzfan/article/details/50723877本次所讲的内容为Batch Normalization，简称BN，来源于《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》，是一篇很好的p

2017-04-10 22:57:35 552

转载 SciPy教程 - 稀疏矩阵库scipy.sparse

参考：http://blog.csdn.net/pipisorry/article/details/41762945稀疏矩阵在Python科学计算中的实际意义对于那些零元素数目远远多于非零元素数目，并且非零元素的分布没有规律的矩阵称为稀疏矩阵（sparse）。由于稀疏矩阵中非零元素较少，零元素较多，因此可以采用只存储非零元素的方法来进行压缩存储。对于一个用二维数组存储的

2017-04-09 16:10:04 6088

转载如何通俗理解beta分布？

参考：http://blog.csdn.net/a358463121/article/details/52562940beta分布介绍相信大家学过统计学的都对正态分布二项分布均匀分布等等很熟悉了，但是却鲜少有人去介绍beta分布的。用一句话来说，beta分布可以看作一个概率的概率分布，当你不知道一个东西的具体概率是多少时，它可以给出了所有概率出现的可能性大小

2017-04-08 20:04:07 901

转载 stacking简介

参考：http://www.cnblogs.com/zhizhan/p/5051881.htmlstacked 产生方法是一种截然不同的组合多个模型的方法，它讲的是组合学习器的概念，但是使用的相对于bagging和boosting较少，它不像bagging和boosting，而是组合不同的模型，具体的过程如下：1.划分训练数据集为两个不相交的集合。2. 在第一个集合上训练多个学习器。

2017-04-07 00:27:06 1834

转载 ExtraTrees原理

原文：http://blog.csdn.net/zhaocj/article/details/51648966ET或Extra-Trees（Extremely randomized trees，极端随机树）是由PierreGeurts等人于2006年提出。该算法与随机森林算法十分相似，都是由许多决策树构成。但该算法与随机森林有两点主要的区别：1、随机森林应用的是Bagging模型，而ET是

2017-04-06 23:56:09 31224

原创给用户推荐商品

给用户推荐商品地址：http://blog.csdn.net/qq_34264472/article/details/53808876https://www.kaggle.com/c/santander-product-recommendation/data描述：根据用户15个月商品购买记录（2015年1月28日到2016年5月用户购买商品记录），预测下个月（201

2017-04-06 22:31:38 2400

转载连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？

参考：https://www.zhihu.com/question/31989952/answer/54184582在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：0. 离散特征的增加和减少都很容易，易于模型的快速迭代；1. 稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；2. 离散化

2017-04-05 23:22:29 3655

原创偏度(skewness)和峰度(kurtosis）

偏度偏度（skewness），是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。偏度定义中包括正态分布（偏度=0），右偏分布（也叫正偏分布，其偏度>0），左偏分布（也叫负偏分布，其偏度峰度峰度（peakedness；kurtosis）又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来，

2017-04-05 21:58:34 181981 16

转载在统计学中为什么要对变量取对数？

参考：https://www.zhihu.com/question/22012482

2017-04-05 21:37:10 15704

原创 Word2vec参数

Word2vec将分好词的训练语料进行训练，假定我语料名称为test.txt且在word2vec目录中。输入命令：./word2vec -train text8 -output vectors.bin -cbow 0 -size 48 -window 5 -negative 0 -hs 1 -sample 1e-4 -threads 20 -binary 1 -iter 100

2017-04-05 00:03:12 1290

原创 RF、gbdt、xgboost参数

RandomForestrf_params = { 'n_jobs': 16, 'n_estimators': 100, 'max_features': 0.2, 'max_depth': 12, 'min_samples_leaf': 2,}gbdtxgboostxgb_params = { 'seed': 0,

2017-04-04 23:52:53 541

转载 XGBOOST参数调优

参考：http://www.cnblogs.com/zhangbojiangfeng/p/6428988.html1. 简介如果你的预测模型表现得有些不尽如人意，那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法，可以处理各种不规则的数据。构造一个使用XGBoost的模型十分简单。但是，提高这个模型的表现就

2017-04-04 18:36:02 1685

原创归并排序

C#include #include void Merge(int sourceArr[],int tempArr[], int startIndex, int midIndex, int endIndex){ int i = startIndex, j=midIndex+1, k = startIndex; while(i!=midIndex+1 && j!=end

2017-04-03 00:20:17 485

原创快速排序

C++#include using namespace std; void Qsort(int a[], int low, int high){ if(low >= high) { return; } int first = low; int last = high; int key = a[first];/*用字

2017-04-03 00:11:43 462

转载设计模式

单例模式#参考：http://ghostfromheaven.iteye.com/blog/1562618#使用装饰器(decorator), #这是一种更pythonic,更elegant的方法, #单例类本身根本不知道自己是单例的,因为他本身(自己的代码)并不是单例的 def singleton(cls, *args, **kw): inst

2017-04-02 10:07:39 426

原创 sbt

1. 安装sbta. 下载http://www.scala-sbt.org/download.htmlb. 解压到/opt/sbtc. 创建/opt/sbt/sbt文件，内容为：BT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M"java $SBT_OPTS

2017-04-01 21:32:54 485

转载数据倾斜是多么痛？spark作业调优秘籍

参考：http://www.tuicool.com/articles/qUBJbuV有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜是多么痛?!!!如果数据倾斜没有解决，完全没有可能进行性能调优，其他所有的调优手段都

2017-03-31 22:40:39 502

转载 spark-shell报错：java.net.UnknownHostException

参考：https://my.oschina.net/heguangdong/blog/13678启动spark-shell报错：java.net.UnknownHostException: 主机名: 主机名 unknown error修改/etc/hosts文件127.0.0.1 主机名 localhost.localdomain localhost或是再添加一

2017-03-30 20:50:44 2878

转载 LDA-math-MCMC 和 Gibbs Sampling

参考：https://cos.name/2013/01/lda-math-mcmc-and-gibbs-sampling/

2017-03-28 21:53:25 592

原创 Word2vec简单整理

参考：https://zhuanlan.zhihu.com/p/22477976http://yobobobo001.github.io/2016/05/26/%E6%88%91%E6%89%80%E7%90%86%E8%A7%A3%E7%9A%84word2vec/http://x-algo.cn/index.php/2016/03/12/281/#ihttps://www.zh

2017-03-28 00:37:50 14047 1

原创机器学习中常用算法总结

参考：http://www.shuju.net/article/MDAwMDAyM4DM0.html逻辑回归优点：计算代价不高，易于理解和实现。缺点：容易欠拟合，分类精度可能不高。关键词：Sigmoid函数、Softmax解决多分类适用数据类型：数值型和标称型数据。其它：逻辑回归函数虽然是一个非线性的函数，但其实其去除Sigmoid映射函数之后，其他步骤都和线

2017-03-26 23:28:40 3768

转载频繁项集挖掘算法Apriori FPGrowth

参考：http://blog.sina.com.cn/s/blog_5357c0af0101jq6z.htmlhttp://blog.csdn.net/huagong_adu/article/details/17739247Apriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法，处理的都是最简单的单层单维布尔关联规则。Apriori算法Ap

2017-03-26 23:19:14 12046

转载 FM算法详解

参考：http://blog.csdn.net/bitcarmanlee/article/details/52143909http://blog.csdn.net/dream_catcher_10/article/details/50844976简介1.FM（factorization machine）模型是一种基于矩阵分解的机器学习模型，对于One-Hot编码引起的稀疏数据具有很

2017-03-26 14:05:53 5593

原创神经网络概念理解

激励函数有哪些？各有什么特点？为什么引入非线性激励函数？如果不用非线性激励函数（其实相当于激励函数是f(x)=x），每一层输出都是上层输入的线性函数，无论该神经网络多少层，输出都是输入的线性组合，与没有隐藏层效果一样，即为最原始的感知机了。为什么引入ReLU？1. 对于深层网络，sigmoid函数反向传播时，很容易出现梯度消失，从而无法完成深层网络的训练。

2017-03-26 00:21:23 2065

转载理解长短期记忆网络（LSTM NetWorks）

参考：http://www.csdn.net/article/2015-11-25/2826323递归神经网络人类并不是每时每刻都从头开始思考。正如你阅读这篇文章的时候，你是在理解前面词语的基础上来理解每个词。你不会丢弃所有已知的信息而从头开始思考。你的思想具有持续性。传统的神经网络不能做到这点，而且这似乎也是它的主要缺陷。比如，你想对电影中每个点发生的事件类型进行分类

2017-03-25 21:03:03 811

转载卷积神经网络

参考：http://geek.csdn.net/news/detail/127365接下来介绍一种非常重要的神经网络——卷积神经网络。这种神经网络在计算机视觉领域取得了重大的成功，而且在自然语言处理等其它领域也有很好的应用。深度学习受到大家的关注很大一个原因就是Alex等人实现的AlexNet（一种深度卷积神经网络）在LSVRC-2010 ImageNet这个比赛中取得了非常好的成绩。

2017-03-25 20:54:39 874

转载受限波尔兹曼机

参考：http://blog.csdn.net/u012333003/article/details/36416027一、简述受限玻尔兹曼机(RBM)是一类具有两层结构、对称链接无自反馈的随机神经网络模型，层与层之间是全连接，层内无链接，也就是说是一个二部图。RBM是一种有效的特征提取方法，常用于初始化前馈神经网络，可明显提高泛化能力。而由多个RBM结构堆

2017-03-25 20:44:31 812

转载 SVD SVD++

参考：http://www.cnblogs.com/Xnice/p/4522671.htmlhttp://blog.csdn.net/dark_scope/article/details/17228643http://blog.csdn.net/qq_20599123/article/details/51509335用户-电影评分矩阵形式矩阵分解

2017-03-25 19:58:49 2588

转载希腊字母

1 Α α alpha a:lf 阿尔法2 Β β beta bet 贝塔3 Γ γ gamma ga:m 伽马4 Δ δ delta delt 德尔塔5 Ε

2017-03-25 10:21:40 1334

转载特征选择

参考：http://www.tuicool.com/articles/ieUvaq 为什么要进行特征选择？1. 减少特征数量、降维，使模型泛化能力更强，减少过拟合，还能减少计算开销2. 增强对特征和特征值之间的理解有哪些特征选择方法？1. 理解业务2. 去除方差较小的特征3. 正则化。1正则化能够生成稀疏的模型。L2正则化的表现更加稳定，由于有用的特征往往对应系数非零。

2017-03-23 23:16:51 874

转载 xgboost相比传统gbdt有何不同？xgboost为什么快？xgboost如何支持并行？

链接：https://www.zhihu.com/question/41354392/answer/98658997传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶

2017-03-23 22:08:34 10452

原创数据预处理

参考：http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647587&idx=2&sn=d0d3a69ce141f4015d6e0320048fbe63&chksm=bd4dc9f08a3a40e6eb2056107db353b4b657077ef8d3f999c757a70c97802a2de35241298abe&mpshar

2017-03-23 20:59:26 1017

转载推荐系统笔记四、基于内容的推荐系统

参考：http://blog.csdn.net/wangjian1204/article/details/50498287一、概述：基于内容的推荐系统（CBRSs）从item和用户的内容描述中提取出item的内容特征和用户偏好，根据用户对item的评价历史和item之间的语义（内容）相似度进行推荐。基于内容推荐系统的高层次结构如图

2017-03-22 23:52:50 653

转载推荐系统笔记三、基于近邻的推荐系统（进阶篇）

参考：http://blog.csdn.net/wangjian1204/article/details/50490108一、概述：基于近邻的推荐算法在推荐系统中占有重要的地位，是学术界的一个重点研究方向，在产业界也得到了广泛的应用。基于近邻的推荐算法大致可以分为user-based和item-based两类，关于近邻推荐算法的基础性介绍，请参见博文： “推荐系统笔记一

2017-03-22 23:51:57 791

转载推荐系统笔记二、矩阵分解协同过滤

参考：http://blog.csdn.net/wangjian1204/article/details/50465109一、概述：矩阵分解模型是把用户偏好和item属性投影到同一个隐因子空间（latent factor space），以用户偏好和item属性的匹配程度来预测评分。通常推荐系统可以用于模型训练的信息主要有用户的显式反馈、隐式反馈和时间信息等。显式反馈（exp

2017-03-22 23:50:11 756

转载推荐系统笔记一、基于近邻的推荐系统（基础篇）

参考：http://blog.csdn.net/wangjian1204/article/details/50451249Recommender Systems Handbook 第一版（2008年）是推荐系统方向入门的经典。7年后，第二版（2015年）终于诞生了，加入了这几年推荐系统领域的最新技术，又是state-of-the-art了吧，开始读书加笔记整理。。。一、

2017-03-22 23:48:35 708

原创 PCA和SVD区别和联系

参考：http://blog.csdn.net/wangjian1204/article/details/50642732http://www.cnblogs.com/lzllovesyl/p/5243370.htmlPCA图1.寻找主成分方向对于正交属性空间的样本点，如何用一个超平

2017-03-22 22:29:26 2375

vimium.crx

Postman-REST-Client_v0.8.1.crx

scrt-8.0.4-1252.rhel7-64.x86_64.rpm

空空如也