自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(122)
  • 资源 (4)
  • 收藏
  • 关注

原创 概念

ground truth参考:https://www.zhihu.com/question/22464082说白了,就是标准答案,真实值,设定的一个正确的基准。有监督学习中,输入的训练数据会有相应的ground truth(真实值,标签),在计算loss的时候,需要将预测值和这个真实值进行对比从而计算距离。Ground truth当然还可以用来做reinforcement learning,就是在...

2018-02-26 20:53:49 416

转载 阿里面试题总结

参考:http://blog.csdn.net/chenchaofuck1/article/details/51620442

2017-04-25 21:43:45 949

转载 Batch Normalization 学习笔记

参考:http://blog.csdn.net/hjimce/article/details/50866313Batch Normalization 学习笔记原文地址:http://blog.csdn.net/hjimce/article/details/50866313作者:hjimce一、背景意义本篇博文主要讲解2015年深度学习领域,非常值得学习的一篇文献:《

2017-04-10 23:18:40 620

转载 解读Batch Normalization

参考:http://blog.csdn.net/shuzfan/article/details/50723877本次所讲的内容为Batch Normalization,简称BN,来源于《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》,是一篇很好的p

2017-04-10 22:57:35 504

转载 SciPy教程 - 稀疏矩阵库scipy.sparse

参考:http://blog.csdn.net/pipisorry/article/details/41762945稀疏矩阵在Python科学计算中的实际意义对于那些零元素数目远远多于非零元素数目,并且非零元素的分布没有规律的矩阵称为稀疏矩阵(sparse)。由于稀疏矩阵中非零元素较少,零元素较多,因此可以采用只存储非零元素的方法来进行压缩存储。对于一个用二维数组存储的

2017-04-09 16:10:04 5912

转载 如何通俗理解beta分布?

参考:http://blog.csdn.net/a358463121/article/details/52562940beta分布介绍相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta分布的。用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小

2017-04-08 20:04:07 781

转载 stacking简介

参考:http://www.cnblogs.com/zhizhan/p/5051881.htmlstacked 产生方法是一种截然不同的组合多个模型的方法,它讲的是组合学习器的概念,但是使用的相对于bagging和boosting较少,它不像bagging和boosting,而是组合不同的模型,具体的过程如下:1.划分训练数据集为两个不相交的集合。2. 在第一个集合上训练多个学习器。

2017-04-07 00:27:06 1769

转载 ExtraTrees原理

原文:http://blog.csdn.net/zhaocj/article/details/51648966ET或Extra-Trees(Extremely randomized trees,极端随机树)是由PierreGeurts等人于2006年提出。该算法与随机森林算法十分相似,都是由许多决策树构成。但该算法与随机森林有两点主要的区别:1、随机森林应用的是Bagging模型,而ET是

2017-04-06 23:56:09 29529

原创 给用户推荐商品

给用户推荐商品地址:http://blog.csdn.net/qq_34264472/article/details/53808876https://www.kaggle.com/c/santander-product-recommendation/data描述:根据用户15个月商品购买记录(2015年1月28日到2016年5月用户购买商品记录),预测下个月(201

2017-04-06 22:31:38 2335

转载 连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?

参考:https://www.zhihu.com/question/31989952/answer/54184582在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0. 离散特征的增加和减少都很容易,易于模型的快速迭代;1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;2. 离散化

2017-04-05 23:22:29 3567

原创 偏度(skewness)和峰度(kurtosis)

偏度偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。偏度定义中包括正态分布(偏度=0),右偏分布(也叫正偏分布,其偏度>0),左偏分布(也叫负偏分布,其偏度峰度峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,

2017-04-05 21:58:34 171229 12

转载 在统计学中为什么要对变量取对数?

参考:https://www.zhihu.com/question/22012482

2017-04-05 21:37:10 15009

原创 Word2vec参数

Word2vec将分好词的训练语料进行训练,假定我语料名称为test.txt且在word2vec目录中。输入命令:./word2vec -train text8 -output vectors.bin -cbow 0 -size 48 -window 5 -negative 0 -hs 1 -sample 1e-4 -threads 20 -binary 1 -iter 100

2017-04-05 00:03:12 1222

原创 RF、gbdt、xgboost参数

RandomForestrf_params = { 'n_jobs': 16, 'n_estimators': 100, 'max_features': 0.2, 'max_depth': 12, 'min_samples_leaf': 2,}gbdtxgboostxgb_params = { 'seed': 0,

2017-04-04 23:52:53 491

转载 XGBOOST参数调优

参考:http://www.cnblogs.com/zhangbojiangfeng/p/6428988.html1. 简介 如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。 构造一个使用XGBoost的模型十分简单。但是,提高这个模型的表现就

2017-04-04 18:36:02 1537

原创 归并排序

C#include #include void Merge(int sourceArr[],int tempArr[], int startIndex, int midIndex, int endIndex){ int i = startIndex, j=midIndex+1, k = startIndex; while(i!=midIndex+1 && j!=end

2017-04-03 00:20:17 408

原创 快速排序

C++#include using namespace std; void Qsort(int a[], int low, int high){ if(low >= high) { return; } int first = low; int last = high; int key = a[first];/*用字

2017-04-03 00:11:43 430

转载 设计模式

单例模式#参考:http://ghostfromheaven.iteye.com/blog/1562618#使用装饰器(decorator),  #这是一种更pythonic,更elegant的方法,  #单例类本身根本不知道自己是单例的,因为他本身(自己的代码)并不是单例的  def singleton(cls, *args, **kw):      inst

2017-04-02 10:07:39 398

原创 sbt

1. 安装sbta. 下载http://www.scala-sbt.org/download.htmlb. 解压到/opt/sbtc. 创建/opt/sbt/sbt文件,内容为:BT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M"java $SBT_OPTS

2017-04-01 21:32:54 441

转载 数据倾斜是多么痛?spark作业调优秘籍

参考:http://www.tuicool.com/articles/qUBJbuV有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜是多么痛?!!!如果数据倾斜没有解决,完全没有可能进行性能调优,其他所有的调优手段都

2017-03-31 22:40:39 464

转载 spark-shell报错:java.net.UnknownHostException

参考:https://my.oschina.net/heguangdong/blog/13678启动spark-shell报错:java.net.UnknownHostException: 主机名: 主机名 unknown error修改/etc/hosts文件127.0.0.1 主机名 localhost.localdomain localhost或是再添加一

2017-03-30 20:50:44 2742

转载 LDA-math-MCMC 和 Gibbs Sampling

参考:https://cos.name/2013/01/lda-math-mcmc-and-gibbs-sampling/

2017-03-28 21:53:25 557

原创 Word2vec简单整理

参考:https://zhuanlan.zhihu.com/p/22477976http://yobobobo001.github.io/2016/05/26/%E6%88%91%E6%89%80%E7%90%86%E8%A7%A3%E7%9A%84word2vec/http://x-algo.cn/index.php/2016/03/12/281/#ihttps://www.zh

2017-03-28 00:37:50 13911 1

原创 机器学习中常用算法总结

参考:http://www.shuju.net/article/MDAwMDAyM4DM0.html逻辑回归优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。关键词:Sigmoid函数、Softmax解决多分类适用数据类型:数值型和标称型数据。其它:逻辑回归函数虽然是一个非线性的函数,但其实其去除Sigmoid映射函数之后,其他步骤都和线

2017-03-26 23:28:40 3681

转载 频繁项集挖掘算法Apriori FPGrowth

参考:http://blog.sina.com.cn/s/blog_5357c0af0101jq6z.htmlhttp://blog.csdn.net/huagong_adu/article/details/17739247Apriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法,处理的都是最简单的单层单维布尔关联规则。Apriori算法Ap

2017-03-26 23:19:14 11795

转载 FM算法详解

参考:http://blog.csdn.net/bitcarmanlee/article/details/52143909http://blog.csdn.net/dream_catcher_10/article/details/50844976简介1.FM(factorization machine)模型是一种基于矩阵分解的机器学习模型,对于One-Hot编码引起的稀疏数据具有很

2017-03-26 14:05:53 5510

原创 神经网络概念理解

激励函数有哪些?各有什么特点?为什么引入非线性激励函数?如果不用非线性激励函数(其实相当于激励函数是f(x)=x),每一层输出都是上层输入的线性函数,无论该神经网络多少层,输出都是输入的线性组合,与没有隐藏层效果一样,即为最原始的感知机了。为什么引入ReLU?1. 对于深层网络,sigmoid函数反向传播时,很容易出现梯度消失,从而无法完成深层网络的训练。

2017-03-26 00:21:23 2010

转载 理解长短期记忆网络(LSTM NetWorks)

参考:http://www.csdn.net/article/2015-11-25/2826323递归神经网络人类并不是每时每刻都从头开始思考。正如你阅读这篇文章的时候,你是在理解前面词语的基础上来理解每个词。你不会丢弃所有已知的信息而从头开始思考。你的思想具有持续性。传统的神经网络不能做到这点,而且这似乎也是它的主要缺陷。比如,你想对电影中每个点发生的事件类型进行分类

2017-03-25 21:03:03 753

转载 卷积神经网络

参考:http://geek.csdn.net/news/detail/127365接下来介绍一种非常重要的神经网络——卷积神经网络。这种神经网络在计算机视觉领域取得了重大的成功,而且在自然语言处理等其它领域也有很好的应用。深度学习受到大家的关注很大一个原因就是Alex等人实现的AlexNet(一种深度卷积神经网络)在LSVRC-2010 ImageNet这个比赛中取得了非常好的成绩。

2017-03-25 20:54:39 803

转载 受限波尔兹曼机

参考:http://blog.csdn.net/u012333003/article/details/36416027一、简述  受限玻尔兹曼机(RBM)是一类具有两层结构、对称链接无自反馈 的随机神经网络模型, 层与层之间是全连接,层内无链接 ,也就是说是一个二部图。RBM是一种有效的特征提取方法,常用于初始化前馈神经网络,可明显提高泛化能力。而由多个RBM结构堆

2017-03-25 20:44:31 720

转载 SVD SVD++

参考:http://www.cnblogs.com/Xnice/p/4522671.htmlhttp://blog.csdn.net/dark_scope/article/details/17228643http://blog.csdn.net/qq_20599123/article/details/51509335用户-电影评分矩阵形式矩阵分解

2017-03-25 19:58:49 2480

转载 希腊字母

1 Α α alpha a:lf 阿尔法2 Β β beta bet 贝塔3 Γ γ gamma ga:m 伽马4 Δ δ delta delt 德尔塔5 Ε

2017-03-25 10:21:40 1263

转载 特征选择

参考:http://www.tuicool.com/articles/ieUvaq 为什么要进行特征选择?1. 减少特征数量、降维,使模型泛化能力更强,减少过拟合,还能减少计算开销2. 增强对特征和特征值之间的理解有哪些特征选择方法?1. 理解业务2. 去除方差较小的特征3. 正则化。1正则化能够生成稀疏的模型。L2正则化的表现更加稳定,由于有用的特征往往对应系数非零。

2017-03-23 23:16:51 771

转载 xgboost相比传统gbdt有何不同?xgboost为什么快?xgboost如何支持并行?

链接:https://www.zhihu.com/question/41354392/answer/98658997传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶

2017-03-23 22:08:34 10388 1

原创 数据预处理

参考:http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647587&idx=2&sn=d0d3a69ce141f4015d6e0320048fbe63&chksm=bd4dc9f08a3a40e6eb2056107db353b4b657077ef8d3f999c757a70c97802a2de35241298abe&mpshar

2017-03-23 20:59:26 976

转载 推荐系统笔记四、基于内容的推荐系统

参考:http://blog.csdn.net/wangjian1204/article/details/50498287一、概述:基于内容的推荐系统(CBRSs)从item和用户的内容描述中提取出item的内容特征和用户偏好,根据用户对item的评价历史和item之间的语义(内容)相似度进行推荐。    基于内容推荐系统的高层次结构如图

2017-03-22 23:52:50 575

转载 推荐系统笔记三、基于近邻的推荐系统(进阶篇)

参考:http://blog.csdn.net/wangjian1204/article/details/50490108一、概述:基于近邻的推荐算法在推荐系统中占有重要的地位,是学术界的一个重点研究方向,在产业界也得到了广泛的应用。基于近邻的推荐算法大致可以分为user-based和item-based两类,关于近邻推荐算法的基础性介绍,请参见博文: “推荐系统笔记一

2017-03-22 23:51:57 748

转载 推荐系统笔记二、矩阵分解协同过滤

参考:http://blog.csdn.net/wangjian1204/article/details/50465109一、概述:矩阵分解模型是把用户偏好和item属性投影到同一个隐因子空间(latent factor space),以用户偏好和item属性的匹配程度来预测评分。通常推荐系统可以用于模型训练的信息主要有用户的显式反馈、隐式反馈和时间信息等。显式反馈(exp

2017-03-22 23:50:11 714

转载 推荐系统笔记一、基于近邻的推荐系统(基础篇)

参考:http://blog.csdn.net/wangjian1204/article/details/50451249Recommender Systems Handbook 第一版(2008年)是推荐系统方向入门的经典。7年后,第二版(2015年)终于诞生了,加入了这几年推荐系统领域的最新技术,又是state-of-the-art了吧,开始读书加笔记整理。。。一、

2017-03-22 23:48:35 654

原创 PCA和SVD区别和联系

参考:http://blog.csdn.net/wangjian1204/article/details/50642732http://www.cnblogs.com/lzllovesyl/p/5243370.htmlPCA图1.寻找主成分方向对于正交属性空间的样本点,如何用一个超平

2017-03-22 22:29:26 2301

Postman-REST-Client_v0.8.1.crx

chrome/chromium插件,方便API接口调试

2017-02-27

vimium.crx

谷歌浏览器vim插件

2017-01-02

scrt-8.0.4-1252.rhel7-64.x86_64.rpm

scrt-8.0.4-1252.rhel7-64.x86_64.rpm

2016-12-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除