自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(67)
  • 资源 (4)
  • 收藏
  • 关注

转载 数据倾斜是多么痛?spark作业调优秘籍

参考:http://www.tuicool.com/articles/qUBJbuV有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜是多么痛?!!!如果数据倾斜没有解决,完全没有可能进行性能调优,其他所有的调优手段都

2017-03-31 22:40:39 470

转载 spark-shell报错:java.net.UnknownHostException

参考:https://my.oschina.net/heguangdong/blog/13678启动spark-shell报错:java.net.UnknownHostException: 主机名: 主机名 unknown error修改/etc/hosts文件127.0.0.1 主机名 localhost.localdomain localhost或是再添加一

2017-03-30 20:50:44 2758

转载 LDA-math-MCMC 和 Gibbs Sampling

参考:https://cos.name/2013/01/lda-math-mcmc-and-gibbs-sampling/

2017-03-28 21:53:25 564

原创 Word2vec简单整理

参考:https://zhuanlan.zhihu.com/p/22477976http://yobobobo001.github.io/2016/05/26/%E6%88%91%E6%89%80%E7%90%86%E8%A7%A3%E7%9A%84word2vec/http://x-algo.cn/index.php/2016/03/12/281/#ihttps://www.zh

2017-03-28 00:37:50 13933 1

原创 机器学习中常用算法总结

参考:http://www.shuju.net/article/MDAwMDAyM4DM0.html逻辑回归优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。关键词:Sigmoid函数、Softmax解决多分类适用数据类型:数值型和标称型数据。其它:逻辑回归函数虽然是一个非线性的函数,但其实其去除Sigmoid映射函数之后,其他步骤都和线

2017-03-26 23:28:40 3684

转载 频繁项集挖掘算法Apriori FPGrowth

参考:http://blog.sina.com.cn/s/blog_5357c0af0101jq6z.htmlhttp://blog.csdn.net/huagong_adu/article/details/17739247Apriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法,处理的都是最简单的单层单维布尔关联规则。Apriori算法Ap

2017-03-26 23:19:14 11824

转载 FM算法详解

参考:http://blog.csdn.net/bitcarmanlee/article/details/52143909http://blog.csdn.net/dream_catcher_10/article/details/50844976简介1.FM(factorization machine)模型是一种基于矩阵分解的机器学习模型,对于One-Hot编码引起的稀疏数据具有很

2017-03-26 14:05:53 5521

原创 神经网络概念理解

激励函数有哪些?各有什么特点?为什么引入非线性激励函数?如果不用非线性激励函数(其实相当于激励函数是f(x)=x),每一层输出都是上层输入的线性函数,无论该神经网络多少层,输出都是输入的线性组合,与没有隐藏层效果一样,即为最原始的感知机了。为什么引入ReLU?1. 对于深层网络,sigmoid函数反向传播时,很容易出现梯度消失,从而无法完成深层网络的训练。

2017-03-26 00:21:23 2023

转载 理解长短期记忆网络(LSTM NetWorks)

参考:http://www.csdn.net/article/2015-11-25/2826323递归神经网络人类并不是每时每刻都从头开始思考。正如你阅读这篇文章的时候,你是在理解前面词语的基础上来理解每个词。你不会丢弃所有已知的信息而从头开始思考。你的思想具有持续性。传统的神经网络不能做到这点,而且这似乎也是它的主要缺陷。比如,你想对电影中每个点发生的事件类型进行分类

2017-03-25 21:03:03 768

转载 卷积神经网络

参考:http://geek.csdn.net/news/detail/127365接下来介绍一种非常重要的神经网络——卷积神经网络。这种神经网络在计算机视觉领域取得了重大的成功,而且在自然语言处理等其它领域也有很好的应用。深度学习受到大家的关注很大一个原因就是Alex等人实现的AlexNet(一种深度卷积神经网络)在LSVRC-2010 ImageNet这个比赛中取得了非常好的成绩。

2017-03-25 20:54:39 813

转载 受限波尔兹曼机

参考:http://blog.csdn.net/u012333003/article/details/36416027一、简述  受限玻尔兹曼机(RBM)是一类具有两层结构、对称链接无自反馈 的随机神经网络模型, 层与层之间是全连接,层内无链接 ,也就是说是一个二部图。RBM是一种有效的特征提取方法,常用于初始化前馈神经网络,可明显提高泛化能力。而由多个RBM结构堆

2017-03-25 20:44:31 736

转载 SVD SVD++

参考:http://www.cnblogs.com/Xnice/p/4522671.htmlhttp://blog.csdn.net/dark_scope/article/details/17228643http://blog.csdn.net/qq_20599123/article/details/51509335用户-电影评分矩阵形式矩阵分解

2017-03-25 19:58:49 2510

转载 希腊字母

1 Α α alpha a:lf 阿尔法2 Β β beta bet 贝塔3 Γ γ gamma ga:m 伽马4 Δ δ delta delt 德尔塔5 Ε

2017-03-25 10:21:40 1269

转载 特征选择

参考:http://www.tuicool.com/articles/ieUvaq 为什么要进行特征选择?1. 减少特征数量、降维,使模型泛化能力更强,减少过拟合,还能减少计算开销2. 增强对特征和特征值之间的理解有哪些特征选择方法?1. 理解业务2. 去除方差较小的特征3. 正则化。1正则化能够生成稀疏的模型。L2正则化的表现更加稳定,由于有用的特征往往对应系数非零。

2017-03-23 23:16:51 804

转载 xgboost相比传统gbdt有何不同?xgboost为什么快?xgboost如何支持并行?

链接:https://www.zhihu.com/question/41354392/answer/98658997传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶

2017-03-23 22:08:34 10398 1

原创 数据预处理

参考:http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647587&idx=2&sn=d0d3a69ce141f4015d6e0320048fbe63&chksm=bd4dc9f08a3a40e6eb2056107db353b4b657077ef8d3f999c757a70c97802a2de35241298abe&mpshar

2017-03-23 20:59:26 986

转载 推荐系统笔记四、基于内容的推荐系统

参考:http://blog.csdn.net/wangjian1204/article/details/50498287一、概述:基于内容的推荐系统(CBRSs)从item和用户的内容描述中提取出item的内容特征和用户偏好,根据用户对item的评价历史和item之间的语义(内容)相似度进行推荐。    基于内容推荐系统的高层次结构如图

2017-03-22 23:52:50 581

转载 推荐系统笔记三、基于近邻的推荐系统(进阶篇)

参考:http://blog.csdn.net/wangjian1204/article/details/50490108一、概述:基于近邻的推荐算法在推荐系统中占有重要的地位,是学术界的一个重点研究方向,在产业界也得到了广泛的应用。基于近邻的推荐算法大致可以分为user-based和item-based两类,关于近邻推荐算法的基础性介绍,请参见博文: “推荐系统笔记一

2017-03-22 23:51:57 754

转载 推荐系统笔记二、矩阵分解协同过滤

参考:http://blog.csdn.net/wangjian1204/article/details/50465109一、概述:矩阵分解模型是把用户偏好和item属性投影到同一个隐因子空间(latent factor space),以用户偏好和item属性的匹配程度来预测评分。通常推荐系统可以用于模型训练的信息主要有用户的显式反馈、隐式反馈和时间信息等。显式反馈(exp

2017-03-22 23:50:11 719

转载 推荐系统笔记一、基于近邻的推荐系统(基础篇)

参考:http://blog.csdn.net/wangjian1204/article/details/50451249Recommender Systems Handbook 第一版(2008年)是推荐系统方向入门的经典。7年后,第二版(2015年)终于诞生了,加入了这几年推荐系统领域的最新技术,又是state-of-the-art了吧,开始读书加笔记整理。。。一、

2017-03-22 23:48:35 666

原创 PCA和SVD区别和联系

参考:http://blog.csdn.net/wangjian1204/article/details/50642732http://www.cnblogs.com/lzllovesyl/p/5243370.htmlPCA图1.寻找主成分方向对于正交属性空间的样本点,如何用一个超平

2017-03-22 22:29:26 2310

转载 深入理解LDA和pLSA

参考:http://blog.csdn.net/u010159842/article/details/48637095目录(?)[-]主题模型LDA41 各个基础模型411 Unigram model412 Mixture of unigrams model42 PLSA模型421 什么是pLSA模型422 EM算法的简单介绍423 EM算法估计

2017-03-22 00:08:23 1107

转载 python相关面试题

参考:http://blog.csdn.net/u010159842/article/details/46596945#t12[-]1       Python是如何进行内存管理的2       什么是lambda函数它有什么好处3       Python里面如何实现tuple和list的转换4       请写出一段Python代码实现删除一个list里面的重复元素5 

2017-03-22 00:07:01 395

转载 分类中数据不平衡问题的解决经验

参考:http://www.cnblogs.com/harvey888/p/5717076.html问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。(1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低(2)数据碎片。很多分类算法采用分治法,样本空间的逐渐划

2017-03-19 23:44:05 1559 1

转载 KD树详解及KD树最近邻算法

参考:http://blog.csdn.net/app_12062011/article/details/51986805http://www.cnblogs.com/snake-hand/archive/2012/08/13/2636236.html2.1、什么是KD树    Kd-树是K-dimension tree的缩写,是对数据点在k维空间(如二

2017-03-19 12:34:21 19036 6

转载 统计学总结之Bias(偏差),Error(误差),和Variance(方差)的区别

参考:http://blog.csdn.net/qq_16365849/article/details/50635700目录(?)[-]Bias偏差Error误差和Variance方差的区别1概念2bias与Variance的区别3解决bias和Variance问题的方法Bias(偏差),Error(误差),和Variance(方差)

2017-03-18 18:17:59 9454

原创 先验分布、后验分布、共轭分布、共轭先验分布、

参考:http://blog.sina.com.cn/s/blog_b9a335010102vfdf.html0. 贝叶斯公式X为抽样样本,P(X)为我们抽到该样本的概率,有时被称为"证据",仅仅是归一化因子,如果不关心后验概率P(θ|X)的具体值,只考察θ取何值时后验概率P(θ|X)最大,则可将分子P(X)省略1. 先验信息在抽取样本X之前,人们对所要

2017-03-18 13:51:26 13184

转载 (EM算法)The EM Algorithm

Reference: http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

2017-03-16 23:32:33 323

转载 MLE、MAP、Bayies估计

reference:http://blog.sina.com.cn/s/blog_620b4cae0102vu02.htmlhttp://www.cnblogs.com/sylvanas2012/p/5058065.html最大似然估计MLE:给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参数,即“模型已定,参数未知”。但把待估计参数θ看成

2017-03-16 23:13:50 696

原创 常见机器学习面试题

参考:http://kubicode.me/2015/08/16/Machine%20Learning/Common-Interview/?from=singlemessage#http://blog.csdn.NET/heyongluoyao8/article/details/49429629http://lib.csdn.Net/article/machinelearnin

2017-03-14 21:11:37 19030 1

转载 Python正则表达式指南

参考:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。注意:本文基于Python2.

2017-03-12 23:26:30 275

原创 Kmeans

参考:http://blog.csdn.net/sb19931201/article/details/53586468http://blog.csdn.net/angelahhj/article/details/41038955http://blog.csdn.net/loadstar_kun/article/details/39450615在统计计算中,期望最大化算法是在概率

2017-03-12 21:08:21 479

原创 L0、L1与L2范数

参考:http://blog.csdn.net/vividonly/article/details/50723852http://www.cnblogs.com/little-YTMM/p/5879093.htmlhttp://blog.csdn.net/zouxy09/article/details/24971995引子在介绍L0/L1/L2范数之前,先做个铺垫:L0/L

2017-03-12 18:27:32 2747

原创 推荐系统问题总结

参考:http://www.cnblogs.com/porco/p/4421503.html冷启动问题定义:在开始阶段,没有大量用户数据的情况下,进行个性化推荐的问题。分类对策(提供非个性化推荐-热门推荐)用户冷启动-对新用户进行推荐A1.利用新用户的注册信息进行推荐   2.导入用户社交网站信息A3.要求用户

2017-03-12 00:31:23 1059

转载 matplotlib绘图(极坐标 3D绘图等)(3)

参考:http://blog.csdn.net/ikerpeng/article/details/20523679首先补充以下:7种颜色 r g b y m c k (红,绿,蓝,黄,品红,青,黑)    在科研的过程中,坐标系中的XY不一定就是等尺度的。例如在声波中对Y轴取对数。肆意我们也必须知道这种坐标系如何画出来的。    1,对数坐标图   

2017-03-11 19:51:29 2505

转载 matplotlib绘图,图标注释(2)

参考:http://blog.csdn.net/ikerpeng/article/details/20381009图标注释对于搞研究的人来说是很重要的,一般的paper里面也都会有。所以是很有必要要学习的。    下面通过一个例子来说明Python是怎么做的。[python] view plain copy print? 

2017-03-11 19:47:59 1013

转载 matplotlib绘图(1)

参考:http://blog.csdn.net/ikerpeng/article/details/20370041 matplotlib是Python另一个非常重要的工具包。使用它可以绘制精美的图表。它学起来也是非常容易。下面来一步一步的学习它。1,matplotlib是面向对象的,组成的各个元素都是对象。使用pyplot模块可以迅速的绘图。下面这个例子可以基本上让你学会绘图了

2017-03-11 19:35:41 282

转载 python 中的 数组 矩阵 列表

参考:http://blog.csdn.net/ikerpeng/article/details/18704379作为初学者 很容易混淆这两个概念 记录一下数组和C语言中一样,可以通过下标访问,例如:一个3*3的数组,在Python中是这样的:array([[1,2,3],[1,1,2],[1,2,2]]),用a[1][2]访问的是第二行第三个元素:2.

2017-03-11 18:14:04 797

转载 生成模型与判别模型

参考:http://blog.csdn.net/zouxy09/article/details/8195017生成模型与判别模型zouxy09@qq.comhttp://blog.csdn.net/zouxy09       一直在看论文的过程中遇到这个问题,折腾了不少时间,然后是下面的一点理解,不知道正确否。若有错误,还望各位前辈不吝指正,以免小弟一错再错。在此谢

2017-03-11 09:20:29 207

转载 从item-base到svd再到rbm,多种Collaborative Filtering(协同过滤算法)从原理到实现

参考:http://blog.csdn.net/dark_scope/article/details/17228643〇.说明         本文的所有代码均可在 DML 找到,欢迎点星星。一.引入          推荐系统(主要是CF)是我在参加百度的电影推荐算法比赛的时候才临时学的,虽然没拿什么奖,但是知识却是到手了,一直想写一篇关于推荐系统的文章总结下,这次借着完

2017-03-11 01:40:30 395

Postman-REST-Client_v0.8.1.crx

chrome/chromium插件,方便API接口调试

2017-02-27

vimium.crx

谷歌浏览器vim插件

2017-01-02

scrt-8.0.4-1252.rhel7-64.x86_64.rpm

scrt-8.0.4-1252.rhel7-64.x86_64.rpm

2016-12-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除