- 博客(67)
- 资源 (4)
- 收藏
- 关注
转载 数据倾斜是多么痛?spark作业调优秘籍
参考:http://www.tuicool.com/articles/qUBJbuV有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜是多么痛?!!!如果数据倾斜没有解决,完全没有可能进行性能调优,其他所有的调优手段都
2017-03-31 22:40:39 470
转载 spark-shell报错:java.net.UnknownHostException
参考:https://my.oschina.net/heguangdong/blog/13678启动spark-shell报错:java.net.UnknownHostException: 主机名: 主机名 unknown error修改/etc/hosts文件127.0.0.1 主机名 localhost.localdomain localhost或是再添加一
2017-03-30 20:50:44 2758
转载 LDA-math-MCMC 和 Gibbs Sampling
参考:https://cos.name/2013/01/lda-math-mcmc-and-gibbs-sampling/
2017-03-28 21:53:25 564
原创 Word2vec简单整理
参考:https://zhuanlan.zhihu.com/p/22477976http://yobobobo001.github.io/2016/05/26/%E6%88%91%E6%89%80%E7%90%86%E8%A7%A3%E7%9A%84word2vec/http://x-algo.cn/index.php/2016/03/12/281/#ihttps://www.zh
2017-03-28 00:37:50 13933 1
原创 机器学习中常用算法总结
参考:http://www.shuju.net/article/MDAwMDAyM4DM0.html逻辑回归优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。关键词:Sigmoid函数、Softmax解决多分类适用数据类型:数值型和标称型数据。其它:逻辑回归函数虽然是一个非线性的函数,但其实其去除Sigmoid映射函数之后,其他步骤都和线
2017-03-26 23:28:40 3684
转载 频繁项集挖掘算法Apriori FPGrowth
参考:http://blog.sina.com.cn/s/blog_5357c0af0101jq6z.htmlhttp://blog.csdn.net/huagong_adu/article/details/17739247Apriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法,处理的都是最简单的单层单维布尔关联规则。Apriori算法Ap
2017-03-26 23:19:14 11824
转载 FM算法详解
参考:http://blog.csdn.net/bitcarmanlee/article/details/52143909http://blog.csdn.net/dream_catcher_10/article/details/50844976简介1.FM(factorization machine)模型是一种基于矩阵分解的机器学习模型,对于One-Hot编码引起的稀疏数据具有很
2017-03-26 14:05:53 5521
原创 神经网络概念理解
激励函数有哪些?各有什么特点?为什么引入非线性激励函数?如果不用非线性激励函数(其实相当于激励函数是f(x)=x),每一层输出都是上层输入的线性函数,无论该神经网络多少层,输出都是输入的线性组合,与没有隐藏层效果一样,即为最原始的感知机了。为什么引入ReLU?1. 对于深层网络,sigmoid函数反向传播时,很容易出现梯度消失,从而无法完成深层网络的训练。
2017-03-26 00:21:23 2023
转载 理解长短期记忆网络(LSTM NetWorks)
参考:http://www.csdn.net/article/2015-11-25/2826323递归神经网络人类并不是每时每刻都从头开始思考。正如你阅读这篇文章的时候,你是在理解前面词语的基础上来理解每个词。你不会丢弃所有已知的信息而从头开始思考。你的思想具有持续性。传统的神经网络不能做到这点,而且这似乎也是它的主要缺陷。比如,你想对电影中每个点发生的事件类型进行分类
2017-03-25 21:03:03 768
转载 卷积神经网络
参考:http://geek.csdn.net/news/detail/127365接下来介绍一种非常重要的神经网络——卷积神经网络。这种神经网络在计算机视觉领域取得了重大的成功,而且在自然语言处理等其它领域也有很好的应用。深度学习受到大家的关注很大一个原因就是Alex等人实现的AlexNet(一种深度卷积神经网络)在LSVRC-2010 ImageNet这个比赛中取得了非常好的成绩。
2017-03-25 20:54:39 813
转载 受限波尔兹曼机
参考:http://blog.csdn.net/u012333003/article/details/36416027一、简述 受限玻尔兹曼机(RBM)是一类具有两层结构、对称链接无自反馈 的随机神经网络模型, 层与层之间是全连接,层内无链接 ,也就是说是一个二部图。RBM是一种有效的特征提取方法,常用于初始化前馈神经网络,可明显提高泛化能力。而由多个RBM结构堆
2017-03-25 20:44:31 736
转载 SVD SVD++
参考:http://www.cnblogs.com/Xnice/p/4522671.htmlhttp://blog.csdn.net/dark_scope/article/details/17228643http://blog.csdn.net/qq_20599123/article/details/51509335用户-电影评分矩阵形式矩阵分解
2017-03-25 19:58:49 2510
转载 希腊字母
1 Α α alpha a:lf 阿尔法2 Β β beta bet 贝塔3 Γ γ gamma ga:m 伽马4 Δ δ delta delt 德尔塔5 Ε
2017-03-25 10:21:40 1269
转载 特征选择
参考:http://www.tuicool.com/articles/ieUvaq 为什么要进行特征选择?1. 减少特征数量、降维,使模型泛化能力更强,减少过拟合,还能减少计算开销2. 增强对特征和特征值之间的理解有哪些特征选择方法?1. 理解业务2. 去除方差较小的特征3. 正则化。1正则化能够生成稀疏的模型。L2正则化的表现更加稳定,由于有用的特征往往对应系数非零。
2017-03-23 23:16:51 804
转载 xgboost相比传统gbdt有何不同?xgboost为什么快?xgboost如何支持并行?
链接:https://www.zhihu.com/question/41354392/answer/98658997传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶
2017-03-23 22:08:34 10398 1
原创 数据预处理
参考:http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647587&idx=2&sn=d0d3a69ce141f4015d6e0320048fbe63&chksm=bd4dc9f08a3a40e6eb2056107db353b4b657077ef8d3f999c757a70c97802a2de35241298abe&mpshar
2017-03-23 20:59:26 986
转载 推荐系统笔记四、基于内容的推荐系统
参考:http://blog.csdn.net/wangjian1204/article/details/50498287一、概述:基于内容的推荐系统(CBRSs)从item和用户的内容描述中提取出item的内容特征和用户偏好,根据用户对item的评价历史和item之间的语义(内容)相似度进行推荐。 基于内容推荐系统的高层次结构如图
2017-03-22 23:52:50 581
转载 推荐系统笔记三、基于近邻的推荐系统(进阶篇)
参考:http://blog.csdn.net/wangjian1204/article/details/50490108一、概述:基于近邻的推荐算法在推荐系统中占有重要的地位,是学术界的一个重点研究方向,在产业界也得到了广泛的应用。基于近邻的推荐算法大致可以分为user-based和item-based两类,关于近邻推荐算法的基础性介绍,请参见博文: “推荐系统笔记一
2017-03-22 23:51:57 754
转载 推荐系统笔记二、矩阵分解协同过滤
参考:http://blog.csdn.net/wangjian1204/article/details/50465109一、概述:矩阵分解模型是把用户偏好和item属性投影到同一个隐因子空间(latent factor space),以用户偏好和item属性的匹配程度来预测评分。通常推荐系统可以用于模型训练的信息主要有用户的显式反馈、隐式反馈和时间信息等。显式反馈(exp
2017-03-22 23:50:11 719
转载 推荐系统笔记一、基于近邻的推荐系统(基础篇)
参考:http://blog.csdn.net/wangjian1204/article/details/50451249Recommender Systems Handbook 第一版(2008年)是推荐系统方向入门的经典。7年后,第二版(2015年)终于诞生了,加入了这几年推荐系统领域的最新技术,又是state-of-the-art了吧,开始读书加笔记整理。。。一、
2017-03-22 23:48:35 666
原创 PCA和SVD区别和联系
参考:http://blog.csdn.net/wangjian1204/article/details/50642732http://www.cnblogs.com/lzllovesyl/p/5243370.htmlPCA图1.寻找主成分方向对于正交属性空间的样本点,如何用一个超平
2017-03-22 22:29:26 2310
转载 深入理解LDA和pLSA
参考:http://blog.csdn.net/u010159842/article/details/48637095目录(?)[-]主题模型LDA41 各个基础模型411 Unigram model412 Mixture of unigrams model42 PLSA模型421 什么是pLSA模型422 EM算法的简单介绍423 EM算法估计
2017-03-22 00:08:23 1107
转载 python相关面试题
参考:http://blog.csdn.net/u010159842/article/details/46596945#t12[-]1 Python是如何进行内存管理的2 什么是lambda函数它有什么好处3 Python里面如何实现tuple和list的转换4 请写出一段Python代码实现删除一个list里面的重复元素5
2017-03-22 00:07:01 395
转载 分类中数据不平衡问题的解决经验
参考:http://www.cnblogs.com/harvey888/p/5717076.html问题:研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。(1)少数类所包含的信息就会很有限,从而难以确定少数类数据的分布,即在其内部难以发现规律,进而造成少数类的识别率低(2)数据碎片。很多分类算法采用分治法,样本空间的逐渐划
2017-03-19 23:44:05 1559 1
转载 KD树详解及KD树最近邻算法
参考:http://blog.csdn.net/app_12062011/article/details/51986805http://www.cnblogs.com/snake-hand/archive/2012/08/13/2636236.html2.1、什么是KD树 Kd-树是K-dimension tree的缩写,是对数据点在k维空间(如二
2017-03-19 12:34:21 19036 6
转载 统计学总结之Bias(偏差),Error(误差),和Variance(方差)的区别
参考:http://blog.csdn.net/qq_16365849/article/details/50635700目录(?)[-]Bias偏差Error误差和Variance方差的区别1概念2bias与Variance的区别3解决bias和Variance问题的方法Bias(偏差),Error(误差),和Variance(方差)
2017-03-18 18:17:59 9454
原创 先验分布、后验分布、共轭分布、共轭先验分布、
参考:http://blog.sina.com.cn/s/blog_b9a335010102vfdf.html0. 贝叶斯公式X为抽样样本,P(X)为我们抽到该样本的概率,有时被称为"证据",仅仅是归一化因子,如果不关心后验概率P(θ|X)的具体值,只考察θ取何值时后验概率P(θ|X)最大,则可将分子P(X)省略1. 先验信息在抽取样本X之前,人们对所要
2017-03-18 13:51:26 13184
转载 (EM算法)The EM Algorithm
Reference: http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html
2017-03-16 23:32:33 323
转载 MLE、MAP、Bayies估计
reference:http://blog.sina.com.cn/s/blog_620b4cae0102vu02.htmlhttp://www.cnblogs.com/sylvanas2012/p/5058065.html最大似然估计MLE:给定一堆数据,假如我们知道它是从某一种分布中随机取出来的,可是我们并不知道这个分布具体的参数,即“模型已定,参数未知”。但把待估计参数θ看成
2017-03-16 23:13:50 696
原创 常见机器学习面试题
参考:http://kubicode.me/2015/08/16/Machine%20Learning/Common-Interview/?from=singlemessage#http://blog.csdn.NET/heyongluoyao8/article/details/49429629http://lib.csdn.Net/article/machinelearnin
2017-03-14 21:11:37 19030 1
转载 Python正则表达式指南
参考:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式,这些主题请查看其他教程。注意:本文基于Python2.
2017-03-12 23:26:30 275
原创 Kmeans
参考:http://blog.csdn.net/sb19931201/article/details/53586468http://blog.csdn.net/angelahhj/article/details/41038955http://blog.csdn.net/loadstar_kun/article/details/39450615在统计计算中,期望最大化算法是在概率
2017-03-12 21:08:21 479
原创 L0、L1与L2范数
参考:http://blog.csdn.net/vividonly/article/details/50723852http://www.cnblogs.com/little-YTMM/p/5879093.htmlhttp://blog.csdn.net/zouxy09/article/details/24971995引子在介绍L0/L1/L2范数之前,先做个铺垫:L0/L
2017-03-12 18:27:32 2747
原创 推荐系统问题总结
参考:http://www.cnblogs.com/porco/p/4421503.html冷启动问题定义:在开始阶段,没有大量用户数据的情况下,进行个性化推荐的问题。分类对策(提供非个性化推荐-热门推荐)用户冷启动-对新用户进行推荐A1.利用新用户的注册信息进行推荐 2.导入用户社交网站信息A3.要求用户
2017-03-12 00:31:23 1059
转载 matplotlib绘图(极坐标 3D绘图等)(3)
参考:http://blog.csdn.net/ikerpeng/article/details/20523679首先补充以下:7种颜色 r g b y m c k (红,绿,蓝,黄,品红,青,黑) 在科研的过程中,坐标系中的XY不一定就是等尺度的。例如在声波中对Y轴取对数。肆意我们也必须知道这种坐标系如何画出来的。 1,对数坐标图
2017-03-11 19:51:29 2505
转载 matplotlib绘图,图标注释(2)
参考:http://blog.csdn.net/ikerpeng/article/details/20381009图标注释对于搞研究的人来说是很重要的,一般的paper里面也都会有。所以是很有必要要学习的。 下面通过一个例子来说明Python是怎么做的。[python] view plain copy print?
2017-03-11 19:47:59 1013
转载 matplotlib绘图(1)
参考:http://blog.csdn.net/ikerpeng/article/details/20370041 matplotlib是Python另一个非常重要的工具包。使用它可以绘制精美的图表。它学起来也是非常容易。下面来一步一步的学习它。1,matplotlib是面向对象的,组成的各个元素都是对象。使用pyplot模块可以迅速的绘图。下面这个例子可以基本上让你学会绘图了
2017-03-11 19:35:41 282
转载 python 中的 数组 矩阵 列表
参考:http://blog.csdn.net/ikerpeng/article/details/18704379作为初学者 很容易混淆这两个概念 记录一下数组和C语言中一样,可以通过下标访问,例如:一个3*3的数组,在Python中是这样的:array([[1,2,3],[1,1,2],[1,2,2]]),用a[1][2]访问的是第二行第三个元素:2.
2017-03-11 18:14:04 797
转载 生成模型与判别模型
参考:http://blog.csdn.net/zouxy09/article/details/8195017生成模型与判别模型zouxy09@qq.comhttp://blog.csdn.net/zouxy09 一直在看论文的过程中遇到这个问题,折腾了不少时间,然后是下面的一点理解,不知道正确否。若有错误,还望各位前辈不吝指正,以免小弟一错再错。在此谢
2017-03-11 09:20:29 207
转载 从item-base到svd再到rbm,多种Collaborative Filtering(协同过滤算法)从原理到实现
参考:http://blog.csdn.net/dark_scope/article/details/17228643〇.说明 本文的所有代码均可在 DML 找到,欢迎点星星。一.引入 推荐系统(主要是CF)是我在参加百度的电影推荐算法比赛的时候才临时学的,虽然没拿什么奖,但是知识却是到手了,一直想写一篇关于推荐系统的文章总结下,这次借着完
2017-03-11 01:40:30 395
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人