2017年03月_xbmatrix

转载数据倾斜是多么痛？spark作业调优秘籍

参考：http://www.tuicool.com/articles/qUBJbuV有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜是多么痛?!!!如果数据倾斜没有解决，完全没有可能进行性能调优，其他所有的调优手段都

2017-03-31 22:40:39 470

转载 spark-shell报错：java.net.UnknownHostException

参考：https://my.oschina.net/heguangdong/blog/13678启动spark-shell报错：java.net.UnknownHostException: 主机名: 主机名 unknown error修改/etc/hosts文件127.0.0.1 主机名 localhost.localdomain localhost或是再添加一

2017-03-30 20:50:44 2758

转载 LDA-math-MCMC 和 Gibbs Sampling

参考：https://cos.name/2013/01/lda-math-mcmc-and-gibbs-sampling/

2017-03-28 21:53:25 564

原创 Word2vec简单整理

参考：https://zhuanlan.zhihu.com/p/22477976http://yobobobo001.github.io/2016/05/26/%E6%88%91%E6%89%80%E7%90%86%E8%A7%A3%E7%9A%84word2vec/http://x-algo.cn/index.php/2016/03/12/281/#ihttps://www.zh

2017-03-28 00:37:50 13933 1

原创机器学习中常用算法总结

参考：http://www.shuju.net/article/MDAwMDAyM4DM0.html逻辑回归优点：计算代价不高，易于理解和实现。缺点：容易欠拟合，分类精度可能不高。关键词：Sigmoid函数、Softmax解决多分类适用数据类型：数值型和标称型数据。其它：逻辑回归函数虽然是一个非线性的函数，但其实其去除Sigmoid映射函数之后，其他步骤都和线

2017-03-26 23:28:40 3684

转载频繁项集挖掘算法Apriori FPGrowth

参考：http://blog.sina.com.cn/s/blog_5357c0af0101jq6z.htmlhttp://blog.csdn.net/huagong_adu/article/details/17739247Apriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法，处理的都是最简单的单层单维布尔关联规则。Apriori算法Ap

2017-03-26 23:19:14 11824

转载 FM算法详解

参考：http://blog.csdn.net/bitcarmanlee/article/details/52143909http://blog.csdn.net/dream_catcher_10/article/details/50844976简介1.FM（factorization machine）模型是一种基于矩阵分解的机器学习模型，对于One-Hot编码引起的稀疏数据具有很

2017-03-26 14:05:53 5521

原创神经网络概念理解

激励函数有哪些？各有什么特点？为什么引入非线性激励函数？如果不用非线性激励函数（其实相当于激励函数是f(x)=x），每一层输出都是上层输入的线性函数，无论该神经网络多少层，输出都是输入的线性组合，与没有隐藏层效果一样，即为最原始的感知机了。为什么引入ReLU？1. 对于深层网络，sigmoid函数反向传播时，很容易出现梯度消失，从而无法完成深层网络的训练。

2017-03-26 00:21:23 2023

转载理解长短期记忆网络（LSTM NetWorks）

参考：http://www.csdn.net/article/2015-11-25/2826323递归神经网络人类并不是每时每刻都从头开始思考。正如你阅读这篇文章的时候，你是在理解前面词语的基础上来理解每个词。你不会丢弃所有已知的信息而从头开始思考。你的思想具有持续性。传统的神经网络不能做到这点，而且这似乎也是它的主要缺陷。比如，你想对电影中每个点发生的事件类型进行分类

2017-03-25 21:03:03 768

转载卷积神经网络

参考：http://geek.csdn.net/news/detail/127365接下来介绍一种非常重要的神经网络——卷积神经网络。这种神经网络在计算机视觉领域取得了重大的成功，而且在自然语言处理等其它领域也有很好的应用。深度学习受到大家的关注很大一个原因就是Alex等人实现的AlexNet（一种深度卷积神经网络）在LSVRC-2010 ImageNet这个比赛中取得了非常好的成绩。

2017-03-25 20:54:39 813

转载受限波尔兹曼机

参考：http://blog.csdn.net/u012333003/article/details/36416027一、简述受限玻尔兹曼机(RBM)是一类具有两层结构、对称链接无自反馈的随机神经网络模型，层与层之间是全连接，层内无链接，也就是说是一个二部图。RBM是一种有效的特征提取方法，常用于初始化前馈神经网络，可明显提高泛化能力。而由多个RBM结构堆

2017-03-25 20:44:31 736

转载 SVD SVD++

参考：http://www.cnblogs.com/Xnice/p/4522671.htmlhttp://blog.csdn.net/dark_scope/article/details/17228643http://blog.csdn.net/qq_20599123/article/details/51509335用户-电影评分矩阵形式矩阵分解

2017-03-25 19:58:49 2510

转载希腊字母

1 Α α alpha a:lf 阿尔法2 Β β beta bet 贝塔3 Γ γ gamma ga:m 伽马4 Δ δ delta delt 德尔塔5 Ε

2017-03-25 10:21:40 1269

转载特征选择

参考：http://www.tuicool.com/articles/ieUvaq 为什么要进行特征选择？1. 减少特征数量、降维，使模型泛化能力更强，减少过拟合，还能减少计算开销2. 增强对特征和特征值之间的理解有哪些特征选择方法？1. 理解业务2. 去除方差较小的特征3. 正则化。1正则化能够生成稀疏的模型。L2正则化的表现更加稳定，由于有用的特征往往对应系数非零。

2017-03-23 23:16:51 804

转载 xgboost相比传统gbdt有何不同？xgboost为什么快？xgboost如何支持并行？

链接：https://www.zhihu.com/question/41354392/answer/98658997传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶

2017-03-23 22:08:34 10398 1

原创数据预处理

参考：http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647587&idx=2&sn=d0d3a69ce141f4015d6e0320048fbe63&chksm=bd4dc9f08a3a40e6eb2056107db353b4b657077ef8d3f999c757a70c97802a2de35241298abe&mpshar

2017-03-23 20:59:26 986

转载推荐系统笔记四、基于内容的推荐系统

参考：http://blog.csdn.net/wangjian1204/article/details/50498287一、概述：基于内容的推荐系统（CBRSs）从item和用户的内容描述中提取出item的内容特征和用户偏好，根据用户对item的评价历史和item之间的语义（内容）相似度进行推荐。基于内容推荐系统的高层次结构如图

2017-03-22 23:52:50 581

转载推荐系统笔记三、基于近邻的推荐系统（进阶篇）

参考：http://blog.csdn.net/wangjian1204/article/details/50490108一、概述：基于近邻的推荐算法在推荐系统中占有重要的地位，是学术界的一个重点研究方向，在产业界也得到了广泛的应用。基于近邻的推荐算法大致可以分为user-based和item-based两类，关于近邻推荐算法的基础性介绍，请参见博文： “推荐系统笔记一

2017-03-22 23:51:57 754

转载推荐系统笔记二、矩阵分解协同过滤

参考：http://blog.csdn.net/wangjian1204/article/details/50465109一、概述：矩阵分解模型是把用户偏好和item属性投影到同一个隐因子空间（latent factor space），以用户偏好和item属性的匹配程度来预测评分。通常推荐系统可以用于模型训练的信息主要有用户的显式反馈、隐式反馈和时间信息等。显式反馈（exp

2017-03-22 23:50:11 719

转载推荐系统笔记一、基于近邻的推荐系统（基础篇）

参考：http://blog.csdn.net/wangjian1204/article/details/50451249Recommender Systems Handbook 第一版（2008年）是推荐系统方向入门的经典。7年后，第二版（2015年）终于诞生了，加入了这几年推荐系统领域的最新技术，又是state-of-the-art了吧，开始读书加笔记整理。。。一、

2017-03-22 23:48:35 666

原创 PCA和SVD区别和联系

参考：http://blog.csdn.net/wangjian1204/article/details/50642732http://www.cnblogs.com/lzllovesyl/p/5243370.htmlPCA图1.寻找主成分方向对于正交属性空间的样本点，如何用一个超平

2017-03-22 22:29:26 2310

转载深入理解LDA和pLSA

参考：http://blog.csdn.net/u010159842/article/details/48637095目录(?)[-]主题模型LDA41 各个基础模型411 Unigram model412 Mixture of unigrams model42 PLSA模型421 什么是pLSA模型422 EM算法的简单介绍423 EM算法估计

2017-03-22 00:08:23 1107

转载 python相关面试题

参考：http://blog.csdn.net/u010159842/article/details/46596945#t12[-]1 Python是如何进行内存管理的2 什么是lambda函数它有什么好处3 Python里面如何实现tuple和list的转换4 请写出一段Python代码实现删除一个list里面的重复元素5

2017-03-22 00:07:01 395

转载分类中数据不平衡问题的解决经验

参考：http://www.cnblogs.com/harvey888/p/5717076.html问题：研究表明，在某些应用下，1∶35的比例就会使某些分类方法无效，甚至1∶10的比例也会使某些分类方法无效。（1）少数类所包含的信息就会很有限，从而难以确定少数类数据的分布，即在其内部难以发现规律，进而造成少数类的识别率低（2）数据碎片。很多分类算法采用分治法，样本空间的逐渐划

2017-03-19 23:44:05 1559 1

转载 KD树详解及KD树最近邻算法

参考：http://blog.csdn.net/app_12062011/article/details/51986805http://www.cnblogs.com/snake-hand/archive/2012/08/13/2636236.html2.1、什么是KD树 Kd-树是K-dimension tree的缩写，是对数据点在k维空间（如二

2017-03-19 12:34:21 19036 6

转载统计学总结之Bias(偏差)，Error(误差)，和Variance(方差)的区别

参考：http://blog.csdn.net/qq_16365849/article/details/50635700目录(?)[-]Bias偏差Error误差和Variance方差的区别1概念2bias与Variance的区别3解决bias和Variance问题的方法Bias(偏差)，Error(误差)，和Variance(方差)

2017-03-18 18:17:59 9454

原创先验分布、后验分布、共轭分布、共轭先验分布、

参考：http://blog.sina.com.cn/s/blog_b9a335010102vfdf.html0. 贝叶斯公式X为抽样样本，P(X)为我们抽到该样本的概率，有时被称为"证据"，仅仅是归一化因子，如果不关心后验概率P(θ|X)的具体值，只考察θ取何值时后验概率P(θ|X)最大，则可将分子P(X)省略1. 先验信息在抽取样本X之前，人们对所要

2017-03-18 13:51:26 13184

转载（EM算法）The EM Algorithm

Reference: http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html

2017-03-16 23:32:33 323

转载 MLE、MAP、Bayies估计

reference:http://blog.sina.com.cn/s/blog_620b4cae0102vu02.htmlhttp://www.cnblogs.com/sylvanas2012/p/5058065.html最大似然估计MLE：给定一堆数据，假如我们知道它是从某一种分布中随机取出来的，可是我们并不知道这个分布具体的参数，即“模型已定，参数未知”。但把待估计参数θ看成

2017-03-16 23:13:50 696

原创常见机器学习面试题

参考：http://kubicode.me/2015/08/16/Machine%20Learning/Common-Interview/?from=singlemessage#http://blog.csdn.NET/heyongluoyao8/article/details/49429629http://lib.csdn.Net/article/machinelearnin

2017-03-14 21:11:37 19030 1

转载 Python正则表达式指南

参考：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html本文介绍了Python对于正则表达式的支持，包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例。本文的内容不包括如何编写高效的正则表达式、如何优化正则表达式，这些主题请查看其他教程。注意：本文基于Python2.

2017-03-12 23:26:30 275

原创 Kmeans

参考：http://blog.csdn.net/sb19931201/article/details/53586468http://blog.csdn.net/angelahhj/article/details/41038955http://blog.csdn.net/loadstar_kun/article/details/39450615在统计计算中，期望最大化算法是在概率

2017-03-12 21:08:21 479

原创 L0、L1与L2范数

参考：http://blog.csdn.net/vividonly/article/details/50723852http://www.cnblogs.com/little-YTMM/p/5879093.htmlhttp://blog.csdn.net/zouxy09/article/details/24971995引子在介绍L0/L1/L2范数之前，先做个铺垫：L0/L

2017-03-12 18:27:32 2747

原创推荐系统问题总结

参考：http://www.cnblogs.com/porco/p/4421503.html冷启动问题定义：在开始阶段，没有大量用户数据的情况下，进行个性化推荐的问题。分类对策(提供非个性化推荐-热门推荐)用户冷启动-对新用户进行推荐A1.利用新用户的注册信息进行推荐 2.导入用户社交网站信息A3.要求用户

2017-03-12 00:31:23 1059

转载 matplotlib绘图（极坐标 3D绘图等）（3）

参考：http://blog.csdn.net/ikerpeng/article/details/20523679首先补充以下：7种颜色 r g b y m c k （红，绿，蓝，黄，品红，青，黑）在科研的过程中，坐标系中的XY不一定就是等尺度的。例如在声波中对Y轴取对数。肆意我们也必须知道这种坐标系如何画出来的。 1，对数坐标图

2017-03-11 19:51:29 2505

转载 matplotlib绘图，图标注释（2）

参考:http://blog.csdn.net/ikerpeng/article/details/20381009图标注释对于搞研究的人来说是很重要的，一般的paper里面也都会有。所以是很有必要要学习的。下面通过一个例子来说明Python是怎么做的。[python] view plain copy print?

2017-03-11 19:47:59 1013

转载 matplotlib绘图（1）

参考:http://blog.csdn.net/ikerpeng/article/details/20370041 matplotlib是Python另一个非常重要的工具包。使用它可以绘制精美的图表。它学起来也是非常容易。下面来一步一步的学习它。1，matplotlib是面向对象的，组成的各个元素都是对象。使用pyplot模块可以迅速的绘图。下面这个例子可以基本上让你学会绘图了

2017-03-11 19:35:41 282

转载 python 中的数组矩阵列表

参考:http://blog.csdn.net/ikerpeng/article/details/18704379作为初学者很容易混淆这两个概念记录一下数组和C语言中一样，可以通过下标访问，例如：一个3*3的数组，在Python中是这样的：array（[[1,2,3],[1,1,2],[1,2,2]]),用a[1][2]访问的是第二行第三个元素：2.

2017-03-11 18:14:04 797

转载生成模型与判别模型

参考:http://blog.csdn.net/zouxy09/article/details/8195017生成模型与判别模型zouxy09@qq.comhttp://blog.csdn.net/zouxy09 一直在看论文的过程中遇到这个问题，折腾了不少时间，然后是下面的一点理解，不知道正确否。若有错误，还望各位前辈不吝指正，以免小弟一错再错。在此谢

2017-03-11 09:20:29 207

转载从item-base到svd再到rbm，多种Collaborative Filtering(协同过滤算法)从原理到实现

参考:http://blog.csdn.net/dark_scope/article/details/17228643〇.说明本文的所有代码均可在 DML 找到，欢迎点星星。一.引入推荐系统（主要是CF）是我在参加百度的电影推荐算法比赛的时候才临时学的，虽然没拿什么奖，但是知识却是到手了，一直想写一篇关于推荐系统的文章总结下，这次借着完

2017-03-11 01:40:30 395

Postman-REST-Client_v0.8.1.crx

vimium.crx

scrt-8.0.4-1252.rhel7-64.x86_64.rpm

空空如也