2017年02月_xbmatrix

转载 Java虚拟机学习 - 垃圾收集器

参考：http://blog.csdn.net/java2000_wl/article/details/8030172HotSpot JVM收集器上面有7中收集器，分为两块，上面为新生代收集器，下面是老年代收集器。如果两个收集器之间存在连线，就说明它们可以搭配使用。Serial(串行GC)收集器Serial收集器是一个

2017-02-28 23:59:44 181

转载 Java虚拟机学习 - 垃圾收集算法

参考：http://blog.csdn.net/java2000_wl/article/details/8022293跟踪收集器跟踪收集器采用的为集中式的管理方式，全局记录对象之间的引用状态，执行时从一些列GC Roots的对象做为起点，从这些节点向下开始进行搜索所有的引用链，当一个对象到GC Roots 没有任何引用链时，则证明此对象是不可用的。下图中，对象Objec

2017-02-28 23:58:42 196

转载 Java虚拟机学习 - 对象访问

参考：http://blog.csdn.net/java2000_wl/article/details/8015105对象访问会涉及到Java栈、Java堆、方法区这三个内存区域。如下面这句代码：[java] view plain copy print?Object objectRef = new Object();

2017-02-28 23:56:05 222

转载 Java虚拟机学习 - JVM内存区域模型:

参考：http://blog.csdn.net/java2000_wl/article/details/8009362JVM内存区域模型1.方法区也称"永久代” 、“非堆”，它用于存储虚拟机加载的类信息、常量、静态变量、是各个线程共享的内存区域。默认最小值为16MB，最大值为64MB，可以通过-

2017-02-28 22:30:37 232

转载内存泄露，java.util.concurrent包

参考：http://blog.csdn.net/cmershen/article/details/5185273919.Java有没有内存泄露？当然有了。。。DTSJava模块中还有MLF缺陷呢~~不过DTS里面能报出的内存泄露十分片面，接下来我们全面的了解一下Java的内存泄露。首先，什么叫内存泄露？就是一个对象已经不再使用，但却仍然占据着内存得不到释放。虽然JVM获得的物理

2017-02-27 23:54:45 692

转载 String/StringBuffer/StringBuilder，Java序列化，线程安全,线程同步，ThreadLocal

参考：http://blog.csdn.net/cmershen/article/details/5179904011.String，StringBuffer，StringBuilder的区别（1）都是final的，不能被继承。（2）String长度不可变，另外两个长度是可变的（例如StringBuffer有append方法） (3)StringBuffer是线程同步

2017-02-27 23:47:11 696

转载 static/final，HashMap/Hashtable/ConcurrentHashMap

参考：http://blog.csdn.net/cmershen/article/details/517746447. static和final的用法static可以修饰变量，方法，代码块。 static修饰的变量在内存中只有一份，在类加载的时候被完成初始化，且被该类的所有实例共享。 static修饰的方法必须实现，不能用abstract修饰。 static修饰

2017-02-27 23:46:24 627

转载 Spark性能优化：数据倾斜调优

参考：http://blog.csdn.net/u012102306/article/details/51556450前言继《Spark性能优化：开发调优篇》和《Spark性能优化：资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题

2017-02-27 23:39:14 266

转载浅析 Hadoop 中的数据倾斜

参考：http://blog.csdn.net/core_cto/article/details/8644692最近几次被问到关于数据倾斜的问题，这里找了些资料也结合一些自己的理解. 在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大，但是集群中可能硬件不同，应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时

2017-02-27 23:35:14 266

转载集成模型的五个基础问题

参考：http://www.csdn.net/article/1970-01-01/2825965引言如果你曾经参加过数据科学竞赛，你一定意识到集成模型（Ensemble Modeling）举足轻重的作用。事实上，集成模型提供了最有说服力的方式之一，来建立高度精确的预测模型。Bagging和Boosting算法进一步加强了这一方法的精确性。所以，你下次构建预测模型的

2017-02-27 23:19:55 664

转载随机森林（Random Forest）入门与实战

参考：http://blog.csdn.net/sb19931201/article/details/52601058随机森林（Random Forest）入门与实战前言集成学习（ensemble learning）是通过构建并结合多个学习器来完成学习任务，主要包含两类，一是个体学习器间存在强依赖关系、必须串行生成的序列化方法，比如前几篇博文介绍提升学习方法、提升树

2017-02-27 23:17:21 981

转载 XGBoost 与 Boosted Tree

参考：http://www.52cs.org/?p=429作者：陈天奇，毕业于上海交通大学ACM班，现就读于华盛顿大学，从事大规模机器学习研究。注解：truth4sex 编者按：本文是对开源xgboost库理论层面的介绍，在陈天奇原文《梯度提升法和Boosted Tree》的基础上，做了如下注解：1）章节划分；2）注解和参考链接（以蓝色和红色字体标注）。备注：图片可点击

2017-02-27 23:01:27 641

转载提升树GBDT 详解

参考：http://blog.csdn.net/sb19931201/article/details/52506157参考资料及博客：李航《统计学习方法》 Gradient Boosting wiki GBDT理解二三事 GBDT（MART）迭代决策树入门教程 | 简介前言For Xgboost:在前几篇笔记中以及详细介绍了决策树及提升方法

2017-02-27 22:58:59 799

转载 GBDT理解二三事

参考：http://blog.csdn.net/w28971023/article/details/43704775一、要理解GBDT当然要从GB(Gradient Boosting)和DT(Decision Tree)两个角度来理解了；二、GB其实是一种理念，他并不是这一个具体的算法，意思是说沿着梯度方向，构造一系列的弱分类器函数，并以一定权重组合起来，形成最终决策的强分类器

2017-02-27 22:20:46 212

转载 GBDT（MART）迭代决策树入门教程 | 简介

参考：http://blog.csdn.net/w28971023/article/details/8240756在网上看到一篇对从代码层面理解gbdt比较好的文章，转载记录一下： GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是

2017-02-27 21:42:35 201

转载提升方法AdaBoost算法学习笔记

参考：http://blog.csdn.net/sb19931201/article/details/52425487提升方法AdaBoost算法学习笔记前言For xgboost：为了好好学习xgboost，由于算法基础比较薄弱，曲线救国，从提升方法、提升树、GBDT一步步看起。手头有李航老师的《统计学习方法》以及周志华老师的西瓜书。对比来看，感觉李航

2017-02-27 21:38:00 628

转载决策树--从原理到实现

参考：http://blog.csdn.net/dark_scope/article/details/13168827================================================================================算算有相当一段时间没写blog了，主要是这学期作业比较多，而且我也没怎么学新的东西接下来打算实现一个小的t

2017-02-27 21:34:15 328

原创 TF-IDF的原理与应用

参考：http://www.codeceo.com/article/tf-idf.html……1.TF-IDF原理TF-IDF(Term Frequency-Inverse Document Frequency)，中文叫做词频－逆文档频率。在文本挖掘(Text Mining)和信息检索(Information Retrieval)领域具有广泛的应用。其难能可贵之处在

2017-02-27 20:37:34 1799

转载项亮推荐系统实战读书笔记

1. 好的推荐系统1.1 构成。前台展示页面、后台日志系统、推荐算法1.2 应用。电子商务。个性化推荐列表、相关列表推荐电影和视频网站个性化音乐网络电台。用户没有明确需求社交网络。利用用户的社交网络信息对用户进行个性化的物品推荐信息流的会话推荐;给用户推荐好友个性化阅读基于位置的服务。上下文感知。个性化邮件个性化广告1.3 推荐系统评测

2017-02-26 23:55:08 657

转载连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？

参考：https://www.zhihu.com/question/31989952以下内容来源于跟几位大牛交流的结果并加入了一定自己的理解。在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：0. 离散特征的增加和减少都很容易，易于模型的快速迭代；1. 稀疏向量内积乘法运算速度快，计算结

2017-02-23 23:51:45 1091

转载为什么一些机器学习模型需要对数据进行归一化？

参考：http://www.cnblogs.com/LBSer/p/4440590.htmlhttp://www.cnblogs.com/jasonfreak/p/5448385.html机器学习模型被互联网行业广泛应用，如排序（参见：排序学习实践）、推荐、反作弊、定位（参见：基于朴素贝叶斯的定位算法）等。一般做机器学习应用的时候大部分时间是花费在特征处理上，其中很关键的一步就

2017-02-23 23:42:25 6478

原创信息、信息熵、条件熵、信息增益、信息增益比、基尼系数、相对熵、交叉熵

原文：http://www.cnblogs.com/fantasy01/p/4581803.html?utm_source=tuicool关于对信息、熵、信息增益是信息论里的概念，是对数据处理的量化，这几个概念主要是在决策树里用到的概念，因为在利用特征来分类的时候会对特征选取顺序的选择，这几个概念比较抽象，我也花了好长时间去理解(自己认为的理解),废话不多说，接下来开始对这几个概念解释

2017-02-23 23:29:32 15028

转载机器学习算法常用指标总结

参考：http://www.cnblogs.com/maybe2030/p/5375175.html阅读目录1. TPR、FPR&TNR2. 精确率Precision、召回率Recall和F1值3. 综合评价指标F-measure4. ROC曲线和AUC5. 参考内容　　考虑一个二分问题，即将实例分成正类（positive）或负类（neg

2017-02-23 22:50:50 603

转载拉格朗日乘数法

参考：http://www.cnblogs.com/maybe2030/p/4946256.html阅读目录1. 拉格朗日乘数法的基本思想2. 数学实例3. 拉格朗日乘数法的基本形态4. 拉格朗日乘数法与KKT条件　　拉格朗日乘数法（Lagrange Multiplier Method）之前听数学老师授课的时候就是一知半解，现在越发感觉拉格朗

2017-02-23 22:48:11 796

转载 Hadoop DistributedCache详解

参考：http://dongxicheng.org/mapreduce-nextgen/hadoop-distributedcache-details/DistributedCache是Hadoop提供的文件缓存工具，它能够自动将指定的文件分发到各个节点上，缓存到本地，供用户程序读取使用。它具有以下几个特点：缓存的文件是只读的，修改这些文件内容没有意义；用户可以调整文件可见范围（比如只能用户自

2017-02-23 22:38:13 392

转载常见的几种最优化方法

参考：http://blog.csdn.net/majinlei121/article/details/47260917http://mp.weixin.qq.com/s?__biz=MzI5NzA3NjIwMA==&mid=2247483799&idx=1&sn=12c549869e05efa17aeb2bd3e4cd03f3&mpshare=1&scene=1&srcid=0222ltGc

2017-02-23 21:55:50 55337

转载 MapReduce 编程模型概述

原文：http://www.aboutyun.com/thread-7078-1-1.html本文合适和对mapreduce有一定了解，并且产生各种问题的同学，算是一个解惑篇。如果刚接触的话，这篇文章很有可能看不下去。建议先了解Hadoop简介(1):什么是Map/ReduceMapReduce 编程模型概述mapreduce是hadoop的核心之一，mapredu

2017-02-23 21:40:17 779

转载 Hadoop中两表JOIN的处理方法

参考：http://dongxicheng.org/mapreduce/hadoop-join-two-tables/1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法

2017-02-23 21:39:11 478

转载 MapReduce的Shuffle过程介绍

参考：http://blog.itpub.net/29754888/viewspace-1704959/Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程？我们都知道Map

2017-02-23 21:37:48 339

转载 MapReduce:详解Shuffle过程

参考：http://langyu.iteye.com/blog/992916/** * author : 冶秀刚 * mail : dennyy99@gmail.com */ Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里

2017-02-23 21:35:03 228

转载十分钟搞定pandas

原文：http://www.cnblogs.com/chaosimple/p/4153083.html本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译，原文在这里。这篇文章是对pandas的一个简单的介绍，详细的介绍请参考：Cookbook 。习惯上，我们会按下面格式引入所需要的包：一、创建对象可以通过 Data

2017-02-22 23:34:45 653

转载常见面试之机器学习算法思想简单梳理

参考：http://www.cnblogs.com/tornadomeet/p/3395593.html前言：　　找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣的话，可以考虑考虑该岗位，毕竟在机器智能没达到人类水平之前，机器学习可以作为一种重要手段，

2017-02-22 23:33:08 504

转载使用sklearn做单机特征工程

参考：http://www.cnblogs.com/jasonfreak/p/5448385.html目录1 特征工程是什么？2 数据预处理　　2.1 无量纲化　　　　2.1.1 标准化　　　　2.1.2 区间缩放法　　　　2.1.3 标准化与归一化的区别　　2.2 对定量特征二值化　　2.3 对定性特征哑编码　　2.4 缺失值计算　　2

2017-02-22 23:29:43 388

转载机器学习常见的算法面试题总结

参考：https://bbs.aliyun.com/read.php?spm=5176.100258.100258.9.8icSkL&tid=294564&displayMode=1&page=1&toread=1#tpc朴素贝叶斯P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)所以有：P(A|B)=P(B|A)*P(A)/P(B)对于给出的待分类项，求解在

2017-02-22 23:27:23 2655

转载数据挖掘中所需的概率论与数理统计知识

原文：http://blog.csdn.net/v_july_v/article/details/8308762数据挖掘中所需的概率论与数理统计知识（关键词：微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布）导言：本文从微积分相关概念，梳理到概率论与数理统计中的相关知识，但本文之压轴戏在本文第4节（彻底颠覆以前读书时大学课

2017-02-22 23:14:14 748

转载机器学习中的损失函数

参考：http://blog.csdn.net/rosenor1/article/details/52302217[-]一log对数损失函数逻辑回归二平方损失函数最小二乘法 Ordinary Least Squares三指数损失函数Adaboost四Hinge损失函数SVM五其它损失函数损失函数（loss function）是用来估量你模型的预测值f(x

2017-02-22 23:07:07 852

Postman-REST-Client_v0.8.1.crx

vimium.crx

scrt-8.0.4-1252.rhel7-64.x86_64.rpm

空空如也