yongjian_luo-CSDN博客

转载 <转>全球100款大数据工具汇总

作者：小维斗　　1、 Talend Open Studio　　是一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团(AIG)、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组

2017-07-10 14:08:26 783

转载 <转>人工智能相关术语中英文对照

缩写英语汉语 A Activation Function激活函数 Adversarial Networks对抗网络 Affine Layer仿射层 agent代理/智能体 algorithm

2017-06-22 15:58:49 2991

转载 <转>这10本由浅入深的好书，或让你成为机器学习领域的专家

这10本由浅入深的好书，或让你成为机器学习领域的专家　　文章为简译，更为详细的内容，请查看原文：The Best Machine Learning Books To Go From Novice To Expert　　以下为译文：　　机器学习是个跨领域的学科，而且在实际应用中有巨大作用，但是没有一本书能让你成为机器学习的专家。

2017-06-07 15:38:49 857

Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解 RDD、Shuff

2017-03-31 14:35:01 1274 2

转载 <转> Hive bucket~

hive中table可以拆分成partition，table和partition可以通过‘CLUSTERED BY ’进一步分bucket，bucket中的数据可以通过‘SORT BY’排序。bucket主要作用：1. 数据sampling2. 提升某些查询操作效率，例如mapside join需要特别注意的是：clustered by和sorted by不会影响数据的导入，这意味

2017-03-30 15:54:47 533

转载 <转>当MongoDB遇见Spark

适宜读者人群正在使用Mongodb的开发者传统Spark生态系统和 MongoDB在Spark生态的角色传统Spark生态系统Spark生态系统那么Mongodb作为一个database, 可以担任什么样的角色呢? 就是数据存储这部分, 也就是图中的黑色圈圈HDFS的部分, 如下图用MongoDB替换HDFS后的Spark生态系统

2017-03-27 10:25:57 1571

转载 <转>SparkSQL – 从0到1认识Catalyst

最近想来，大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验，弱势在于分布式领域的高可用性、容错性、扩展性等，假以时日，让其经过一定的改造，比如引入Paxos、raft等，强化自己在分布式领域的能力，相信一定会在大数据系统中占有一席之地。相反，大数据相关技术优势在于其天生的扩展性、可用性、容错性等，但其SQL优化器经验却基本全部来自于传统

2017-03-15 14:00:21 471

转载 <转>详解开源大数据引擎Greenplum的架构和技术特点

本文介绍了大数据引擎Greenplum的架构和部分技术特点。从GPDB基本背景开始，在架构的层面上讲解GPDB系统内部各个模块的概貌，然后围绕GPDB的自身特性、并行执行和运维等技术细节，阐述了为什么选择Greenplum作为下一代的查询引擎解决方案。Greenplum的MPP架构Greenplum（以下简称GPDB）是一款开源数据仓库，基于开源的PostgreSQL改造而来，主要

2017-03-15 11:42:21 1436

转载 <转>Spark执行模式解析

摘要：本文主要讲了Spark几种不同的执行模式以及其原理一、执行模式提交脚本常见的语法：[plain] view plain copy ./bin/spark-submit \ --class --master \ --deploy-mode \ --conf = \ ... #

2017-03-08 09:38:56 375

转载 <转>Kubernetes Web UI搭建

Kubernetes Web UI搭建这节我以搭建Kubernetes Web UI（kubernetes-dashboard）来简要演示如何使用Docker私有库。由于我的Kubernetes集群无法直接从gcr.io拉取kubernetes-dashboard的镜像，我事先下载了镜像文件并使用docker load命令加载镜像：# docker load < kub

2017-03-01 16:40:00 1714

转载 <转>kubernetes集群中部署kube-ui

部署kube-ui的环境：Docker版本：由2台虚机组成的kubernetes集群。master（192.168.246.130）minion（192.168.246.130,192.168.246.132） 192.168.246.126：是自己搭建的私有docker镜像仓库部署kube-ui的步骤：

2017-03-01 16:25:12 491

转载 <转> kubernetes 1.3 的安装和集群环境部署

简介：Docker：是一个开源的应用容器引擎，可以为应用创建一个轻量级的、可移植的、自给自足的容器。Kubernetes：由Google开源的Docker容器集群管理系统，为容器化的应用提供资源调度、部署运行、服务发现、扩容缩容等功能。Etcd：由CoreOS开发并维护的一个高可用的键值存储系统,主要用于共享配置和服务发现。Flannel：Flannel是 Co

2017-03-01 16:09:44 365

转载 <转>雅虎开源TensorflowOnSpark，Ubuntu配置安装TensorflowOnSpark

一、引言 Yahoo在2016年2月左右开源了基于Spark／Hadoop的分布式深度学习框架—CaffeOnSpark，CaffeOnSpark被设计成为一个Spark深度学习包，Spark MLlib支持各种非深度学习算法用于分类、回归、聚类、推荐等，但目前缺乏深度学习这一关键能力，而CaffeOnSpark旨在填补这一空白。CaffeOnSpark API支持dataframes，以

2017-02-24 11:23:56 420

转载 <转>开源工作流--Azkaban与Oozie对比

功能二者都可以调度mapreduce,pig,java,脚本工作流任务二者都可以定时履行工作流任务工作流定义Azkaban使用Properties文件定义工作流Oozie使用XML文件定义工作流工作流传参Azkaban支持直接传参，例如${input}Oozie支持参数和EL表达式，例如${fs:dirSize(myInputDir)}定时履行A

2017-02-20 15:41:10 1035

转载 <转>创建支持SSH服务的Docker镜像

2015-01-18 wcdj摘要：通常Linux系统管理员通过SSH服务来管理OS，但Docker的很多镜像是不带SSH服务的，可以通过attach（遇到假死的现象）或者exec（目前测试ok）的方法进入容器来管理，但是这些命令都无法解决远程管理容器的问题，因此，当需要远程登陆到容器内进行一些操作的时候，就需要SSH的支持了。本文记录如何使用docker commit创建一个带有SS

2017-02-17 14:01:05 341

转载 <转>【重磅干货整理】机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总

原文出处：http://blog.csdn.net/zhongwen7710/article/details/45331915介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Overview》介绍:这是瑞士

2017-02-13 14:46:50 2853

转载 <转>推荐系统中基于深度学习的混合协同过滤模型

近些年，深度学习在语音识别、图像处理、自然语言处理等领域都取得了很大的突破与成就。相对来说，深度学习在推荐系统领域的研究与应用还处于早期阶段。携程在深度学习与推荐系统结合的领域也进行了相关的研究与应用，并在国际人工智能顶级会议AAAI 2017上发表了相应的研究成果《A Hybrid Collaborative Filtering Model with Deep Structure for

2017-01-24 15:14:08 1231

转载 <转>斯坦福大学Andrew Ng教授主讲的《机器学习》公开课观后感

近日，在网易公开课视频网站上看完了《机器学习》课程视频，现做个学后感，也叫观后感吧。学习时间从2013年7月26日星期五开始，在网易公开课视频网站上，观看由斯坦福大学Andrew Ng教授主讲的计算机系课程（编号CS229）《机器学习》（网址http://v.163.com/special/opencourse/machinelearning.html）（注：最早是在新浪公开课上

2017-01-23 15:23:20 558

转载 <转>Spark Mllib逻辑回归算法分析

一、代码结构逻辑回归代码主要包含三个部分1 、 classfication ：逻辑回归分类器2 、 optimization ：优化方法，包含了随机梯度、LBFGS两种算法3 、 evaluation ：算法效果评估计算二、逻辑回归分类器1 、 LogisticRegressionModel 类(1) 根据训练数据集得到的weight

2017-01-22 10:49:06 514

转载 <转>【DataFrame】数据离散化重组

离散化的原始数据来自 Spark 源码包，离散化函数选用 spark ml 包中的 Bucketizer 方法。[java] view plain copypackage ethink import org.apache.spark.sql.SQLContext import org.apache.spark.SparkC

2017-01-18 20:05:01 1812

转载 <转>使用spark ml pipeline进行机器学习

一、关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程1、源数据ETL2、数据预处理3、特征选取4、模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的流水线式工作，从数据收集开始至输出我们需要的最终结果。因此，对以上多个步骤、进行抽象建模，简化为流水线式工作流程则存在着可行性，对利用spark进行机器学习的用户来

2017-01-17 16:40:57 454

转载 <转> 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载请注明：转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛，就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主，在打算

2017-01-13 10:16:32 937

转载 <转> 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载请注明：转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛，就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主，在打算

2017-01-13 10:14:49 1461

转载 <转> Spark 线性代数库 Breeze API 详解

转载请标明出处：小帆的帆的专栏运算加，减，乘，除向量与向量加：+减：-乘：:*除：:/规则1:乘除前面，加冒号；单独的乘号和除号分别表示点积和线性求解规则2:累加效果，加等号import breeze.linalg.DenseVectorobject Test { def main(args: Array[String]) { va

2017-01-12 18:01:18 675

转载 <转>Spark Mllib逻辑回归算法分析

原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3816289.html 本文以spark 1.0.0版本MLlib算法为准进行分析一、代码结构逻辑回归代码主要包含三个部分1、classfication：逻辑回归分类器2、optimization：优化方法，包含了随机梯度、LBFGS两种算法

2017-01-12 17:56:31 919

转载 <转>Spark MLlib 数据预处理－特征变换（二）

作者：刘玲源链接：https://zhuanlan.zhihu.com/p/24069545来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。算法介绍：VectorIndexer解决数据集中的类别特征Vector。它可以自动识别哪些特征是类别型的，并且将原始值转换为类别指标。它的处理流程如下：1.获得一个向量类型的输入以及maxCategor

2017-01-12 14:19:59 2461

转载 <转>关于SparkMLlib的基础数据结构Spark-MLlib-Basics

此部分主要关于MLlib的基础数据结构1、本地向量MLlib的本地向量主要分为两种，DenseVector和SparseVector，顾名思义，前者是用来保存稠密向量，后者是用来保存稀疏向量，其创建方式主要有一下三种（三种方式均创建了向量(1.0, 0.0, 2.0）：[plain] view plain copyimport o

2017-01-11 12:06:14 350

转载 <转>Spark-Mllib 数据类型

一.本地向量　　有如下几个类: Vector(基类),DenseVector,SparseVector,Vectors(工厂方法,推荐用)工厂模式是：定义一个用于创建对象的接口，让子类决定实例化哪一个类，使一个类的实例化延迟到子类import org.apache.spark.mllib.linalg.{Vectors,Vector} # linalg is shor

2017-01-11 11:50:25 364

转载 <转>Spark机器学习库（MLlib）指南

spark-1.6.1机器学习库（MLlib）指南MLlib是Spark的机器学习（ML）库。旨在简化机器学习的工程实践工作，并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。MLllib目前分为两个代码包：spark.mllib 包含基于RDD的原始算法API。spark

2017-01-11 11:42:41 990

转载 <转>Spark 学习笔记：MLlib基础

MLlib：Machine Learning Library。主要内容包括：数据类型统计工具summary statisticscorrelationsstratified samplinghypothesis testingrandom data generation 分类和回归线性模型（SVM，逻辑回归，线性回归）朴素贝叶斯决策树ense

2017-01-11 11:41:52 341

转载 <转>关于SparkMLlib的基础数据结构Spark-MLlib-Basics

此部分主要关于MLlib的基础数据结构1、本地向量MLlib的本地向量主要分为两种，DenseVector和SparseVector，顾名思义，前者是用来保存稠密向量，后者是用来保存稀疏向量，其创建方式主要有一下三种（三种方式均创建了向量(1.0, 0.0, 2.0）：[plain] view plain copyimport o

2017-01-11 11:23:13 305

转载 <转>spark下线性模型 spark.mllib

我还是参考官方的文档来写这个部分，顺便梳理下原理，给出对应代码及运行结果，一点也不复杂。数学公式许多的机器学习的算法实际上可以被写成凸优化的问题，比如说寻找凸函数f的极小值，它取决于权重向量ｗ，那么我们可以将优化目标函数写成：这里xi∈Rd是训练数据，yi∈R是它们对应的标签，线性方法可以表示成L(w;x,y)，有几类mllib中的分类和回归算法都可以归为这一类。

2017-01-10 17:17:38 325

转载 <转>Spark中组件Mllib的学习26之逻辑回归-简单数据集，带预测

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之逻辑回归篇 1解释什么是逻辑回归？Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalizedlinear mode

2017-01-10 14:33:32 407

转载 <转>逻辑回归LR的特征为什么要先离散化

在工业界，很少直接将连续值作为特征喂给逻辑回归模型，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：1. 稀疏向量内积乘法运算速度快，计算结果方便存储，容易scalable（扩展）。2. 离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰。3.

2017-01-06 18:14:02 1030

转载 <转>Spark 生态系统组件

Spark 生态系统以Spark Core 为核心，能够读取传统文件（如文本文件）、HDFS、Amazon S3、Alluxio 和NoSQL 等数据源，利用Standalone、YARN 和Mesos 等资源调度管理，完成应用程序分析与处理。这些应用程序来自Spark 的不同组件，如Spark Shell 或Spark Submit 交互式批处理方式、Spark Streaming 的实时流处理

2017-01-04 11:15:57 1331

转载 <转>Spark的调度策略详解

摘要： Spark的调度策略 Spark目前有两种调度策略，一种是FIFO即先来先得，另一种是FAIR即公平策略。所谓的调度策略就是对待调度的对象进行排序，按照优先级来进行调度。调度的排序接口如下所示，就是对两个可调度的对象进行比较。 private[spark] trait SchedulingAlgo...Spark的调度策略Spark目前有两种调度策略，一种是FIFO

2017-01-03 09:32:07 431

转载 <转>Spark机器学习6·聚类模型

Spark机器学习K-均值(K-mean)聚类目的：最小化所有类簇中的方差之和类簇内方差和(WCSS,within cluster sum of squared errors)fuzzy K-means层次聚类(hierarchical culstering)凝聚聚类(agglomerative clustering)分列式聚类(divisive clustering

2017-01-03 09:31:26 463

转载 <转>深入理解Spark RDD抽象模型和编写RDD函数

深入理解Spark RDD抽象模型和编写RDD函数Spark revolves around the concept of a resilient distributed dataset (RDD), which is an immutable , fault-tolerant , partitioned collection of elements that can be opera

2016-12-27 10:34:26 728

转载 <转>基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载请注明：转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛，就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主，在打算

2016-12-27 10:32:38 777

转载 <转>基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载请注明：转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛，就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主，在打算

2016-12-27 10:30:48 1992 1

Hadoop_eclipse-plugin编译方法

clementine基础培训一

Hbase入门与使用

clementine的中文教程

空空如也