zyj8170-CSDN博客

转载大数据环境下该如何优雅地设计数据分层

0x00 前言最近出现了好几次同样的对话场景：问：你是做什么的？答：最近在搞数据仓库。问：哦，你是传统行业的吧，我是搞大数据的。答：……发个牢骚，搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司，都需要对数据仓库有一定的重视，而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式，它是一整套包括了etl、调度、建模在内的完整的理论体系。...

2018-02-23 16:34:53 493 1

原创 ldap服务器搭建

1、linux 环境参考：通过运行 lsb_release -aLSB Version: :core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noarchDistributor ID: RedHatEnterpriseServer

2017-12-14 17:04:25 800

转载 kylin与superset集成实现数据可视化

Apache kylin是一个开源分布式引擎，提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。而superset是airbnb开源的一款数据可视化工具。kylin在超大数据规模下仍然可以提供秒级甚至毫秒级sql响应的OLAP多维分析查询服务。而且对服务器内存的要求也不像spark sql那么高，经过多方面的优化，数据膨胀率甚至可以控制在100%以内。它利用

2017-10-26 17:27:21 2726

转载 SSL 与数字证书的基本概念和工作原理

前言SSL是让人头大的东西，看起来很复杂，我学过信息安全课，但是对SSL仍然是模糊一片。对于数字证书也是一知半解，从来没有去认真研究过。只知道个大概，“反正就是对称加密和非对称加密”，详细的就不懂了。其实这些跟操作系统，计算机体系结构一样，是基础知识，即使你不是专门研究信息安全的，即使你平时用不到，这些东西也应该是必须了解的~ It’s not rocket science!我这篇

2017-09-20 14:34:25 565

编者按：Hadoop于2006年1月28日诞生，至今已有10年，它改变了企业对数据的存储、处理和分析的过程，加速了大数据的发展，形成了自己的极其火爆的技术生态圈，并受到非常广泛的应用。在2016年Hadoop十岁生日之际，InfoQ策划了一个Hadoop热点系列文章，为大家梳理Hadoop这十年的变化，技术圈的生态状况，回顾以前，激励以后。本文整理自去年4月份的QCon大会演讲“以Hadoop为核

2017-08-28 18:12:46 1056

转载 redis漏洞

听到朋友说接到阿里云的报障，提示黑客把他的服务器当肉鸡了，当时有点怕怕，继而官方的网络带宽也爆了进而系统处于瘫痪，当时我需要帮他处理这个问题1 在没有查到杀手之前我是先把带宽&端口用iptables 做了限制这样能保证我能远程操作服务器才能查找原因 2 在各种netstat –ntlp 的查看下没有任何异常在top 下查到了有异常进程还有些异常的这里就截图

2017-07-31 16:25:56 1286

原创编译安装Ambari2.5.0

1.需要安装的工具1.1 安装JDK 推荐1.81.2 安装Apache Maven 3.3.9设置环境变量# vi /etc/profileexport MAVEN_HOME="/opt/maven"export path=$path: $MAVEN_HOME/bin1.3 安装rpmbuild1）检测rpm-

2017-05-23 18:25:58 2909 2

转载 hadoop开源工具大集合

弗雷斯特调研公司的分析师Mike Gualtieri最近预测，在接下来几年，“100%的大公司”会采用Hadoop。Market Research的一份报告预测，到2011年，Hadoop市场会以58%的年复合增长率(CAGR)高速增长；到2020年，市场产值会超过10亿美元。IBM更是非常看好开源大数据工具，派出了3500名研究人员开发Apache Spark，这个工具是Ha

2017-05-23 09:59:47 4300

原创 pentaho7.0将数据库移植成mysql

Pentaho 内置数据是 hsql. 数据库。那我们如何换掉移植成 mysql ？思想：移植的条件：1. 首先要有一个 mysql 数据。2. 将 pentaho 的启动配置连接到 mysql 上。我现在做一个将 pentaho7.0 数据库移植的例子。1. 首先在 pentaho-server/data/mysql5 文件夹下将里面

2017-05-12 16:09:39 1520

原创 Hive ROW_NUMBER,RANK(),DENSE_RANK()

准备数据浙江,杭州,300浙江,宁波,150浙江,温州,200浙江,嘉兴,100江苏,南京,270江苏,苏州,299江苏,某市,200江苏,某某市,100 创建表CREATE table pcp(province string,city string,people int)ROW FORMAT

2017-05-04 10:59:37 320

转载基于 Kylin 的推荐系统效果评价系统

OLAP（联机分析处理）是数据仓库的主要应用之一，通过设计维度、度量，我们可以构建星型模型或雪花模型，生成数据多维立方体Cube，基于Cube可以做钻取、切片、旋转等多维分析操作。早在十年前，SQL Server、Oracle 等数据库软件就有OLAP产品，为用户提供关系数据库、多维数据集、可视化报表的整套商业智能方案。（本科毕业设计就是做OLAP分析，对相关理论和实践有兴趣的可以参阅我的论文，

2017-05-03 15:36:48 2021

转载使用JDBC向MySQL数据库批次插入10W条数据测试效率

使用JDBC连接MySQL数据库进行数据插入的时候，特别是大批量数据连续插入（100000），如何提高效率呢？在JDBC编程接口中Statement 有两个方法特别值得注意：通过使用addBatch（）和executeBatch（）这一对方法可以实现批量处理数据。不过值得注意的是，首先需要在数据库链接中设置手动提交，connection.setAutoCommit(false)，然后在

2017-03-15 20:06:41 1108

转载 Presto安装与配置

Presto是一个运行在多台服务器上的分布式系统。完整安装包括一个coordinator（调度节点）和多个worker。由客户端提交查询，从Presto命令行CLI提交到coordinator。 coordinator进行解析，分析并执行查询计划，然后分发处理队列到worker目录：环境基本要求集群规划连接器安装步骤config.propertiesnode.propertie

2017-03-09 09:49:10 14494

转载 Presto架构及原理

Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎，可对从数 G 到数 P 的大数据进行交互式的查询，查询的速度达到商业数据仓库的级别，据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品，单个 Presto 查询可合并来自多个数据源的数据进行统一分析。Presto 的目标

2017-03-09 09:47:42 2187 1

原创 Spark on YARN配置日志Web UI

Spark部署在YARN之后，从Standalone模式下的Spark Web UI直接无法看到执行过的application日志，不利于性能分析。得益于实验室师弟的帮忙，本文记录如何配置history UI。修改spark-defaults.confspark.eventLog.enabled=truespark.eventLog.compress=truespark.e

2017-02-27 17:42:26 5407

原创 redhat下pyspider安装

1、软件环境python 2.7.1pip已安装linux redhat 6.5企业版2、安装依赖yum install libxml2 libxml2-dev libxslt-devel 3、下载pyspider源码https://github.com/binux/pyspider/tags解压用python setup.py install 安装即可

2016-12-28 11:26:37 601

转载 pyspider 爬虫教程

pyspider 爬虫教程（一）：HTML 和 CSS 选择器虽然以前写过如何抓取WEB页面和如何从 WEB 页面中提取信息。但是感觉还是需要一篇 step by step 的教程，不然没有一个总体的认识。不过，没想到这个教程居然会变成一篇译文，在这个爬虫教程系列文章中，会以实际的例子，由浅入深讨论爬取（抓取和解析）的一些关键问题。在教程一中，我们将要爬取的网站是

2016-12-26 15:16:19 2213

原创 hive中join操作

笼统的说，Hive中的Join可分为Common Join（Reduce阶段完成join）和Map Join（Map阶段完成join）。本文简单介绍一下两种join的原理和机制。如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join,即：在Reduce阶段完成join.整个过程包含Map、Shuffle、Reduce阶

2016-12-22 17:51:12 539

转载 MapReduce:详解Shuffle过程

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方。要想理解MapReduce， Shuffle是必须要了解的。我看过很多相关的资料，但每次看完都云里雾里的绕着，很难理清大致的逻辑，反而越搅越混。前段时间在做MapReduce job 性能调优的工作，需要深入代码研究MapReduce的运行机制，这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火，所以在这里

2016-12-22 17:10:02 310

转载 Presto 来自Facebook的开源分布式查询引擎

PrestoDB 来自Facebook的开源分布式查询引擎Presto是一个分布式SQL查询引擎，它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL，包括复杂查询、聚合（aggregation）、连接（join）和窗口函数（window functions)。下图中展现了简化的Presto系统架构。客户端（client）将SQL查询发送到Presto的协调员（

2016-12-21 15:44:37 496

原创其他技术人员播客地址整理

1、乐视祝海林，主要是spark，kafkahttp://www.jianshu.com/users/59d5607f1400/latest_articles

2016-12-14 09:41:45 586

原创 hadoop2.7.1下httpfs命令整理

支持httfs前提，增加配置 hadoop.proxyuser.yarn.hosts * hadoop.proxyuser.yarn.groups * 修改httpfs-env.sh 主要修改日志路径# export HTTPFS_LOG=${HTTPFS_HOME}/logs expo

2016-12-13 18:36:26 1403

原创 django 环境搭建

一、版本选择1、python版本 2.7.32、django 1.6.53、linux 版本 Description: Red Hat Enterprise Linux Server release 6.5 (Santiago) 5.x版本安装mysql-python 失败，应该需要升级gcc解决原因：python 在linxu的默认版本是2.6.6，但python

2016-12-02 10:24:23 400

原创 Cloudera Manager 5和CDH5离线安装

一、相关软件准备及规划1、相关软件及下载地址：Cloudera Manager：http://archive-primary.cloudera.com/cm5/cm/5/CDH安装包地址：http://archive.cloudera.com/cdh5/parcels/latest/JAVA官方下载（需登陆）：http://www.oracle.com/techne

2016-11-23 18:25:21 2291

转载 Kylin性能调优记——业务技术两手抓

Kylin性能调优记——业务技术两手抓时间 2016-11-14 10:37:39 比特科技原文 http://www.bitstech.net/2016/11/14/kylin性能调优记-业务技术两手抓/主题技术背景最近开始使用了新版本的Kylin，在此之前对于新版本的了解只是代码实现和一些简单的新功能测试，但是并没有导入实际场景的数据做分析和查

2016-11-15 15:46:11 331

转载大数据分析界的“神兽”Apache Kylin有多牛？

本文是5月23日大数据杂谈群分享的内容。关注“大数据杂谈”公众号，点击“加群学习”，更多大牛一手技术分享等着你。实习编辑：Melody大家好，我是今天做微信分享的李栋，来自Kyligence公司，也是Apache Kylin Committer & PMC member，在加入Kyligence之前曾就职于eBay、微软。今天分享的主题是：聊聊“神兽”Apache

2016-11-15 15:41:50 434

原创 tez0.8在hadoop2.7.1上的应用

一、配置1、tez的编译在我的另外一篇文章中，在这里不再叙述2、将生成的war包拷贝到hadoop的/apps/tez目录，这个目录自己定义3、在hadoop的conf目录新建一个tez-site.xml 配置文件，内容如下： tez.lib.uris ${fs.defaultFS}/apps/tez/tez-0.8.4.tar.gz

2016-11-14 17:41:08 1313

原创 apache tez0.8编译

一，先准备环境，首先确保能上网，然后如下环境lsb_release -aLSB Version: :core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noarchDistributor ID: RedHatEnterpriseS

2016-11-14 11:42:20 1142 1

转载 Apache Kylin在美团数十亿数据OLAP场景下的实践

本文根据2016年4月北京Apache Kylin Meetup上的分享讲稿整理，略有删节。美团各业务线存在大量的OLAP分析场景，需要基于Hadoop数十亿级别的数据进行分析，直接响应分析师和城市BD等数千人的交互式访问请求，对OLAP服务的扩展性、稳定性、数据精确性和性能均有很高要求。本文主要介绍美团的具体OLAP需求，如何将Kylin应用到实际场景中，以及目前的使用方式和现状。同时也

2016-11-14 11:28:39 4597

转载 apache tez

你可能听说过Apache Tez，它是一个针对Hadoop数据处理应用程序的新分布式执行框架。但是它到底是什么呢？它的工作原理是什么？哪些人应该使用它，为什么？如果你有这些疑问，那么可以看一下Bikas Saha和Arun Murthy提供的呈现“Apache Tez: 加速Hadoop查询处理”，在这个呈现中他们讨论了Tez的设计，它的一些突出亮点，同时还分享了通过让Hive使用Tez而

2016-11-11 11:02:18 754

原创 flume1.7.0 常用配置

一、source 为spooling dira1.sources = r1a1.channels = c1a1.sinks = k1a1.sources.r1.type = spooldira1.sources.r1.spoolDir = /opt/nginx/testa1.sources.r1.channels = c1a1.sources.r1.fileSuffix

2016-10-27 16:15:38 1479 1

转载浅谈数据仓库的基本架构

数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持（Decision Support）。其实数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程，可以分为三层——源数据、数据仓库、数据应用：　　从图中可以看出数据仓库的数据

2016-10-25 11:19:47 1454

转载 Scala语言与Play框架入门教程

Scala语言与Play框架入门教程Scala在业界已日益成为主流的编程语言和开发工具，与Java一样在Web开发领域的发展尤其令开发者关注，因此本文选取Scala语言中当前两个主要Web框架(Play、Lift)中的一个较易上手的Play框架，结合作者的实践以简洁易懂快速上手为目标，使开发者快速进行以Scala语言为基础的Web应用和网站开发。关于教程为了更好的服务于开发者，本教

2016-10-24 09:51:21 1376

原创 hue编译

执行：make desktop 期间如果报错则需要安装：/opt/hue-3.6.0-cdh5.1.0/Makefile.vars:42: *** "Error: must have python development packages for 2.6 or 2.7. Could not find Python.h. Please install python2.6-devel

2016-10-21 09:43:10 2834

转载 Kylin实践之使用Hive视图

为什么需要使用视图 Kylin在使用的过程中使用hive作为cube的输入，但是有些情况下，hive中的表定义和数据并不能满足分析的需求，例如有些列的值需要进行处理，有些列的类型不满足需求，甚至有时候在创建hive表时为了图方便，hive中的所有列都被定义成了string，因此很多情况下在使用Kylin之前需要对hive上的数据格式进行适当的修剪，但是使用alter table

2016-09-14 16:22:25 495

转载关于Kylin结果缓存的思考

由来Apache Kylin定位是大数据量的秒级SQL查询引擎，原理是通过预计算所有可能的维度组合存储在Hbase中，查询时解析SQL获取维度和度量信息，然后再从hbase中扫描获取数据返回，个人认为Kylin最强大的地方在于实现了SQL引擎，如果使用自定义的格式化查询语言也可以完成相应的数据访问操作，无非是指定查询的维度、度量、聚合函数、过滤条件，排序列等等。但是这种描述较之于S

2016-09-14 16:21:26 540

转载 OLAP引擎——Kylin介绍

Kylin是ebay开发的一套OLAP系统，与Mondrian不同的是，它是一个MOLAP系统，主要用于支持大数据生态圈的数据分析业务，它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中（目前还仅支持hbase），这段时间对mondrian和kylin都进行了使用，发现这两个系统是时间和空间的一个权衡吧，mondrian是一个ROLAP系统，所有的查询可以通过实时的数据库查询完成，而

2016-09-14 16:20:02 381

转载 Kylin执行查询流程分析

Kylin基于MOLAP实现，查询的时候利用Calcite框架，从存储在Hbase的segment表（每一个segment对应着一个htable）获取数据，其实理论上就相当于使用Calcite支持SQL解析，数据从Hbase中读取，中间Kylin主要完成如何确定从Hbase中的哪些表读数据，如何读取数据，以及解析数据的格式。场景设置首先设想一种cube的场景：维度：A（ca

2016-09-14 16:19:05 1318

转载 Kylin中的cube构建

前言在使用Kylin的时候，最重要的一步就是创建cube的模型定义，即指定度量和维度以及一些附加信息，然后对cube进行build，当然我们也可以根据原始表中的某一个string字段（这个字段的格式必须是日期格式，表示日期的含义）设定分区字段，这样一个cube就可以进行多次build，每一次的build会生成一个segment，每一个segment对应着一个时间区间的cube，这些se

2016-09-14 16:17:59 792

转载 Kylin使用之创建Cube和高级设置

简介　　Kylin作为一个OLAP引擎，需要Cube模型支撑，在我们的工作过程中，在和用户以及相关的开发人员、测试、产品等介绍Kylin的过程中，他们总是会对Cube的模型有一些疑惑，作为经常接触这个概念的我来说这是再明了不过的了，而他们还是会在我讲解多次之后表示还在云里雾里，所以就希望通过一篇关于Cube和Kylin创建Cube的过程来聊一下Cube是什么，以及Kylin的一些高级设置。

2016-09-14 16:16:46 728

File-Tail-Scribe

DBI-1.615.tar.gz

DBD-mysql-4.018.tar.gz

空空如也