自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(158)
  • 资源 (4)
  • 收藏
  • 关注

转载 大数据环境下该如何优雅地设计数据分层

0x00 前言最近出现了好几次同样的对话场景: 问:你是做什么的? 答:最近在搞数据仓库。 问:哦,你是传统行业的吧,我是搞大数据的。 答:……发个牢骚,搞大数据的也得建设数据仓库吧。而且不管是传统行业还是现在的互联网公司,都需要对数据仓库有一定的重视,而不是谈一句自己是搞大数据的就很厉害了。数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。...

2018-02-23 16:34:53 493 1

原创 ldap服务器搭建

1、linux 环境参考:通过运行 lsb_release -aLSB Version: :core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noarchDistributor ID: RedHatEnterpriseServer

2017-12-14 17:04:25 800

转载 kylin与superset集成实现数据可视化

Apache kylin是一个开源分布式引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。而superset是airbnb开源的一款数据可视化工具。kylin在超大数据规模下仍然可以提供秒级甚至毫秒级sql响应的OLAP多维分析查询服务。而且对服务器内存的要求也不像spark sql那么高,经过多方面的优化,数据膨胀率甚至可以控制在100%以内。它利用

2017-10-26 17:27:21 2726

转载 SSL 与 数字证书 的基本概念和工作原理

前言SSL是让人头大的东西,看起来很复杂,我学过信息安全课,但是对SSL仍然是模糊一片。对于数字证书也是一知半解,从来没有去认真研究过。只知道个大概,“反正就是对称加密和非对称加密”,详细的就不懂了。其实这些跟操作系统,计算机体系结构一样,是基础知识,即使你不是专门研究信息安全的,即使你平时用不到,这些东西也应该是必须了解的~ It’s not rocket science!我这篇

2017-09-20 14:34:25 565

转载 Avro在讯飞大数据开放平台的应用

编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后。本文整理自去年4月份的QCon大会演讲“以Hadoop为核

2017-08-28 18:12:46 1056

转载 redis漏洞

听到朋友说接到阿里云的报障,提示黑客把他的服务器当肉鸡了,当时有点怕怕,继而官方的网络带宽也爆了进而系统处于瘫痪,当时我需要帮他处理这个问题1 在没有查到杀手之前我是先把带宽&端口用iptables 做了限制这样能保证我能远程操作服务器才能查找原因  2 在各种netstat –ntlp  的查看下没有任何异常 在top 下查到了有异常进程还有些异常的这里就截图

2017-07-31 16:25:56 1286

原创 编译安装Ambari2.5.0

1.需要安装的工具1.1     安装JDK  推荐1.81.2     安装Apache Maven 3.3.9设置环境变量# vi /etc/profileexport MAVEN_HOME="/opt/maven"export path=$path: $MAVEN_HOME/bin1.3     安装rpmbuild1)检测rpm-

2017-05-23 18:25:58 2909 2

转载 hadoop开源工具大集合

弗雷斯特调研公司的分析师Mike Gualtieri最近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。IBM更是非常看好开源大数据工具,派出了3500名研究人员开发Apache Spark,这个工具是Ha

2017-05-23 09:59:47 4300

原创 pentaho7.0将数据库移植成mysql

Pentaho 内置数据是 hsql. 数据库。那我们如何换掉移植成 mysql ?思想:移植的条件:1. 首先要有一个 mysql 数据。2. 将 pentaho 的启动配置连接到 mysql 上。我现在做一个将 pentaho7.0 数据库移植的例子。1.       首先在 pentaho-server/data/mysql5 文件夹下将里面

2017-05-12 16:09:39 1520

原创 Hive ROW_NUMBER,RANK(),DENSE_RANK()

准备数据浙江,杭州,300浙江,宁波,150浙江,温州,200浙江,嘉兴,100江苏,南京,270江苏,苏州,299江苏,某市,200江苏,某某市,100 创建表CREATE table pcp(province string,city string,people int)ROW FORMAT

2017-05-04 10:59:37 320

转载 基于 Kylin 的推荐系统效果评价系统

OLAP(联机分析处理)是数据仓库的主要应用之一,通过设计维度、度量,我们可以构建星型模型或雪花模型,生成数据多维立方体Cube,基于Cube可以做钻取、切片、旋转等多维分析操作。早在十年前,SQL Server、Oracle 等数据库软件就有OLAP产品,为用户提供关系数据库、多维数据集、可视化报表的整套商业智能方案。 (本科毕业设计就是做OLAP分析,对相关理论和实践有兴趣的可以参阅我的论文,

2017-05-03 15:36:48 2021

转载 使用JDBC向MySQL数据库批次插入10W条数据测试效率

使用JDBC连接MySQL数据库进行数据插入的时候,特别是大批量数据连续插入(100000),如何提高效率呢?在JDBC编程接口中Statement 有两个方法特别值得注意:通过使用addBatch()和executeBatch()这一对方法可以实现批量处理数据。不过值得注意的是,首先需要在数据库链接中设置手动提交,connection.setAutoCommit(false),然后在

2017-03-15 20:06:41 1108

转载 Presto安装与配置

Presto是一个运行在多台服务器上的分布式系统。 完整安装包括一个coordinator(调度节点)和多个worker。 由客户端提交查询,从Presto命令行CLI提交到coordinator。 coordinator进行解析,分析并执行查询计划,然后分发处理队列到worker目录:环境基本要求集群规划连接器安装步骤config.propertiesnode.propertie

2017-03-09 09:49:10 14494

转载 Presto架构及原理

Presto 是 Facebook 推出的一个基于Java开发的大数据分布式 SQL 查询引擎,可对从数 G 到数 P 的大数据进行交互式的查询,查询的速度达到商业数据仓库的级别,据称该引擎的性能是 Hive 的 10 倍以上。Presto 可以查询包括 Hive、Cassandra 甚至是一些商业的数据存储产品,单个 Presto 查询可合并来自多个数据源的数据进行统一分析。Presto 的目标

2017-03-09 09:47:42 2187 1

原创 Spark on YARN配置日志Web UI

Spark部署在YARN之后,从Standalone模式下的Spark Web UI直接无法看到执行过的application日志,不利于性能分析。得益于实验室师弟的帮忙,本文记录如何配置history UI。修改spark-defaults.confspark.eventLog.enabled=truespark.eventLog.compress=truespark.e

2017-02-27 17:42:26 5407

原创 redhat下pyspider安装

1、软件环境python 2.7.1pip已安装linux redhat 6.5企业版2、安装依赖yum install libxml2  libxml2-dev libxslt-devel 3、下载pyspider源码https://github.com/binux/pyspider/tags解压用python setup.py install 安装即可

2016-12-28 11:26:37 601

转载 pyspider 爬虫教程

pyspider 爬虫教程(一):HTML 和 CSS 选择器虽然以前写过 如何抓取WEB页面 和 如何从 WEB 页面中提取信息。但是感觉还是需要一篇 step by step 的教程,不然没有一个总体的认识。不过,没想到这个教程居然会变成一篇译文,在这个爬虫教程系列文章中,会以实际的例子,由浅入深讨论爬取(抓取和解析)的一些关键问题。在 教程一 中,我们将要爬取的网站是

2016-12-26 15:16:19 2213

原创 hive中join操作

笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join.整个过程包含Map、Shuffle、Reduce阶

2016-12-22 17:51:12 539

转载 MapReduce:详解Shuffle过程

Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里

2016-12-22 17:10:02 310

转载 Presto 来自Facebook的开源分布式查询引擎

PrestoDB 来自Facebook的开源分布式查询引擎Presto是一个分布式SQL查询引擎, 它被设计为用来专门进行高速、实时的数据分析。它支持标准的ANSI SQL,包括复杂查询、聚合(aggregation)、连接(join)和窗口函数(window functions)。下图中展现了简化的Presto系统架构。客户端(client)将SQL查询发送到Presto的协调员 (

2016-12-21 15:44:37 496

原创 其他技术人员播客地址整理

1、乐视祝海林,主要是spark,kafkahttp://www.jianshu.com/users/59d5607f1400/latest_articles

2016-12-14 09:41:45 586

原创 hadoop2.7.1下httpfs命令整理

支持httfs前提,增加配置 hadoop.proxyuser.yarn.hosts * hadoop.proxyuser.yarn.groups * 修改httpfs-env.sh 主要修改日志路径# export HTTPFS_LOG=${HTTPFS_HOME}/logs expo

2016-12-13 18:36:26 1403

原创 django 环境搭建

一、版本选择1、python版本  2.7.32、django 1.6.53、linux 版本   Description:    Red Hat Enterprise Linux Server release 6.5 (Santiago)   5.x版本安装mysql-python 失败,应该需要升级gcc解决原因:python 在linxu的默认版本是2.6.6,但python

2016-12-02 10:24:23 400

原创 Cloudera Manager 5和CDH5离线安装

一、相关软件准备及规划1、相关软件及下载地址:Cloudera Manager:http://archive-primary.cloudera.com/cm5/cm/5/CDH安装包地址:http://archive.cloudera.com/cdh5/parcels/latest/JAVA官方下载(需登陆):http://www.oracle.com/techne

2016-11-23 18:25:21 2291

转载 Kylin性能调优记——业务技术两手抓

Kylin性能调优记——业务技术两手抓时间 2016-11-14 10:37:39  比特科技原文  http://www.bitstech.net/2016/11/14/kylin性能调优记-业务技术两手抓/主题 技术背景最近开始使用了新版本的Kylin,在此之前对于新版本的了解只是代码实现和一些简单的新功能测试,但是并没有导入实际场景的数据做分析和查

2016-11-15 15:46:11 331

转载 大数据分析界的“神兽”Apache Kylin有多牛?

本文是5月23日大数据杂谈群分享的内容。关注“大数据杂谈”公众号,点击“加群学习”,更多大牛一手技术分享等着你。实习编辑:Melody大家好,我是今天做微信分享的李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、微软。今天分享的主题是:聊聊“神兽”Apache

2016-11-15 15:41:50 434

原创 tez0.8在hadoop2.7.1上的应用

一、配置1、tez的编译在我的另外一篇文章中,在这里不再叙述2、将生成的war包拷贝到hadoop的/apps/tez目录,这个目录自己定义3、在hadoop的conf目录新建一个tez-site.xml 配置文件,内容如下: tez.lib.uris ${fs.defaultFS}/apps/tez/tez-0.8.4.tar.gz

2016-11-14 17:41:08 1313

原创 apache tez0.8编译

一,先准备环境,首先确保能上网,然后如下环境lsb_release -aLSB Version:    :core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noarchDistributor ID: RedHatEnterpriseS

2016-11-14 11:42:20 1142 1

转载 Apache Kylin在美团数十亿数据OLAP场景下的实践

本文根据2016年4月北京Apache Kylin Meetup上的分享讲稿整理,略有删节。美团各业务线存在大量的OLAP分析场景,需要基于Hadoop数十亿级别的数据进行分析,直接响应分析师和城市BD等数千人的交互式访问请求,对OLAP服务的扩展性、稳定性、数据精确性和性能均有很高要求。本文主要介绍美团的具体OLAP需求,如何将Kylin应用到实际场景中,以及目前的使用方式和现状。同时也

2016-11-14 11:28:39 4597

转载 apache tez

你可能听说过Apache Tez,它是一个针对Hadoop数据处理应用程序的新分布式执行框架。但是它到底是什么呢?它的工作原理是什么?哪些人应该使用它,为什么?如果你有这些疑问,那么可以看一下Bikas Saha和Arun Murthy提供的呈现“Apache Tez: 加速Hadoop查询处理”,在这个呈现中他们讨论了Tez的设计,它的一些突出亮点,同时还分享了通过让Hive使用Tez而

2016-11-11 11:02:18 754

原创 flume1.7.0 常用配置

一、source 为spooling dira1.sources = r1a1.channels = c1a1.sinks = k1a1.sources.r1.type = spooldira1.sources.r1.spoolDir = /opt/nginx/testa1.sources.r1.channels = c1a1.sources.r1.fileSuffix

2016-10-27 16:15:38 1479 1

转载 浅谈数据仓库的基本架构

数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层——源数据、数据仓库、数据应用:  从图中可以看出数据仓库的数据

2016-10-25 11:19:47 1454

转载 Scala语言与Play框架入门教程

Scala语言与Play框架入门教程Scala在业界已日益成为主流的编程语言和开发工具,与Java一样在Web开发领域的发展尤其令开发者关注,因此本文选取Scala语言中当前两个主要Web框架(Play、Lift)中的一个较易上手的Play框架,结合作者的实践以简洁易懂快速上手为目标,使开发者快速进行以Scala语言为基础的Web应用和网站开发。关于教程为了更好的服务于开发者,本教

2016-10-24 09:51:21 1376

原创 hue编译

执行:make desktop 期间如果报错则需要安装:/opt/hue-3.6.0-cdh5.1.0/Makefile.vars:42: *** "Error: must have python development packages for 2.6 or 2.7. Could not find Python.h. Please install python2.6-devel

2016-10-21 09:43:10 2834

转载 Kylin实践之使用Hive视图

为什么需要使用视图       Kylin在使用的过程中使用hive作为cube的输入,但是有些情况下,hive中的表定义和数据并不能满足分析的需求,例如有些列的值需要进行处理,有些列的类型不满足需求,甚至有时候在创建hive表时为了图方便,hive中的所有列都被定义成了string,因此很多情况下在使用Kylin之前需要对hive上的数据格式进行适当的修剪,但是使用alter table

2016-09-14 16:22:25 495

转载 关于Kylin结果缓存的思考

由来Apache Kylin定位是大数据量的秒级SQL查询引擎,原理是通过预计算所有可能的维度组合存储在Hbase中,查询时解析SQL获取维度和度量信息,然后再从hbase中扫描获取数据返回,个人认为Kylin最强大的地方在于实现了SQL引擎,如果使用自定义的格式化查询语言也可以完成相应的数据访问操作,无非是指定查询的维度、度量、聚合函数、过滤条件,排序列等等。但是这种描述较之于S

2016-09-14 16:21:26 540

转载 OLAP引擎——Kylin介绍

Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOLAP系统,主要用于支持大数据生态圈的数据分析业务,它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中(目前还仅支持hbase),这段时间对mondrian和kylin都进行了使用,发现这两个系统是时间和空间的一个权衡吧,mondrian是一个ROLAP系统,所有的查询可以通过实时的数据库查询完成,而

2016-09-14 16:20:02 381

转载 Kylin执行查询流程分析

Kylin基于MOLAP实现,查询的时候利用Calcite框架,从存储在Hbase的segment表(每一个segment对应着一个htable)获取数据,其实理论上就相当于使用Calcite支持SQL解析,数据从Hbase中读取,中间Kylin主要完成如何确定从Hbase中的哪些表读数据,如何读取数据,以及解析数据的格式。场景设置首先设想一种cube的场景:维度:A(ca

2016-09-14 16:19:05 1318

转载 Kylin中的cube构建

前言  在使用Kylin的时候,最重要的一步就是创建cube的模型定义,即指定度量和维度以及一些附加信息,然后对cube进行build,当然我们也可以根据原始表中的某一个string字段(这个字段的格式必须是日期格式,表示日期的含义)设定分区字段,这样一个cube就可以进行多次build,每一次的build会生成一个segment,每一个segment对应着一个时间区间的cube,这些se

2016-09-14 16:17:59 792

转载 Kylin使用之创建Cube和高级设置

简介  Kylin作为一个OLAP引擎,需要Cube模型支撑,在我们的工作过程中,在和用户以及相关的开发人员、测试、产品等介绍Kylin的过程中,他们总是会对Cube的模型有一些疑惑,作为经常接触这个概念的我来说这是再明了不过的了,而他们还是会在我讲解多次之后表示还在云里雾里,所以就希望通过一篇关于Cube和Kylin创建Cube的过程来聊一下Cube是什么,以及Kylin的一些高级设置。

2016-09-14 16:16:46 728

File-Tail-Scribe

scrbie收集日志文件的工具模块。解压安装

2011-12-14

DBI-1.615.tar.gz

perl dbi模块,解决连接数据库的问题。

2011-12-14

DBD-mysql-4.018.tar.gz

perl语言中mysql模块的支持

2011-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除