![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 74
Heavbird
这个作者很懒,什么都没留下…
展开
-
Kafka要点总结及实践
问题导读1.Kafka独特设计在什么地方?2.Kafka如何搭建及创建topic、发送消息、消费消息?3.如何书写Kafka程序?4.数据传输的事务定义有哪三种?5.Kafka判断一个节点是否活着有哪两个条件?6.producer是否直接将数据发送到broker的leader(主节点)?7.Kafa consumer是否可以消费指定分区消息?8.Kafka消息是采用Pull模式,还是Push模式?...转载 2018-01-31 16:35:45 · 704 阅读 · 0 评论 -
再次折腾-启动hadoop时遇到问题
期间运行namenode的试验机因跑其它程序和任务重启过几次导致以前启动的hadoop相关的进程和服务都停了。今天有空再跑一次,遇到各种莫名其妙问题,好事多磨,也算是对先前没遇到问题的一个补充。1. namenode 9000端口被占导致namenode startup failed 这段本地调试其它程序时启动过xdebug,它的默认端口就是9000, netstat原创 2017-07-13 16:51:21 · 1366 阅读 · 0 评论 -
【Twitter Storm系列】flume+Kafka+Storm+HDFS 实时系统搭建
一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有写这篇文章@晨色星空J2EE也给了我很大帮助,这里也谢谢@晨色星空J2EE之前在弄这个的时候,跟转载 2017-07-10 18:58:45 · 304 阅读 · 0 评论 -
大数据平台架构技术选型与场景运用
导读:本文将大数据的工作角色分为三种类型,包括业务相关、数据科学相关和数据工程。大数据平台偏向于工程方面,大数据平台一般包括数据源、数据采集、数据存储、数据分析等方面。一、大数据平台大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等;与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;与工程相关,如何实施、如何实现、解决什么业务问题,这是数转载 2017-06-22 17:46:20 · 618 阅读 · 0 评论 -
Ubuntu 14.04 R上安装rJava包出错问题的解决: error: unable to load shared object (rJava.so)
启动R后,在交互终端中执行 install.packages("rJava"),下载rJava包编译一会儿,报类似下面错误:Error : .onLoad failed in loadNamespace() for 'rJava', details: call: dyn.load(file, DLLpath = DLLpath, ...) error: unable to原创 2017-06-20 20:28:30 · 3997 阅读 · 0 评论 -
安装.NET Framework 4失败解决办法
最近安装一工具软件时,提示要先安装.Net Framework 4。下载.Net fwk 4安装过程中,又提示尚未安装“.Net Framework 4 Client Profile”. 进入控制面板的程序和功能中查看,这个已安装过了的。删除再安装,依旧是这个提示,后来根据搜索尝试了几种方法后,这个方法是可行的,与Windows 更新服务有关,记录之,以备后用。Windows7 旗舰原创 2017-06-19 10:02:42 · 27193 阅读 · 0 评论 -
Python爬虫--Ubuntu14.04 上Scrapy的安装和错误处理
默认情况下,ubuntu 14.04中已安装了python2.7.6以及lxml, openssl 库,主要安装scrapy需要的其它包即可。一. 安装过程1. sudo apt-get install python-setuptools // 不用sudo可能会报Permission denied:xxx 相关的错误。2. sudo apt-get install pyt原创 2017-06-15 15:07:36 · 1733 阅读 · 0 评论 -
Sqoop 1.99.7 客户端操作实践
自1.99.7开始,客户端的一些操作关键字和参数发生了变化,网上很多还是早期版本,对照操作时难免一些命令或选项会报错。这里把本地实际操作过程及注意事项记录如下,作后续参考。1. bin/sqoop.sh client 启动客户端原创 2017-06-15 09:54:58 · 6352 阅读 · 3 评论 -
Ubuntu上安装HBase遇到的问题及解决办法
Ubuntu 14.04 + Hbase 1.2.6, 主要有如下两个问题:1. 执行bin/start-hbase.sh 时,master/slave上都报 "Error: JAVA_HOME is not set"slave02: +======================================================================+s原创 2017-06-15 09:40:14 · 2410 阅读 · 0 评论 -
Zookeeper启动显示成功,zkServer.sh status报错
zookeeper-3.4.9 按照指导配置完成后,再zookeeper/bin下执行 ./zkServer.sh startZooKeeper JMX enabled by defaultUsing config: /home/hadoop/bigdata/zk/bin/../conf/zoo.cfgStarting zookeeper ... STARTED再执行原创 2017-06-14 17:46:33 · 157118 阅读 · 0 评论 -
Sqoop2 (1.99.7)安装部署及问题解决
Sqoop 是一个开源工具,主要用于在Hadoop和传统的数据库(Mysql, Oracle,等)进行数据传递,可以将一个关系型数据库中的数据导入Hadoop 的HDFS中,也可以将HDFS中的数据导出到关系型数据库中。1. 目前主要有sqoop1 和sqoop2两个版本,两者架构如下图所示:a. sqoop1 架构:原创 2017-06-14 14:06:50 · 3402 阅读 · 2 评论 -
大数据实践中记录杂集
ssh 免密登录: vi /etc/ssh/sshd 删掉RSAAuthentication yesPubKeyAuthentication yes格式化HDFS:hdfs namenode -formatHadoop启动后,通过浏览器(IP_address:50070)可打开web GUI的hadoophttp://IP_Address:8088 可以原创 2017-06-13 23:36:24 · 186 阅读 · 0 评论 -
执行mapreduce任务,出现running beyond virtual memory错误
Container [pid=28920,containerID=container_xxx] is running beyond virtual memory limits. Current usage: 1.2 GB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Killing container.原原创 2017-07-13 19:15:44 · 1037 阅读 · 0 评论 -
异构数据源海量数据交换工具-Taobao DataX 下载和使用
DataX介绍DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(RDBMS/Hdfs/Local filesystem)之间的数据交换。目前成熟的数据导入导出工具比较多,但是一般都只能用于数据导入或者导出,并且只能支持一个或者几个特定类型的数据库。这样带来的一个问题是,如果我们拥有很多不同类型的数据库/文件系统(Mysql/Orac转载 2017-07-14 19:26:50 · 523 阅读 · 0 评论 -
ubuntu上基于HUE 4.0的环境构建和使用
1. Hue是什么? Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。 2. Hue能干什么? 访问HDFS和文件浏览 通过web调试和开发hive以及数据结果展示 查询solr和结果展示,报表生成 通过web调试和开发impala交互式SQL Query sp原创 2017-11-01 20:13:04 · 2115 阅读 · 0 评论 -
ELK实时日志分析平台环境部署
原本打算构建和实践基于ELK的实时日志分析平台的,偶然发现此文,甚是详细和实用,便转载作以记录。在日常运维工作中,对于系统和业务日志的处理尤为重要。今天,在这里分享一下自己部署的ELK(+Redis)-开源实时日志分析平台的记录过程(仅依据本人的实际操作为例说明,如有误述,敬请指出)~一、概念介绍日志主要包括系统日志、应用程序日志和安全日志。系统运维和开转载 2017-11-07 09:25:27 · 2588 阅读 · 0 评论 -
玩转Ambari之二----基于ubuntu的源码编译和安装
网上关于ambari安装的有很多,有直接从现成的源直接下载安装的,也有自己构建本地源安装的,还有不少自己从apache网站下载源码编译安装的。前两者相对简单,依赖小,期间遇到问题也少,顺利的话,可能什么问题都碰不到就完成了。后者会遇到各种不同的问题。apache网上公布的最新版本是2.5.2,鉴于网上能搜到的基于源码安装帖子的版本都较老,并且很多都是基于centos的,基于Ubuntu的很少。我们原创 2017-10-13 09:37:22 · 4591 阅读 · 1 评论 -
玩转ambari之一----ambari原理和架构
Ambari 跟 Hadoop 等开源软件一样,也是 Apache 基金会的一个顶级项目。目前最新的发布版本是 2.5.2。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态圈(例如 Hive,Hbase,Sqoop,Zookeeper 等),而并不仅是特指 Hadoop。并且,Ambari 现在所支持的平台组原创 2017-10-13 09:23:07 · 3080 阅读 · 0 评论 -
Storm环境构建和实战
1. 准备工作下载 apache storm 包apache-storm-1.1.1并解压至/home/hadoop/bigdata工作目录,命名为storm.2. storm的架构和特点Storm是一个免费开源、分布式、高容错的实时计算系统。Storm令持续不断的流计算变得容易,弥补了Hadoop批处理所不能满足的实时要求。Storm经常用于在实时分析、在线机器学习、持续计算原创 2017-09-14 20:21:59 · 422 阅读 · 0 评论 -
Flume+Kafka环境构建和实战
1. 准备工作apache上下载 apache-flume-1.7.0, apache-kafka_2.12-0.11, apache-zookeeper-3.4.9下载后分别解压至/home/hadoop/bigdata并重命名目录为flume, kafka, zk, (便于在.bashrc中export各个HOME变量及后续升级)2. 配置并启动zookeeperzk配原创 2017-09-14 18:44:10 · 2492 阅读 · 0 评论 -
启动spark-sql报错Caused by: MetaException(message:Version information not found
集群中已部署且正常使用了hadoop, hive, spark。打算启动spark-sql来访问hive数据时报错,WARN metadata.Hive: Failed to access metastore. This class should not accessed in runtime.org.apache.hadoop.hive.ql.metadata.HiveExcep原创 2017-09-13 10:08:09 · 3641 阅读 · 0 评论 -
spark-sql之 Caused by: MetaException(message:Version information not found in metastore. )
试着使用spark-sql访问hive表,启动后spark-sql --driver-class-path /home/hadoop/bigdata/hive/lib/mysql-connector-java.jar报如下错误:17/09/12 16:47:44 INFO metastore.ObjectStore: Initialized ObjectStore17/09/12 1原创 2017-09-12 17:06:02 · 1768 阅读 · 0 评论 -
beeline通过HiveServer2访问Hive的配置和操作
1. 前言作为数据仓库的工具,hive提供了两种ETL运行方式,分别是通过Hive 命令行和beeline客户端;命令行方式即通过hive进入命令模式后通过执行不同的HQL命令得到对应的结果;相当于胖客户端模式,即客户机中需要安装JRE环境和Hive程序。beeline客户端方式相当于瘦客户端模式,采用JDBC方式借助于Hive Thrift服务访问Hive数据仓库。HiveThr原创 2017-09-08 14:52:11 · 12418 阅读 · 0 评论 -
Hive 1.x升级hive2.1.1全过程及与HBase的互通
1. 问题背景在构建的大数据平台上(相关组件版本Hadoop 2.8, hive 1.2.2, hbase 1.2.6) 利用hive-hbase-handler.jar实现hive和hbase的数据互通时,在hive中输入命令后总是报错,先是Cannot find class 'org.apache.hadoop.hive.bhase.HBaseStorageHandler, 通过tar原创 2017-09-07 20:15:06 · 5955 阅读 · 0 评论 -
浅谈开源大数据平台的演变,理清各平台的历史关系和出现背景
一说到开源大数据处理平台,就不得不说此领域的开山鼻祖Hadoop,它是GFS和MapReduce的开源实现。虽然在此之前有很多类似的分布式存储和计算平台,但真正能实现工业级应用、降低使用门槛、带动业界大规模部署的就是Hadoop。得益于MapReduce框架的易用性和容错性, 以及同时包含存储系统和计算系统,使得Hadoop成为大数据处理平台的基石之一。Hadoop能够满足大部分的离线存储和离线计转载 2017-07-17 19:46:30 · 693 阅读 · 0 评论 -
搭建Hadoop+Hive+Mysql遇到的坑及解决办法
1. 安装环境 硬件:三台PC,配置 Intel i5 4 Core CPU, 16G memory, 2T 硬盘 软件: 两台PC为ubuntu 14.04, 一台为ubuntu 16.04 ; hadoop-2.8.0, hive-1.2.2, mysql 5.5.55, jdk-8u131-linux-x64.tgz (1.8.0_131) 机器分配原创 2017-06-13 16:08:19 · 6068 阅读 · 0 评论