大数据
MrGrant
这个作者很懒,什么都没留下…
展开
-
CDH6.3修改主机IP
这里写自定义目录标题修改ip停服务进入mysql修改元数据ip修改各主机的ip(分别修改各主机的ip)修改所有hadoop集群机器中的cloudera-scm-agent的配置文件重启服务修改ip开始是在公司使用桥接模式,回到家使用无线网段变了,遂改掉IP,CDH中还是配置的原来的IP,需要改掉停服务[root@node01 ~]# service cloudera-scm-agent stop[root@node01 ~]# service cloudera-scm-server stop进原创 2020-06-12 01:08:40 · 490 阅读 · 0 评论 -
hive加载数据权限报错
前提:上传数据至hdfs 的/user/root/下,创建了hive的orc表,准备load数据,创建了临时的ordertmp的textfile格式表,后面用insert overwrite进目标表。执行load data 从/user/root/下加载数据到hive表中,报下面的权限错误。0: jdbc:hive2://node01:10000> load data inpath '/user/root/order/order.txt' into table ordertmp;INFO原创 2020-06-09 15:38:41 · 1444 阅读 · 0 评论 -
检查HDFS块状态
hadoop集群运行过程中,节点的块状态或者上下线节点时集群都会受影响。如何查看当前的hdfs的块的状态hadoop1.x时候的命令,hadoop2.x也可使用:hadoop fsck /在hadoop2.0之后,可以使用新命令:hdfs fsck /[root@node01 ~]# su hdfs -c "hadoop fsck /"WARNING: Use of this s...原创 2020-04-29 09:29:08 · 1072 阅读 · 0 评论 -
SparkStreaming控制消费速率(反压机制)
反压机制:spark1.5以后,通过动态收集系统的一些数据来自动的适配集群数据处理能力在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候,也就是每个批次数据处理的时间要比 Spark Streaming 批处理间隔时...原创 2020-04-28 15:03:25 · 1169 阅读 · 0 评论 -
Spark Streaming性能优化: 如何在生成环境下应对流数据峰值巨变
1、为什么引入Backpressure默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次花费时间, batch interval为Streaming应用设置的批处理间隔。这意味着Sp...转载 2020-04-28 14:15:30 · 187 阅读 · 0 评论 -
UserBehavior用户行为分析
1、数据来源阿里云天池: https://tianchi.aliyun.com/dataset/dataDetail?dataId=649本数据集包含了2017年11月25日至2017年12月3日之间,约有一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)。数据集的每一行表示一条用户行为,由用户ID、商品ID、商品类目ID、行为类型和时间戳组成,并以逗号分隔。时间跨度约为一个礼拜,从...原创 2020-04-27 13:55:59 · 5768 阅读 · 0 评论 -
hive时间字段处理详情
hive时间字段处理详情转载自:https://blog.csdn.net/jsbylibo/article/details/83093292转载 2020-04-26 11:13:31 · 708 阅读 · 0 评论 -
cm管理hadoop集群hdfs切换用户
使用CDH和CM管理hadoop集群切换用户CDH和CM管理hadoop集群后,创建很多用户hdfs、hive、hue等等,上传文件到hdfs发现登陆不了hdfs用户。[root@node01 localData]# su - hdfsThis account is currently not available.查看hdfs的帐号信息[root@node01 localData]# ...原创 2020-04-24 11:12:45 · 4638 阅读 · 0 评论 -
CDH6.3配置安装实操
环境要求Redhat7.4安装CDH6.3。CDH6与CDH5的安装步骤一致,主要包括以下四部分:1.安全前置准备,包括安装操作系统、关闭防火墙、同步服务器时钟等;2.外部数据库如MySQL安装3.安装Cloudera Manager;4.安装CDH集群;请务必注意CDH6的安装前置条件包括如下: 外部数据库支持: MySQL 5.7或更高 MariaDB 5.5或更高 Postgr...原创 2020-04-22 16:04:04 · 1970 阅读 · 6 评论 -
Impala和Hive的关系
Impala和Hive的关系 Impala是基于Hive的大数据实时分析查询引擎,直接使用...转载 2019-10-17 15:29:08 · 248 阅读 · 0 评论 -
ElasticSearch概述
1、ElasticSearch架构概述ES优点:ES应用场景:ES核心概念:ES与RDBMS的比较:文档结构:原创 2019-10-15 15:53:04 · 260 阅读 · 0 评论 -
Lucene文件检索项目实战
1、需求分析假设有一批文档,格式有DOC、DOCX、PPT、PPTX、TXT、PDF这几种,实现一个类似百度文库的文件检索系统,需求如下。(1)能够对文件名进行检索。(2)能够对文件内容进行检索。(3)能够下载检索到的文件。(4)能够实现关键字的高亮。2、架构设计概括如下,文件存储系统中存放了不同类型的文件,后台通过程序提取出文件名和文件内容,使用Lucene对文件名和文件内容进行...原创 2019-10-14 17:07:52 · 1646 阅读 · 4 评论 -
使用Tika进行文档解析抽取
1、文本内容抽取文件搜索的第一要务是抽取文件内容,我们使用Apache Tika。Apache Tika是一个用户文件类型检测和文件内容提取的库,Apache顶级项目,可检索超过1000中类型的文档,广泛应用于搜索引擎、内容分析、文本翻译、数字资产管理等。主要特点如下:(1)统一解析器接口(2)低内存占用(3)快速处理(4)灵活元数据(5)解析器集成(6)MIME类型检测(7)语...原创 2019-09-25 17:37:17 · 4217 阅读 · 0 评论 -
Flink快速开始
1、Flink官网下载二进制包,解压。[hadoop@master install]$ tar -zxvf flink-1.7.2-bin-hadoop27-scala_2.11.tgz -C /app/2、启动一个本地的Flink集群[hadoop@master bin]$ ./start-cluster.sh Starting cluster.Starting standalone...原创 2019-06-25 10:24:10 · 544 阅读 · 0 评论 -
Crontab示例
分 小时 日 月份 取值1、每分钟执行一次command* * * * * command2、每小时的第3和第15分钟执行3,15 * * * * command3、上午8点到11点的第3和第15分钟执行3,15 8-11 * * * command4、每隔两天的上午8点到11点的第3和第15分钟执行3,15 8-11 */2 * * command5、每...原创 2019-06-19 16:09:09 · 379 阅读 · 0 评论 -
Streaming+Kafka消费偏移量的维护
如何管理kafka消费偏移量:一、 kafka消息的位置至关重要,维护其消息偏移量对于避免消息的重复消费与遗漏消费,确保消息的Exactly-once。kafka的消息所在的位置Topic、Partitions、Offsets三个因素决定。Kafka消费者消费的消息位置还与consumer的group.id有关。二、consumerOffsets与earlieastLeaderOffset...原创 2018-11-07 16:28:48 · 4852 阅读 · 0 评论 -
使用Squid为ambari配置代理
Squid添加用户认证1 安装squid并生成密码文件yum install squidhtpasswd ‐c /etc/squid/passwd ambari输入密码Qwer$321 则生成包含ambari用户的密码文件/etc/squid/passwd如提示找不到命令htpasswd则需要安装httpdhttpd yum install httpd2 修改配置文件vim ...原创 2018-10-10 11:13:27 · 346 阅读 · 0 评论 -
统计目录下文件数量的shell脚本
#/bin/bashread -p "请输入路径(直接换行表示当前目录):" fpathif [ "$fpath" = "" ]then fpath=$(pwd)fidirectory(){ echo "您输入的路径为:$fpath" let "filenum = 0" let "dirnum = 0" for dir in ${f原创 2018-09-09 21:04:19 · 3213 阅读 · 0 评论 -
CDH搭建
系统环境准备 1、网络配置vi /etc/sysconfig/networkvi /etc/hosts2、SSH免密钥登录ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsassh-copy-id3、防火墙关闭service iptables stopchkconfig iptables off4、SELINUX关闭...原创 2018-08-30 16:10:12 · 282 阅读 · 0 评论 -
strom环境搭建
一、storm概念 1 元组(tuple)元组是Storm中消息传输的基本单元,是一个命名的值列表(List)。元组支持所有基本类型、字符串、字节数组作为字段的值,只要实现类型的序列化接口就可以使用该类型的对象。元组本来应该是一个Key-value的Map,但是由于组件之间传递的元组的字段名称已经事先定义好,所以只需要按照顺序,将值填入List即可。2 流(Stream)流是...原创 2018-08-29 20:18:50 · 292 阅读 · 0 评论 -
spark之任务调度DagScheduler&TaskScheduler
在创建SparkContext对象的时候,一个核心的是模块就是调度器(Scheduler),在spark中Scheduler有两种:TaskScheduler(是低级的调度器接口)。TaskScheduler负责实际每个具体Task的物理调度。 DagScheduler(是高级的调度)。DAGScheduler负责将Task拆分成不同Stage的具有依赖关系(包含RDD的依赖关系)的多批任务...转载 2018-08-01 09:47:51 · 1668 阅读 · 0 评论 -
Redis安装
一、简介 REmote DIctionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统。Redis是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。它通常被称为数据结构服务器,因为值(value)可以是 字符串(S...原创 2018-06-01 14:26:18 · 297 阅读 · 0 评论 -
ElasticSearch安装与操作
一、简介 Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。但是,Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。 Elast...原创 2018-05-14 10:16:08 · 1181 阅读 · 1 评论 -
Hive集群搭建
前面一路从hadoop、spark、zookeeper、kafka等集群搭建而来,大数据生态环境已经初步形成,下面要继续来搭建大数据生态中很重要的Hive集群。 一、Hive简介 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执行。 二、环境准备 hadoop...原创 2018-05-03 17:13:00 · 16788 阅读 · 0 评论 -
HBase集群安装
前言:阅读本文之前,可以去apache hbase官网阅读安装配置文档,看不懂可以借助翻译,计算机所有的各种新技术只有官网是唯一且准确的第一手资料。 http://hbase.apache.org/book.html#hbase_default_configurations 一、Hbase简介 Apache HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,是NoSQL数据...原创 2018-05-09 09:19:45 · 242 阅读 · 0 评论 -
mongoDB同步数据到Hbase
MongoDB作为一个适用于敏捷开发的数据库,MongoDB的数据模式可以随着应用程序的发展而灵活地更新。与此同时,它也为开发人员 提供了传统数据库的功能:二级索引,完整的查询系统以及严格一致性等等。 MongoDB能够使企业更加具有敏捷性和可扩展性,各种规模的企业都可以通过使用MongoDB来创建新的应用,提高与客户之间的工作效率,加快产品上市时间,以及降低企业成本。MongoDB是专为可扩...原创 2018-04-23 16:12:26 · 5558 阅读 · 9 评论 -
Spark集群安装配置
一、准备工作1.安装centos 6.52.安装 jdk 1.8.x3.配置三台机器之间的ssh通信4.安装hadoop2.7.x以上的版本以上步骤在已经配置,本文不再多说。https://blog.csdn.net/yangang1223/article/details/79883113二、安装spark依旧是三台机器:master:192.168.163.145worker1:192.168....原创 2018-04-12 16:57:33 · 383 阅读 · 0 评论 -
Hadoop集群搭建
前言:搭建hadoop集群的博文很多,不能总是每次搭建时都花时间搜索一篇适合自己机器、文章简练清晰的教程,笔者也是描述自己搭建Hadoop集群的详细过程,以备日后使用。一、准备及所需环境 Centos 6.5(目前大多数生产环境使用的较稳定版本) JDK 1.8.x Vmvare Workstation二、开始搭建一般分布式集群都有多种搭...原创 2018-04-12 15:03:48 · 385 阅读 · 0 评论 -
Kafka集群搭建
前言:kafka作为一个消息中间件,由linkedin使用scala编写,用作LinkedIn的活动流,和运营数据处理管道的基础,其特点在于具有高水平扩展也就是动态扩容和高吞吐量。四大重要概念:TopicKafka将消息种子(Feed)分门别类,每一类的消息称之为一个主题(Topic).Broker已发布的消息保存在一组服务器中,称之为Kafka集群。集群中的每一个服务器都是一个代理(Broker...原创 2018-04-17 11:26:53 · 1145 阅读 · 0 评论 -
Hive进行ETL
一、数据清洗介绍 二、Hive数据清洗 1.本文使用的是一数据集为user.zip,包含了一个大规模数据集raw_user.csv(包含2000万条记录),和一个小数据集small_user.csv(只包含30万条记录)。小数据集small_user.csv是从大规模数据集raw_user.csv中抽取的一小部分数据。之所以抽取出一少部分记录单独构成一个小数据集,是因为,在第一遍跑通整个实验流...转载 2018-06-08 16:53:13 · 16087 阅读 · 7 评论 -
Sqoop2安装
一、简介 sqoop是一个用于结构化数据系统(比如关系型数据库系统RDBMS)和Hadoop系统间的大量数据传输的工具,特别是Hadoop所使用的HDFS分布式文件系统。作为ASF下的一个开源项目,其一开始也只是一个小工具,当然现在也是,还附带一些库供客户端调用。 Sqoop版本又分Sqoop1和Sqoop2,其中Sqoop1目前最高释出版本为1.4.6,Sqo...原创 2018-06-08 23:41:36 · 764 阅读 · 0 评论 -
MapReduce3种运行方式
MapReduce运行 3 种方式:一、本地方式运行:1、pc环境: 1.1、将Hadoop安装本地解压 1.2、配置Hadoop的环境变量 添加%HADOOP_HOME% 修改%PATH% 添加%HADOOP_HOME%/bin;%HADOOP_HOME%/sbin 1.3、在解压的Hadoop的bin目录下 添加winutils...原创 2018-07-26 11:33:48 · 1268 阅读 · 0 评论 -
Hive总结
一、启动hive --service metastore 端口检查:ss -nal 9083端口 hiveserver2 端口检查 10000hive 数据:11,zhangsan12,daqiu-kanshu-kandingyi,beijing:tiananmeng-shanghai:pudong-shen...原创 2018-07-26 11:18:26 · 506 阅读 · 0 评论 -
Hive 远程多用户模式搭建
在master和worker1上实现远程多用户模式搭建,mysql安装配置及hadoop配置工作在本站其他博客可见。服务端: <configuration> <property> <name>hive.metastore.warehouse.dir</name> <value>/user/hive/wareh...原创 2018-07-23 10:42:55 · 542 阅读 · 0 评论 -
hadoop2.x Yarn HA搭建
1.在worker1和worker2上配置resourcemanager和nodemanager,resourcemanager一主一备,所以配置这两台机器免密钥登录,前面已经配置过,不再赘述。 2.先拷贝一份mapred-site.xml,配置mapreduce使用yarn框架[hadoop@master hadoop]$ vim mapred-site.xml<con...原创 2018-07-17 13:49:20 · 428 阅读 · 0 评论 -
Hbase中rowkey设计技巧
一、Hbase中的每条记录的结构Hbase的表组成:一个表可以理解成是行的集合,行(记录)是列族的集合,列族是列的集合。(1) 列族column family:它是column的集合,在创建表的时候就指定,不能频繁修改。值得注意的是,列族的数量越少越好,因为过多的列族相互之间会影响,生产环境中的列族一般是一个到两个。数据的持久化文件HFile中是按照Key-Value存储的,同一个列族...转载 2018-07-10 14:55:26 · 1426 阅读 · 0 评论 -
Hadoop HA搭建及检验
1.备份原来的完全分布式集群[hadoop@master etc]$ cp hadoop hadoop-full[hadoop@master etc]$ lshadoop hadoop-full2.第一台机器和第二台机器的双向ssh免密钥登录(hadoop搭建已经配好) 3.修改hdfs-site.xml&lt;configuration&gt; 19 &lt;pr...原创 2018-07-16 14:52:26 · 790 阅读 · 0 评论 -
日志分析
一、日志分析 Lamda架构,常规的做法是使用两个数据库来存储数据输出表,一个存储事实表,相应实时查询需求,另外一个存储批处理表,返回离线计算结果。 由三层组成: 1.批处理层:Hadoop,Spark,Tez都可以作为批处理层的处理工具,HDFS,HBase都可以作为数据持久化系统。 2.服务层:用于加载和实现数据库中的批处理视图,以便用户能够查询,不一定需要随机写,但是支持批更新和随机...原创 2018-06-27 16:38:06 · 536 阅读 · 0 评论 -
Flume安装配置
一、简介 Apache Flume是一个分布式的、可靠的、可用的系统,可以有效地收集、聚合和移动大量的日志数据,从许多不同的数据源到一个集中的数据存储。 Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,所以可以使用Flume来传输大量的事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息和几乎所有可能的数据源。一个Flume事件被定义为一个具有字节...原创 2018-06-19 22:04:46 · 4450 阅读 · 0 评论 -
Zookeeper集群配置
前言:大数据生态圈一个很重要的角色Zookeeper,是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务-----分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)。作用:简化分布式应用协调及其管理的难度,提供高性能的分布式服务。Zoo...原创 2018-04-16 14:11:53 · 410 阅读 · 0 评论