自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 流程

本题是一个综合练习题目总共包括以下部分:1.数据的预处理阶段2.数据的入库操作阶段3.数据的分析阶段4.数据保存到数据库阶段5.数据的查询显示阶段给出数据格式表和数据示例,请先阅读数据说明,再做相应题目。数据说明:表1-1 视频表字段 备注 详细描述video id 视频唯一id(String) 11位字符串uploader 视频上传者(String) 上传视频的用户名Str...

2020-01-07 11:26:26 946

原创 HBASE 常用的Shell命令汇总

进入HBase客户端命令操作界面bin/hbase shell查看帮助命令hbase(main):001:0> help表的增删改查看当前数据库中有哪些表list创建一张表create 'user', 'info', 'data'说明: user是表名,info是第一个列族的名字,data是第二个列族的名字或者create 'user', {NAME =&...

2019-12-16 11:43:50 274

原创 HBase基本介绍与安装

简介hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储结构化和半结构化的松散数据。Hbase查询数据功能很简单,不支持join等复...

2019-12-12 17:38:46 316

原创 Apache Impala 安装与介绍

Impala基本介绍impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具,impala是参照谷歌的新三篇论文(Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具)当中的Dremel实现而来,其中旧三篇论...

2019-12-10 20:08:46 580

原创 Apache Hue安装与介绍

1. Hue是什么HUE=Hadoop User ExperienceHue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue,可以在浏览器端的Web控制台上与Hadoop集群进行交互,来分析处理数据,例如操作H...

2019-12-10 19:39:02 412

原创 Azkaban介绍与安装部署

Azkaban介绍Azkaban是由linkedin(领英)公司推出的一个批量工作流任务调度器,用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。Azkaban功能特点:• 提供功能清晰,简单易用的Web UI界面• 提供job配置文件快速建立任务和任务之间的依赖关系• ...

2019-12-10 17:54:20 292

原创 Apache Flume介绍以及安装

Apache Flume 安装包下载地址:链接: https://pan.baidu.com/s/1N0zS4Y_VIL4s1LaF3sXS4A 提取码: 12cd **1. 概述**Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。Flume的核心是把数据从数据源(source)收集过来,再将收集到的数据送到指定的目的地(sink)...

2019-12-05 14:29:52 635

原创 西游记团队中如果需要裁员掉一个人,会先裁掉谁?

2019年互联网寒冬,大批企业开始裁员,下图是网上流传的一张截图:裁员不可避免,那如何才能做到不管大环境如何变化,自身不受影响呢?我们先来看一个有意思的故事,如果西游记取经团队需要裁员一名,会裁掉谁呢,为什么?西游记团队组成:1.唐僧作为团队teamleader,有很坚韧的品性和极高的原则性,不达目的不罢休,遇到任何问题,都没有退缩过,又很得上司支持和赏识(直接得到唐太宗的任命,既给...

2019-12-04 08:20:26 3190

原创 Sqoop导出

将数据从Hadoop生态体系导出到RDBMS数据库导出前,目标表必须存在于目标数据库中。export有三种模式:默认操作是从将文件中的数据使用INSERT语句插入到表中。更新模式:Sqoop将生成UPDATE替换数据库中现有记录的语句。调用模式:Sqoop将为每条记录创建一个存储过程调用。以下是export命令语法:$ sqoop export (generic-args) (expo...

2019-11-29 10:47:52 855 2

原创 sqoop导入

“导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的 记录。所有记录都存储为文本文件的文本数据下面的语法用于将数据导入HDFS。$ sqoop import (generic-args) (import-args)Sqoop测试表数据在mysql中创建数据库userdb,然后执行参考资料中的sql脚本:创建三张表: emp雇员表、 emp_add雇员地址表、em...

2019-11-29 10:38:14 523 1

原创 sqoop介绍与安装

Apache SqoopApache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体系包括:...

2019-11-29 09:29:59 1297

原创 hive如何开启输出阶段压缩

开启Map输出阶段压缩开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。具体配置如下:开启hive中间传输数据压缩功能set hive.exec.compress.intermediate=true;开启mapreduce中map输出压缩功能set mapreduce.map.output.compress=true;设置mapreduce中map输出数...

2019-11-28 09:45:53 1321

原创 Hive如何创建数据库与数据库表并指定字段之间的分隔符

hive 数据库操作创建数据库create database if not exists myhive;使用数据库use myhive;说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的hive.metastore.warehouse.dir/user/hive/warehouse创建数据库并指定hdfs存储位置create database my...

2019-11-27 08:50:22 1994

原创 Hive所有字段类型汇总

2019-11-27 08:45:54 2090

原创 HIVE的安装部署

derby版hive直接使用:缺点:多个地方安装hive后,每一个hive是拥有一套自己的元数据,大家的库、表 就不统一;解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C …/servers/直接启动 bin/hivebin/hive用mysql共享hive元数据mysql...

2019-11-27 08:41:27 1216

原创 MapReduce如何开启压缩算法对结果进行压缩

注:本文使用snappy算法进行压缩 内容在驱动类里面修改方式一:在代码中进行设置压缩设置map阶段的压缩Configuration configuration = new Configuration();configuration.set(“mapreduce.map.output.compress”,“true”);configuration.set(“mapreduce.map.o...

2019-11-27 08:37:34 1372

原创 HDFS的shell命令操作

[root@node01 Hadoop-2.6.0-cdh5.14.0]# bin/hdfs dfsUsage: Hadoop fs [generic options][-appendToFile … ][-cat [-ignoreCrc] …][-checksum …][-chgrp [-R] GROUP PATH…][-chmod [-R] <MODE[,MODE]…...

2019-11-27 08:32:41 1210

原创 大数据环境搭建篇 CDH分布式环境搭建 (支持snappy)

准备:1.配置好java环境变量2.配置好主机名/etc/sysconfig/network3.配置好hosts /etc/hosts4.配置好免密登录ssh5.关闭selinux以及防火墙第一步:上传压缩包并解压将我们重新编译之后支持snappy压缩的Hadoop包上传到第一台服务器并解压(我会在片尾留下链接,大家可自行下载)第一台机器执行以下命令cd /export/soft...

2019-11-27 08:02:29 1340 1

原创 如何搭建NTP时间同步服务器

安装NTPD服务端rpm -qa ntp | grep ntpd检测是否已经安装,如未安装执行yum安装服务yum install ntp关闭防火墙service iptables stop设置开启不自动启动防火墙chkconfig iptables off修改配置文件/etc/ntp.conf​ 添加如下内容​restrict 192.168.100.0 mask 255.2...

2019-11-27 07:56:56 1701

原创 CentOS6.9服务器安装jdk1.8 配置使用java环境变量

第一步 解压缩jdk在官网下载jdk-8u144-linux-x64.tar.gz 之后上传到linux服务器使用解压缩命令解压出来到任意目录 例如我解压到根目录 /下使用命令tar -zxvf jdk-8u144-linux-x64.tar.gz -C /进行解压第二步 配置环境变量PS:网上很多是用修改/etc下的profile 文件来进行环境变量配置的,但是个人觉得这样的方式太...

2019-11-26 17:40:40 1336

原创 CentOS6.9 如何配置yum本地资源库

必须断开网络连接查看文件是否挂载成功清空yum缓冲查看Packages文件中的信息过滤文件进入etc/yum.repos.d文件夹将所有文件都移入到old文件中将文件拷贝到当前目录下面,修改文件名为local.repo修改配置文件保存退出...

2019-11-26 17:37:33 1315

原创 Linux 在虚拟机中如何新增一块硬盘

挂载新的硬盘1.1 目标虚拟机 增加一块 硬盘1.2 路径第一步: 了解linux系统分区的原理第二步: 查看系统分区情况第三步: 虚拟机 增加 硬盘第四步: 分区第五步: 格式化第六步: 挂载第七步: 设置重启后 挂载不失效1.3 实现第一步: 了解linux系统分区的原理一个硬盘可以分成多个分区用户不能直接操作硬件, 需要 让硬件和系统的目录 建立映射关系(挂载) ...

2019-11-26 17:33:27 4167 1

原创 Centos6.9 如何设置本地yum源

第一步首先我们需要在VMware中将Centos的安装包进行挂载第二步输入命令df -h 查看当前连接的光驱的名称 一般为 sr0下面的例子中名字皆为sr0 如果你的名字不是sr0请自行改更改第三步在挂载之前在/mnt下创建文件夹cdrom mkdir /mnt/cdrom将这个光驱进行挂载 mount /dev/sr0 /mnt/cdrom第四步将/etc/yum.repos...

2019-11-26 17:27:13 2801 1

原创 windows开启“卓越性能”模式

一般我们的电脑电源选项中只有几下几项:其实在一些版本的Windows10中微软添加了一项“卓越性能”模式,开启此模式可以把电脑的硬件发挥最大的性能管理员运行“cmd”,运行如下命令即可打开:powercfg -duplicatescheme e9a42b02-d5df-448d-aa00-03f14749eb61写在后面:站长建议普通笔记本电脑没有必要开启此模式,此模式是将CPU和显...

2019-11-26 17:22:31 2571

原创 Linux启用Google BBR教程-

BBR是Google的TCP阻塞控制算法,可以最大程度的利用带宽,提升网络传输速率。Linux内核4.9及以上已支持tcp_bbr(Debian 9之后版本和Ubuntu 17.04之后版本支持直接开启BBR,CentOS 7需要升级内核后开启BBR)。CentOS 7升级内核(Debian和Ubuntu跳过)查看当前内核版本:uname -r安装 ELRepo repo:sudo rp...

2019-11-26 17:20:19 2504

原创 大数据这么火,什么是大数据呢?

大数据”是一个术语,用来描述一种数据集,它及其庞大、复杂,以至于畅通的数据处理应用程序难以应对。术语“大数据”通常指的是应用预测分析、用户行为分析或者某些其他从数据中提取有价值信息的高级数据分析方法,并不是专指某特定规模的数据集。大数据的概念根据维基百科所说的大数据由巨型数据集组成,主要从两个方面解释了“大数据”的概念:满足“大数据”首先要数据量巨大,巨大到什么程度哪?就是传统的数据处理程序...

2019-11-26 17:17:13 1448

原创 Ubuntu如何安装Java环境

步骤1:下载jdk我选择的jdk版本文件: jdk-8u221-linux-x64.tar.gz步骤2:创建单独的目录sudo mkdir /usr/local/java步骤3:将下载的文件复制到我们创建的文件夹下sudo cp /home/lsk/Downloads/jdk-8u131-linux-x64.tar.gz /usr/local/java (注意lsk是我的用户名,jdk版...

2019-11-26 17:09:38 1168

原创 如何彻底关闭Windows10自动更新?

## 标题如何彻底关闭Windows10自动更新?Windows10是微软新一代桌面操作系统,华丽的图标,扁平的界面,平滑的切换,给人一种舒适的操作体验。但是,新系统的问题也是层出不穷,尤其是更新以后,会出现许多莫明其妙的问题。那么,怎样能保持住稳定的系统版本,不让系统自动升级呢?只有彻底关闭Windows10自动更新,才能真正的解决问题,下面我来给大家演示一下。一、关闭Windows Upd...

2019-11-26 17:07:17 1308

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除