dakesong-CSDN博客

原创前后端分离开发模式介绍

1.1 什么是前后端分离前后端分离是目前一种非常流行的开发模式，它使项目的分工更加明确：后端：负责处理、存储数据前端：负责显示数据前端和后端开发人员通过接口进行数据的交换。1.2 为什么要进行前后端分离前后端可以身心愉快地专注于各自擅长的领域避免后端写前端代码（基本上1天时间，20%写后端代码，80%写页面…）前端配置后端代码运行环境（简直是要疯… 装一堆环境，而且有些开发环境是windows，前端是macos，装环境就要装好几天）避免前后端打架，推诿，甩锅…提高开发效率分

2020-08-11 16:57:15 50219 3

原创 scala解释器及声明变量

启动scala解释器要启动scala解释器，只需要以下几步：1 按住windows键 + r2 输入scala即可执行scala代码在scala的命令提示窗口中输入println(“hello, world”)，回车执行退出解释器在scala命令提示窗口中执行:quit，即可退出解释器声明变量语法格式Java变量定义int a = 0;在scala中，可以使用val或者...

2020-04-23 08:24:44 196

原创 Scala的开发环境安装

学习如何编写scala代码之前，需要先安装scala编译器以及开发工具Java程序编译执行流程Scala程序编译执行流程scala程序运行需要依赖于Java类库，必须要有Java运行环境，scala才能正确执行根据上述流程图，要编译运行scala程序，需要jdk（jvm）scala编译器（scala SDK）接下来，需要依次安装以下内容：安装JDK安装scala SD...

2020-04-22 08:12:39 168

原创 scala简介

https://www.runoob.com/scala/scala-arrays.htmlscala是运行在JVM上的多范式编程语言，同时支持面向对象和面向函数编程早期，scala刚出现的时候，并没有怎么引起重视，随着Spark和Kafka这样基于scala的大数据框架的兴起，scala逐步进入大数据开发者的眼帘。为什么使用scala开发大数据应用程序（Spark程序、F...

2020-04-21 21:03:46 172

原创 kettle 基本操作

Test1 csv-excelTest2 json-excelTest3 mysql -excelTest4 生成数据-excelTest5 mysql –文本Test6 json –文本Test7 json ...

2020-04-21 20:08:15 189

原创 3．Yarn三大组件介绍及运行流程

ResourceManagerResourceManager负责整个集群的资源管理和分配，是一个全局的资源管理系统。NodeManager以心跳的方式向ResourceManager汇报资源使用情况（目前主要是CPU和内存的使用情况）。RM只接受NM的资源回报信息，对于具体的资源处理则交给NM自己处理。YARN Scheduler根据application的请求为其分配资源，不负责ap...

2020-04-10 21:15:53 275

原创 Yarn通俗介绍及基本架构

资源管理调度YarnHadoop组成Hadoop HDFS：一个高可靠、高吞吐量的分布式文件系统，对海量数据的存储。Hadoop MapReduce：一个分布式的资源调度和离线并行计算框架。Hadoop Yarn：基于HDFS,用于作业调度和集群资源管理的框架。Apache Hadoop YARN1．Yarn通俗介绍Apache Hadoop YARN （Yet Anothe...

2020-04-10 21:12:55 643

原创 Hbase常用api操作

//连接数据库 Configuration conf = new Configuration(); conf.set("hbase.zookeeper.quorum", "node01:2181,node02:2181,node03:2181"); Connection connection = ConnectionFactory.createCo...

2020-01-07 10:37:41 226

原创 4．Hue集成Mysql ，Oozie ，Hbase ，Impala

4．Hue集成Mysql4.1．修改hue.ini需要把mysql的注释给去掉。大概位于1546行[[[mysql]]]nice_name=“My SQL DB”engine=mysqlhost=node-1port=3306user=rootpassword=hadoop4.2．重启huecd /export/servers/hue-3.9.0-cdh5.14.0/bu...

2019-12-17 08:43:32 622

原创 1．Hue集成HDFS，YARN ，Hive

修改core-site.xml配置注意修改完HDFS相关配置后，需要把配置scp给集群中每台机器，重启hdfs集群。1.1．<!—允许通过httpfs方式访问hdfs的主机名 --><property><name>hadoop.proxyuser.root.hosts</name><value>*</value>&...

2019-12-13 17:54:31 192

原创二、Apache Hue介绍及安装

1．Hue是什么HUE=Hadoop User ExperienceHue是一个开源的Apache Hadoop UI系统，由Cloudera Desktop演化而来，最后Cloudera公司将其贡献给Apache基金会的Hadoop社区，它是基于Python Web框架Django实现的。通过使用Hue，可以在浏览器端的Web控制台上与Hadoop集群进行交互，来分析处理数据，例如操作HD...

2019-12-12 21:29:14 320

原创 flume过滤器案例一

1. 案例场景A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log现在要求：把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。但是在hdfs中要求的目录为：/source/logs/access/20180101/**/source/logs/nginx/2018010...

2019-12-12 21:16:08 309

原创 flume的负载均衡load balancer

负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。Load balancing Sink Processor 能够实现 load balance 功能，如下图Agent1 是一个路由节点，负责将 Channel 暂存的 Event 均衡到对应的多个 Sink组件上，而每个 Sink 组件分别连接到一个独立的 Agent 上，示例配置，如下所示：在此处我们通过三台机器来进行...

2019-12-12 21:03:11 130

原创高可用Flum-NG配置案例failover

在完成单点的Flume NG搭建后，下面我们搭建一个高可用的Flume NG集群，架构图如下所示：　图中，我们可以看出，Flume的存储可以支持多种，这里只列举了HDFS和Kafka（如：存储最新的一周日志，并给Storm系统提供实时日志流）。1.4.1、角色分配Flume的Agent和Collector分布如下表所示：　图中所示，Agent1数据分别流入到Collector1和Coll...

2019-12-12 17:30:13 132

原创 Flume 实战案例两个agent级联

需求分析：第一个agent负责收集文件当中的数据，通过网络发送到第二个agent当中去，第二个agent负责接收第一个agent发送的数据，并将数据保存到hdfs上面去第一步：node02安装flume将node03机器上面解压后的flume文件夹拷贝到node02机器上面去cd /export/serversscp -r apache-flume-1.6.0-cdh5.14.0-...

2019-12-12 17:11:32 398

原创 Flume 实战案例采集文件到HDFS

需求分析：采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs根据需求，首先定义以下3大要素采集源，即source——监控文件内容更新 : exec ‘tail -F file’下沉目标，即sink——HDFS文件系统 : hdfs sinkSource和sink之间的传递通道——channel，可用file chann...

2019-12-12 16:22:55 215

原创 Flume实战案例采集目录到HDFS

1.2.1 Flume接受telent数据案例：使用网络telent命令向一台机器发送一些网络数据，然后通过flume采集网络端口数据第一步：开发配置文件根据数据采集的需求配置采集方案，描述在配置文件中(文件名可任意自定义)配置我们的网络收集的配置文件在flume的conf目录下新建一个配置文件（采集方案）vim /export/servers/apache-flume-1.6....

2019-12-11 22:20:12 489

原创 Flume 介绍及安装部署

在一个完整的离线大数据处理系统中，除了hdfs+mapreduce+hive组成分析系统的核心之外，还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统，而这些辅助工具在hadoop生态体系中都有便捷的开源框架，如图所示：1. 日志采集框架Flume1.1 Flume介绍1.1.1 概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件...

2019-12-10 20:30:13 216

原创 Sqoop job作业

job 语法Sqoop job作业1．$ sqoop job (generic-args) (job-args)[-- [subtool-name] (subtool-args)]$ sqoop-job (generic-args) (job-args)[-- [subtool-name] (subtool-args)]2．创建job在这里，我们创建一个名为itcastjob，这可以...

2019-12-10 20:22:26 156

原创 Sqoop 导出

Sqoop导出将数据从Hadoop生态体系导出到RDBMS数据库导出前，目标表必须存在于目标数据库中。export有三种模式：默认操作是从将文件中的数据使用INSERT语句插入到表中。更新模式：Sqoop将生成UPDATE替换数据库中现有记录的语句。调用模式：Sqoop将为每条记录创建一个存储过程调用。以下是export命令语法：$ sqoop export (generic-arg...

2019-12-10 20:17:01 600

原创 Sqoop 导入

Sqoop导入“导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文本数据下面的语法用于将数据导入HDFS。$ sqoop import (generic-args) (import-args)Sqoop测试表数据在mysql中创建数据库userdb，然后执行参考资料中的sql脚本：创建三张表: emp雇员表、 emp_add雇员地...

2019-12-10 20:11:06 167

原创 Sqoop介绍及安装

1．sqoop介绍*Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。*来自于Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括：HDFS、Hive、Hbase等RDBMS体系包括：M...

2019-12-10 20:01:51 89

原创 Hive 的调优

Fetch抓取（Hive可以避免进行MapReduce）Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是mor...

2019-12-10 16:55:19 149

原创 Hive 的存储和压缩结合

官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORCORC存储方式的压缩：1）创建一个非压缩的的ORC存储方式（1）建表语句create table log_orc_none(track_time string,url string,session_id string,referer stri...

2019-11-29 17:12:02 161

原创 Hive 的数据存储格式

Hive支持的存储数据的格式主要有：TEXTFILE（行式存储）、SEQUENCEFILE(行式存储)、ORC（列式存储）、PARQUET（列式存储）。列式存储和行式存储上图左边为逻辑表，右边第一个为行式存储，第二个为列式存储。行存储的特点：查询满足条件的一整行数据的时候，行存储只需要找到其中一个值，其余的值都在相邻地方。列存储则需要去每个聚集的字段找到对应的每个列的值，所以此时行存储...

2019-11-28 21:20:05 212 1

原创 Hive 的数据压缩

在实际工作当中，hive当中处理的数据，一般都需要经过压缩，前期我们在学习hadoop的时候，已经配置过hadoop的压缩，我们这里的hive也是一样的可以使用压缩来节省我们的MR处理的网络带宽MR支持的压缩编码http://google.github.io/snappy/压缩配置参数要在Hadoop中启用压缩，可以配置如下参数（mapred-site.xml文件中）：开启Map输...

2019-11-28 21:09:44 368

原创 Hive 函数

内置函数内容较多，见《Hive官方文档》https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1）查看系统自带的函数hive> show functions;2）显示自带的函数的用法hive> desc function upper;3）详细显示自带的函数的用法hive> desc...

2019-11-28 17:28:51 78

原创 Hive Shell 参数

Hive命令行语法结构hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S]说明：1、-i 从文件初始化HQL。2、-e从命令行执行指定的HQL3、-f 执行HQL脚本4、-v 输出执行的HQL语句到控制台5、-p connect to Hiv...

2019-11-28 17:19:53 200

原创 Hive 查询语法

基本的Select操作语法结构SELECT [ALL | DISTINCT] select_expr, select_expr, …FROM table_reference[WHERE where_condition][GROUP BY col_list [HAVING condition]][CLUSTER BY col_list| [DISTRIBUTE BY col_list...

2019-11-27 20:11:35 709

原创 Hive基本操作

创建数据库与创建数据库表创建数据库操作创建数据库create database if not exists myhive;use myhive;说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的hive.metastore.warehouse.dir/user/hive/warehouse创建数据库并指定hdfs存储位置create databa...

2019-11-22 09:54:20 644

原创 HIVE的安装部署及使用方式

我们在此处选择第三台机器作为我们hive的安装机器安装derby版hive直接使用：1、解压hivecd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C …/servers/1、直接启动 bin/hivecd …/servers/cd hive-1.1.0-cdh5.14.0/bin/hivehive&gt...

2019-11-22 09:36:54 184

原创 Hive 基本概念

Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能（HQL）。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，hive可以理解为一个将SQL转换为MapReduce的任务的工具。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高项目周期要求太...

2019-11-21 15:07:52 106

原创 HDFS基础面试题

怎么理解分布式？总的来说就是把一个大的数据分散拆分开来分散存储分散计算 **hadoop 的组成部分** HDFS 分布式文件存储系统管理者：NameNode 工作者：DataNode 辅助者：SecondayNameNode MapReduce 分布式离线计算框架 Yarn Hadoop资源调度器管理者：Re...

2019-11-15 21:12:24 232

原创 MapReduce基础面试题

MapReduce核心思想分而治之，先分后合分是Map 和是reduce偏移量指的是每行行首字母移动到文本的最前面需要的距离Suffle包含哪些步骤宏观层面：1.分区2.排序3.Combiner（局部聚合）4.分组MR从读取数据开始到将最终结果写入HDFS经过哪些步骤第一步：InputFormatInputFormat 在HDFS文件系统中读取要进行计算的数据输出给Sp...

2019-11-15 20:57:15 516

原创 MapReduce计算模型介绍

理解MapReduce思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖...

2019-11-11 09:11:24 1357

原创 HDFS新增节点与删除节点

准备新节点第一步：复制一台新的虚拟机出来将我们纯净的虚拟机复制一台出来，作为我们新的节点第二步：修改mac地址以及IP地址修改mac地址命令vim /etc/udev/rules.d/70-persistent-net.rules修改ip地址命令vim /etc/sysconfig/network-scripts/ifcfg-eth0第三步：关闭防火墙，关闭selinux关闭...

2019-11-07 09:18:02 187

原创 CDH 分布式环境搭建集群

安装环境服务部署规划第一步：上传压缩包并解压将我们重新编译之后支持snappy压缩的Hadoop包上传到第一台服务器并解压第一台机器执行以下命令mkdir -p /export/softwares/mkdir -p /export/servers/将Hadoop 的压缩包上传到/export/softwares/目录下（注意一定要是编译后的压缩包）cd /export/s...

2019-11-01 16:01:43 302 1

weixin_45774195的博客