![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
笔记
文章平均质量分 60
@Heartworm
这个作者很懒,什么都没留下…
展开
-
sql语句———多表联查
连接查询内连接:相当于查询集合A与集合B的交集部分外连接左外连接:查询左表所有数据,以及两张表交集部分数据右外连接:查询右表所有数据,以及两张表交集部分数据自连接:当前表与自身的连接查询,自连接必须使用表别名-- 内连接-- 内连接演示-- 1、查询每一个员工的姓名,以及关联的部门的名称(隐式内连接实现)-- 表结构:emp,dept-- 连接条件:emp.dept_id = dept.idselect emp.name, dept.name from emp, dept w原创 2022-04-22 13:11:15 · 27256 阅读 · 0 评论 -
Redhat虚拟机配置
Redhat镜像文件在主页资源里可以找到嗷原创 2022-04-12 13:52:52 · 1004 阅读 · 0 评论 -
搭建Lambda架构日志分析流水线
搭建日志分析流水线1 准备工作(1)启动HDFSa)启动所有的Zookeeper,在3个节点分别使用以下命令:zkServer.sh startb)启动HDFS,在master节点使用以下命令:start-dfs.shc)启动Yarn,在master节点使用以下命令:start-yarn.shd)检查进程是否全部启动,在3个节点分别使用以下命令:jps(2)启动和配置Kafkaa)启动kafka,在3个节点分别使用以下命令:kafka-server-start.sh -d原创 2022-04-06 19:00:13 · 2773 阅读 · 1 评论 -
附加数据源kafka日志数据采集
附加数据源:kafkakafka是一款由Apache软件基金会开源,采用Scala语言编写的一个基于zookeeper的分布式发布订阅消息系统。kafka最初是由LinkedIn开发,并于2011年初被贡献给了Apache基金会并成为顶级开源项目。kafka最初的设计目的是制作一个低延时、高吞吐(同时能传输的数据量)并且高可的消息队列。简单的说就是负责将数据从一个应用传递到另外一个应用,各个应用只需关注于数据的使用,无需关注数据在是如何传递的工具。kafka的架构如下图所示:1.Record:kafk原创 2022-03-24 08:00:00 · 1056 阅读 · 0 评论 -
附加源flume日志数据采集
Flume是非常流行的日志采集系统,可以作为Spark Streaming的附加数据源。具体使用步骤如下所示:(1)登录Linux系统;(2)创建/home/hadoop/spark/streaming/flume目录,使用以下命令:mkdir -p /home/hadoop/spark/streaming/flume(3)进入/home/hadoop/spark/streaming/flume目录,使用以下命令:cd /home/hadoop/spark/streaming/flume(4原创 2022-03-23 22:32:01 · 2695 阅读 · 0 评论 -
sql on spark知识点
为什么使用Spark SQLSpark的全栈解决方案为用户提供了多样的数据分析框架,机器学习、图计算、流计算如火如荼的发展和流行吸引了大批的学习者,为什么人们今天还是要重视在大数据环境下使用SQL 呢?主要有以下几点原因:(1)易用性与用户惯性。在过去的很多年中,有大批的程序员的工作是围绕着数据库和应用的架构来做的,因为的易用性提升了应用的开发效率。程序员已经习惯了业务逻辑代码调用SQL的模式去写程序,惯性的力量是强大的,如果还能用原有方式解决现有的大数据问题,何乐而不为呢?提供SQL和JDBC的支持会原创 2022-03-21 07:52:35 · 257 阅读 · 0 评论 -
Spark Streaming
Spark Streaming介绍随着大数据的发展,人们对大数据的处理要求也越来越高,传统的MapReduce等批处理框架在某些特定领域(如实时用户推荐、用户行为分析)已经无法满足人们对实时性的需求,因此诞生了一批如S4、Storm的流式的、实时计算框架。而Spark由于其优秀的调度机制,快速的分布式计算能力,能够以极快的速度进行迭代运算。正是由于Spark的这些优势,使得Spark能够在某种程度上进行实时处理,Spark Streaming正是构建在此之上的流式框架。Spark Streaming作为原创 2022-03-17 15:57:09 · 3715 阅读 · 0 评论 -
项目实现:电商网站日志采集系统(六:定时任务)
六.定时任务编辑定时任务,使用以下命令:Crontab -e 如图:输入3写入以下内容:10 * * * * /home/hadoop/web_log/web_log_import.sh15 * * * * /home/hadoop/web_log/web_log_analysis.sh20 * * * * /home/hadoop/web_log/web_log_export.sh****************************************************原创 2021-12-16 12:20:23 · 350 阅读 · 0 评论 -
项目实现:电商网站日志采集系统(五:保存分析结果)
(1)使用管理员账户和密码登录MySQL,使用以下命令:mysql -u debian-sys-maint -p(2)创建web_log数据库,使用以下命令:CREATE DATABASE IF NOT EXISTS web_log;(3)创建web_log用户,设置密码为123456,使用以下命令:CREATE USER ‘web_log'@'%' IDENTIFIED BY ‘123456’;FLUSH PRIVILEGES;(4)授予web_log用户操作web_log数据库的权限原创 2021-12-16 12:16:27 · 1805 阅读 · 0 评论 -
项目实现:电商网站日志采集(四.搭建数据仓库)
四.搭建数据仓库数仓搭建分为Ods(数据运营层)数据原始层,最接近数据源中数据的一层Dwd(数据仓库层)从ODS获得数据建立数据模型DWB:data warehouse base 数据基础层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。Dws(服务数据层)整合汇总成分析某一个主题域的服务数据,一般是宽表Ads(数据服务层)该层主要是提供数据产品和数据分析使用的数据,宽表一般就放在这里写两个脚本和一个udf函数(1)创建编辑web_log_import.sh 脚本文件内容:原创 2021-12-16 12:04:57 · 1870 阅读 · 0 评论 -
Ubuntu安装MySQL时出现E: Unable to locate package mysql-server 的解决方法
在Ubuntu系统下,利用apt-get install安装MySQL时sudo apt-get install mysql-server 出现如下问题:解决的办法:使用命令 sudo apt-get update 更新软件源sudo apt-get install mysql-server然后再输入 sudo apt-get install mysql-server 问题解决sudo apt-get install mysql-server...原创 2021-12-15 10:10:20 · 2202 阅读 · 0 评论 -
项目实现:电商网站日志分析平台(三:etl数据清洗)
本篇为第三篇,剩余请移步主页查看本篇需要eclipse三.Etl数据清洗(1)在eclipse连接Hadoop,通过xshell进行连接,并进行Hadoop可视化(2)在eclipse创建Etl mapreduce项目(3)在eclipse进行编写NginxEtlMapper 和NginxETLDiver这两个类NginxEtlMapper类代码:package ETL;import java.io.IOException;import org.apache.hadoop.io原创 2021-12-15 09:52:54 · 955 阅读 · 0 评论 -
项目实现:电商网站日志分析平台(二:采集日志数据)
本篇为第二篇,剩余请移步主页查看第二步:采集日志数据准备工作:(1)开启3台虚拟机(2)3台虚拟机用xshell启动zookeeper(3)3台启动Hadoop在master群起后jps查看节点在slave1查看节点:在slave2查看节点:1.创建/home/hadoop/web_log目录,使用以下命令:mkdir /home/hadoop/web_log2.进入/home/hadoop/web_log目录,使用以下命令:cd /home/hadoop/web_log/原创 2021-12-15 09:18:57 · 1754 阅读 · 0 评论 -
项目实现:电商网站日志分析平台(一.获取数据源)
本项目连载4篇,本篇为第一篇,剩余在主页查看准备:下载shop.html第一步:获取数据源通过nginx服务器进行生成日志信息1.安装nginx,使用以下命令:sudo apt-get install nginx2.上传shop.html文件到/home/hadoop/然后在home/hadoop/里mv shop.html文件到/var/www/html目录在/var/www/html查看是否上传成功3.在浏览器通过自己的http://IP/shop.html访问网页,网页会产生访问日原创 2021-12-15 09:08:25 · 1534 阅读 · 2 评论 -
Flume知识点总结
点击查看flume安装配置教程1、概念Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一般的采集需求,通过对flume的简单配置即可实现Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景。2、运行机制Flume分布式系统中最核心的角色原创 2021-12-09 23:56:44 · 190 阅读 · 0 评论 -
Flume安装
准备事项到flume官网下载安装包flume安装官网1.上传flume到master的/home/hadoop目录拖拽安装包到xshell的sftp连接进行上传2.把flume压缩文件解压到/usr/local中,使用以下命令:sudo tar -xvf apache-flume-1.9.0-bin.tar.gz -C /usr/local3.进入/usr/local目录,使用以下命令:cd /usr/local4.将解压后的apache-flume-1.9.0-bin目录重命名为fl原创 2021-12-09 09:33:20 · 241 阅读 · 0 评论 -
sqoop知识点
一、Sqoop概述1.1 Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(如MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop2的最新版本1.99.7;注意:2与1不兼容,且特征不完整,它并不打算用于生产部署;Sqoop1使用最多。1.2 Sqoop原理将导入或导出命令翻译成mapred原创 2021-12-08 19:26:45 · 529 阅读 · 0 评论 -
hdfs错误待机状态: Operation category READ is not supported in state standby
初步判断是由于HA节点中处于standby状态造成的异常,困扰:项目开放的hdfs端口只有一台服务器原因: 原来nn1机器是active,nn2是standby, 现在nn1变成了standby。(1)在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,而Standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换。(2)hadoop2.原创 2021-12-08 17:27:38 · 2115 阅读 · 1 评论 -
hbase基础知识点
1.rowkey设计原则?(1)Rowkey 长度原则Rowkey 是一个二进制码流,Rowkey 的长度被很多开发者建议说设计在10~100 个字节,不过建议是越短越好,不要超过 16 个字节。原因如下:① 数据的持久化文件 HFile 中是按照 KeyValue 存储的,如果 Rowkey 过长比如 100 个字节,1000 万列数据光 Rowkey 就要占用 100*1000 万=10 亿个字节, 将近 1G 数据,这会极大影响 HFile 的存储效率;② MemStore 将缓存部分数据到原创 2021-12-06 16:17:37 · 1671 阅读 · 0 评论 -
HBase安装
前提条件要先安装对应版本的hadoop和zookeeper,本次安装hbase-1.4.13版本下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/1.4.13/hbase-1.4.13-bin.tar.gz安装与配置步骤1:上传HBase到/home/hadoop2:把HBase压缩文件解压到/usr/local中,使用以下命令:sudo tar -xvf hbase-1.4.13-bin.tar.gz -C /usr/local3原创 2021-12-01 16:00:08 · 856 阅读 · 0 评论 -
HBase运行流程图
列存储的优点:1)减少存储空间占用。2)⽀支持好多列HBase的特点: 海量存储(基于HDFS);列式存储;支持高并发;易扩展;稀疏;数据多版本;数据类型单一(全部用字节数组来存储)列存储的优点:1)减少存储空间占用。2)⽀支持好多列HBase的特点: 海量存储(基于HDFS);列式存储;支持高并发;易扩展;稀疏;数据多版本;数据类型单一(全部用字节数组来存储)HBase数据逻辑结构HBase整体架构:HBase shell操作: put; get; rowkey的范围值查询(非常重要)row原创 2021-12-01 14:51:18 · 1257 阅读 · 0 评论 -
虚拟机中ip消失
虚拟机中ip突然就找不到了前言方法一:方法二:方法三:前言之前在使用虚拟机的时候ip老是找不到,然后今天有出现了,之前的已经解决了。下面我就总结的几个我碰到的解决ip找不到的方法。希望对你能够有帮助方法一:查看服务:右击我的电脑->管理->服务和应用程序->服务在“服务”里找到和VMware相关的进程,将VMware NAT Service、VMware DHCP Service启动即可(最好也将其他与VMware相关的也启动)。方法二:虚拟机中如果使用ifcon原创 2021-12-01 14:27:05 · 5018 阅读 · 7 评论 -
HDFS上传流程
客户端发送上传请求谁接受?namenode接受完之后干嘛?查看文件是否存在,父目录是否存在检查完之后干嘛?namenode向客户端发送是否可以上传可以上传之后,我们应该干嘛?检查块(数据)是否是128M的1.1倍大于128M的1.1倍怎么办?进行切片(按照128M进行切片)小于128M的1.1倍怎么办?不进行切片,按照原数据进行上传数据知道了客户端问namenode把块(数据)存放到哪?namenode根据副本存储策略(就近原则)找到三个datanode节点找到节点之后,我们干原创 2021-12-01 09:54:53 · 1092 阅读 · 0 评论 -
hadoop知识点详解(含金量高)
文章有点长,耐心看完嗷1.什么是HDFS文件系统?HDFS是大数据开源框架hadoop的组件之一,全称(Hadoop Distributed File System),它是一个分布式文件系统,由多台服务器联合起来实现文件存储功能,通过目录树来定位文件,集群中的服务器都有有各自的角色。2.HDFS文件系统有什么特点?1.数据通过副本存储,提高容错性2.能够处理PB级及以上数据,可处理百万级文件数量3.节约成本,可分布在“廉价”机器上4.不适合低延时数据访问5.不适合对大量文件的存储和访问6.单线原创 2021-12-01 09:48:57 · 441 阅读 · 0 评论 -
hive练习题(含面试题目)
1、学生表 如下:自动编号 学号 姓名 课程编号 课程名称 分数1 2005001 张三 0001 数学 692 2005002 李四 0001 数学 893 2005001 张三 0001 数学 69删除除了自动编号不同, 其他都相同的学生冗余信息:delete tablename where 自动编号 not in (select min( 自动编号)from tablenamegroup by 学号, 姓名, 课程编号原创 2021-12-01 01:28:48 · 1551 阅读 · 0 评论 -
shuffle机制(文字加图解)
1)基础知识:Mapreduce确保每个reducer的输入都是按键排序的。系统执行排序的过程(即将map输出作为输入传给reducer)称为shuffle。shuffle阶段是从map方法输出数据以后开始到reduce方法输入数据之前结束。分区的数量 = ReduceTask数量 = 结果文件的数量2)流程详解上面的流程是整个mapreduce最全工作流程,但是shuffle过程只是从第7步开始到第16步结束,具体shuffle过程详解,如下:1)maptask收集我们的map()方法输原创 2021-11-29 17:30:40 · 338 阅读 · 0 评论 -
hive(基于hadoop)知识点
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。一、概述1-1 数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反应历史变化(Time Variant)的数据集合,用于支持管理决策。原创 2021-11-29 15:55:25 · 1693 阅读 · 0 评论 -
Hadoop分布式集群搭建
1.基础环境准备下载虚拟机双击安装包进入安装界面接受协议:建议更改安装路径取消启动时检查产品检查更新勾选桌面和开始菜单快捷方式点击下一步,准备安装安装完成下载Ubuntu 18 镜像选择典型标注:别输错,后期会报错...原创 2021-11-28 12:04:37 · 594 阅读 · 0 评论 -
Hive安装(2.3.9版本)
1.hive的下载地址,Hive版本为2.3.9https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.9/2.上传Hive3.把Hive压缩文件,解压``到/usr/local中,使用以下命令:sudo tar -xvf apache-hive-2.3.7-bin.tar.gz -C /usr/local4.进入/usr/local目录,使用以下命令:cd /usr/local5.将解压后的apache-hive-2.3.7-b原创 2021-11-28 10:59:37 · 838 阅读 · 0 评论 -
zookeeper基础知识点
1.ZooKeeper是什么?ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供给用户。客户端的读请求可以被集群中的任意一台机器处理,如果读请求在节点上注册了监听器,这个监听器也是由所连接的zookeeper机器来处理。对于写请求,这些请求会同时发给其他zookeeper机器并且达成一致后,请求才会返回成功。因原创 2021-11-28 10:30:32 · 502 阅读 · 0 评论 -
Hive安装(2.3.7版本)
List itemhive的下载地址,Hive版本为2.3.7https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.7/2.上传Hive3.把Hive压缩文件,解压到/usr/local中,使用以下命令:sudo tar -xvf apache-hive-2.3.7-bin.tar.gz -C /usr/local14.进入/usr/local目录,使用以下命令:cd /usr/local15.将解压后的apache-hive-2.3..原创 2021-08-31 08:02:11 · 372 阅读 · 0 评论