- 博客(47)
- 资源 (2)
- 收藏
- 关注
原创 MySQL--数据库的基本操作指令
utf8_general_ci对于插入的字符字母不区分大小写,utf8_bin则区分大小写,我们尝试创建两个不同校验集的数据库验证一下。语句:mysqldump -P (端口号) -u (用户) -p (密码) -B 数据库名称 > /存放路径/数据库名称.sql;结论:不同的校验集会影响读取数据的方式,在执行各种需要读取到数据库数据的操作时,不同校验集可能会有不同的结果。(dp_name是要被删除的数据库的名字)创建数据库时,有两个编码集,一个叫数据库编码集,一个叫数据库校验集。
2024-05-05 14:37:18
1079
1
原创 sql语句———多表联查
连接查询内连接:相当于查询集合A与集合B的交集部分外连接左外连接:查询左表所有数据,以及两张表交集部分数据右外连接:查询右表所有数据,以及两张表交集部分数据自连接:当前表与自身的连接查询,自连接必须使用表别名-- 内连接-- 内连接演示-- 1、查询每一个员工的姓名,以及关联的部门的名称(隐式内连接实现)-- 表结构:emp,dept-- 连接条件:emp.dept_id = dept.idselect emp.name, dept.name from emp, dept w
2022-04-22 13:11:15
28321
原创 搭建Lambda架构日志分析流水线
搭建日志分析流水线1 准备工作(1)启动HDFSa)启动所有的Zookeeper,在3个节点分别使用以下命令:zkServer.sh startb)启动HDFS,在master节点使用以下命令:start-dfs.shc)启动Yarn,在master节点使用以下命令:start-yarn.shd)检查进程是否全部启动,在3个节点分别使用以下命令:jps(2)启动和配置Kafkaa)启动kafka,在3个节点分别使用以下命令:kafka-server-start.sh -d
2022-04-06 19:00:13
2876
1
原创 附加数据源kafka日志数据采集
附加数据源:kafkakafka是一款由Apache软件基金会开源,采用Scala语言编写的一个基于zookeeper的分布式发布订阅消息系统。kafka最初是由LinkedIn开发,并于2011年初被贡献给了Apache基金会并成为顶级开源项目。kafka最初的设计目的是制作一个低延时、高吞吐(同时能传输的数据量)并且高可的消息队列。简单的说就是负责将数据从一个应用传递到另外一个应用,各个应用只需关注于数据的使用,无需关注数据在是如何传递的工具。kafka的架构如下图所示:1.Record:kafk
2022-03-24 08:00:00
1169
原创 附加源flume日志数据采集
Flume是非常流行的日志采集系统,可以作为Spark Streaming的附加数据源。具体使用步骤如下所示:(1)登录Linux系统;(2)创建/home/hadoop/spark/streaming/flume目录,使用以下命令:mkdir -p /home/hadoop/spark/streaming/flume(3)进入/home/hadoop/spark/streaming/flume目录,使用以下命令:cd /home/hadoop/spark/streaming/flume(4
2022-03-23 22:32:01
2772
原创 sql on spark知识点
为什么使用Spark SQLSpark的全栈解决方案为用户提供了多样的数据分析框架,机器学习、图计算、流计算如火如荼的发展和流行吸引了大批的学习者,为什么人们今天还是要重视在大数据环境下使用SQL 呢?主要有以下几点原因:(1)易用性与用户惯性。在过去的很多年中,有大批的程序员的工作是围绕着数据库和应用的架构来做的,因为的易用性提升了应用的开发效率。程序员已经习惯了业务逻辑代码调用SQL的模式去写程序,惯性的力量是强大的,如果还能用原有方式解决现有的大数据问题,何乐而不为呢?提供SQL和JDBC的支持会
2022-03-21 07:52:35
309
原创 Spark Streaming
Spark Streaming介绍随着大数据的发展,人们对大数据的处理要求也越来越高,传统的MapReduce等批处理框架在某些特定领域(如实时用户推荐、用户行为分析)已经无法满足人们对实时性的需求,因此诞生了一批如S4、Storm的流式的、实时计算框架。而Spark由于其优秀的调度机制,快速的分布式计算能力,能够以极快的速度进行迭代运算。正是由于Spark的这些优势,使得Spark能够在某种程度上进行实时处理,Spark Streaming正是构建在此之上的流式框架。Spark Streaming作为
2022-03-17 15:57:09
3880
原创 spark之rdd属性以及特点
一组分区(Partition),即数据集的基本组成单位;一个计算每个分区的函数;RDD之间的依赖关系;一个Partitioner,即RDD的分片函数;一个列表,存储存取每个Partition的优先位置(preferred location)。RDD特点RDD表示只读的分区的数据集,对RDD进行改动,只能通过RDD的转换操作,由一个RDD得到一个新的RDD,新的RDD包含了从其他RDD衍生所必需的信息。RDDs之间存在依赖,RDD的执行是按照血缘关系延时计算的。如果血缘关系较长,可以通过持久化R
2022-03-14 09:40:44
776
原创 SQL经典练习题及答案
SQL数据库面试题以及答案(50例题)--可执行的oracle建表SQL:--学生表create table Student(S# varchar2(100) ,Sname varchar2(100),Sage int,Ssex varchar2(100)); comment on table Student is '学生表';comment on column Student.S# is '学号';comment on column Student.Sname is '学生姓名';
2022-01-11 19:17:01
3394
原创 python小游戏
在cmd 使用命令安装:pip install freegames安装完之后我们可以使用python -m freegames list来查看所有的游戏ant 蚂蚁bagels 百吉饼bounce 反弹cannon 加农大炮 connect 五子棋 crypto 加密fidget flappy flappyguess 猜一猜life 生活maze 迷宫memo
2021-12-23 22:49:22
2758
8
转载 圣诞节给大家用python画个圣诞树
运行过程有点长嗷import turtle as t #as就是取个别名,后续调用的t都是turtlefrom turtle import *import random as rimport time n = 100.0 speed("fastest") #定义速度screensize(bg='black') #定义背景颜色,可以自己换颜色left(90)forward(3*n)color("orange", "yellow")#定义最上端星星的颜色,外圈是orang
2021-12-22 17:51:19
263
原创 python实现画樱花树
import turtle as Timport randomimport time# 画樱花的躯干(60,t)def Tree(branch, t): time.sleep(0.0005) if branch > 3: if 8 <= branch <= 12: if random.randint(0, 2) == 0: t.color('snow') # 白 e.
2021-12-22 17:36:43
1470
原创 面试专题:分布式场景
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录一、什么是CAP理论二、什么是BASE理论三.分布式ID是什么?有哪些解决方案?四.什么是RPC五.分布式锁的使用场景是什么?有哪些实现方案?六.什么是分布式事务?有哪些实现方案?七.什么是ZAB协议八.为什么Zookeeper可以用来作为注册中心九.Zookeeper中的领导者选举的流程是怎样的?十.Zookeeper集群中节点之间数据是如何同步的一、什么是CAP理论CAP理论是分布式领域中非常重要的一个指导理论,C(Co
2021-12-18 19:08:49
293
原创 项目实现:电商网站日志采集系统(六:定时任务)
六.定时任务编辑定时任务,使用以下命令:Crontab -e 如图:输入3写入以下内容:10 * * * * /home/hadoop/web_log/web_log_import.sh15 * * * * /home/hadoop/web_log/web_log_analysis.sh20 * * * * /home/hadoop/web_log/web_log_export.sh****************************************************
2021-12-16 12:20:23
407
原创 项目实现:电商网站日志采集系统(五:保存分析结果)
(1)使用管理员账户和密码登录MySQL,使用以下命令:mysql -u debian-sys-maint -p(2)创建web_log数据库,使用以下命令:CREATE DATABASE IF NOT EXISTS web_log;(3)创建web_log用户,设置密码为123456,使用以下命令:CREATE USER ‘web_log'@'%' IDENTIFIED BY ‘123456’;FLUSH PRIVILEGES;(4)授予web_log用户操作web_log数据库的权限
2021-12-16 12:16:27
1869
原创 项目实现:电商网站日志采集(四.搭建数据仓库)
四.搭建数据仓库数仓搭建分为Ods(数据运营层)数据原始层,最接近数据源中数据的一层Dwd(数据仓库层)从ODS获得数据建立数据模型DWB:data warehouse base 数据基础层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。Dws(服务数据层)整合汇总成分析某一个主题域的服务数据,一般是宽表Ads(数据服务层)该层主要是提供数据产品和数据分析使用的数据,宽表一般就放在这里写两个脚本和一个udf函数(1)创建编辑web_log_import.sh 脚本文件内容:
2021-12-16 12:04:57
1968
原创 eclipse代码:1到100既是3又是5的倍数
public static void main(String[] args) { int sum = 0; for(int i = 1 ; i <= 100 ; i++){ if(i % 3 == 0 && i % 5 == 0){ sum += i; } } System.out.println("3的倍数又是5倍数的数字之和:"+sum); }}
2021-12-15 10:38:52
1108
原创 eclipse实现银行ATM系统
package helloWorld;import java.util.Scanner;public class test03 { public static void main(String[] args) { Scanner scanner = new Scanner(System.in); /** * 注册 */ System.out.println("请输入注册用户名:"); String zhuName = scanner.next();
2021-12-15 10:18:24
1864
2
原创 eclipse实现循环购买
.package holloewWored;import java.util.Scanner;public class qwer { public static void main(String[] args) { Scanner scanner = new Scanner(System.in); System.out.print("请选择是否继续购买(y/n)"); String i = scanner.next(); while(i.equals("y")) { System
2021-12-15 10:16:57
336
原创 实现幸运抽奖注册会员
package baoguo;import java.util.Scanner;public class ssss { public static void main(String[] args) { //声明选择 String option; //声明用户名 String username = ""; int password = 0; //声明密码 int cardNumber = 0; //声明卡号
2021-12-15 10:15:41
247
原创 使用while循环实现1,2,3,4,5,7,8,9,11,12
a = 1b = Truewhile a <13:a +=1if a ==6 or a ==10:print()else:print(a)
2021-12-15 10:14:32
835
原创 Ubuntu安装MySQL时出现E: Unable to locate package mysql-server 的解决方法
在Ubuntu系统下,利用apt-get install安装MySQL时sudo apt-get install mysql-server 出现如下问题:解决的办法:使用命令 sudo apt-get update 更新软件源sudo apt-get install mysql-server然后再输入 sudo apt-get install mysql-server 问题解决sudo apt-get install mysql-server...
2021-12-15 10:10:20
2417
原创 项目实现:电商网站日志分析平台(三:etl数据清洗)
本篇为第三篇,剩余请移步主页查看本篇需要eclipse三.Etl数据清洗(1)在eclipse连接Hadoop,通过xshell进行连接,并进行Hadoop可视化(2)在eclipse创建Etl mapreduce项目(3)在eclipse进行编写NginxEtlMapper 和NginxETLDiver这两个类NginxEtlMapper类代码:package ETL;import java.io.IOException;import org.apache.hadoop.io
2021-12-15 09:52:54
1035
原创 项目实现:电商网站日志分析平台(二:采集日志数据)
本篇为第二篇,剩余请移步主页查看第二步:采集日志数据准备工作:(1)开启3台虚拟机(2)3台虚拟机用xshell启动zookeeper(3)3台启动Hadoop在master群起后jps查看节点在slave1查看节点:在slave2查看节点:1.创建/home/hadoop/web_log目录,使用以下命令:mkdir /home/hadoop/web_log2.进入/home/hadoop/web_log目录,使用以下命令:cd /home/hadoop/web_log/
2021-12-15 09:18:57
1876
1
原创 项目实现:电商网站日志分析平台(一.获取数据源)
本项目连载4篇,本篇为第一篇,剩余在主页查看准备:下载shop.html第一步:获取数据源通过nginx服务器进行生成日志信息1.安装nginx,使用以下命令:sudo apt-get install nginx2.上传shop.html文件到/home/hadoop/然后在home/hadoop/里mv shop.html文件到/var/www/html目录在/var/www/html查看是否上传成功3.在浏览器通过自己的http://IP/shop.html访问网页,网页会产生访问日
2021-12-15 09:08:25
1645
2
原创 Flume知识点总结
点击查看flume安装配置教程1、概念Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一般的采集需求,通过对flume的简单配置即可实现Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景。2、运行机制Flume分布式系统中最核心的角色
2021-12-09 23:56:44
226
原创 Flume安装
准备事项到flume官网下载安装包flume安装官网1.上传flume到master的/home/hadoop目录拖拽安装包到xshell的sftp连接进行上传2.把flume压缩文件解压到/usr/local中,使用以下命令:sudo tar -xvf apache-flume-1.9.0-bin.tar.gz -C /usr/local3.进入/usr/local目录,使用以下命令:cd /usr/local4.将解压后的apache-flume-1.9.0-bin目录重命名为fl
2021-12-09 09:33:20
299
原创 sqoop知识点
一、Sqoop概述1.1 Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(如MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop2的最新版本1.99.7;注意:2与1不兼容,且特征不完整,它并不打算用于生产部署;Sqoop1使用最多。1.2 Sqoop原理将导入或导出命令翻译成mapred
2021-12-08 19:26:45
602
原创 hdfs错误待机状态: Operation category READ is not supported in state standby
初步判断是由于HA节点中处于standby状态造成的异常,困扰:项目开放的hdfs端口只有一台服务器原因: 原来nn1机器是active,nn2是standby, 现在nn1变成了standby。(1)在hadoop2.0中通常由两个NameNode组成,一个处于active状态,另一个处于standby状态。Active NameNode对外提供服务,而Standby NameNode则不对外提供服务,仅同步active namenode的状态,以便能够在它失败时快速进行切换。(2)hadoop2.
2021-12-08 17:27:38
2447
1
原创 sqoop安装与配置
安装包下载地址1.上传sqoop到master的/home/hadoop目录2.把sqoop压缩文件解压到/usr/local中,使用以下命令:sudo tar -xvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /usr/localbin后面的下划线是两个3. 进入/usr/local目录,使用以下命令:cd /usr/local4.重命名sqoop:sudo mv sqoop-1.4.7.bin__hadoop-2.6.0/ sqoop5.
2021-12-08 16:34:08
5932
原创 hbase基础知识点
1.rowkey设计原则?(1)Rowkey 长度原则Rowkey 是一个二进制码流,Rowkey 的长度被很多开发者建议说设计在10~100 个字节,不过建议是越短越好,不要超过 16 个字节。原因如下:① 数据的持久化文件 HFile 中是按照 KeyValue 存储的,如果 Rowkey 过长比如 100 个字节,1000 万列数据光 Rowkey 就要占用 100*1000 万=10 亿个字节, 将近 1G 数据,这会极大影响 HFile 的存储效率;② MemStore 将缓存部分数据到
2021-12-06 16:17:37
1758
原创 HBase安装
前提条件要先安装对应版本的hadoop和zookeeper,本次安装hbase-1.4.13版本下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/1.4.13/hbase-1.4.13-bin.tar.gz安装与配置步骤1:上传HBase到/home/hadoop2:把HBase压缩文件解压到/usr/local中,使用以下命令:sudo tar -xvf hbase-1.4.13-bin.tar.gz -C /usr/local3
2021-12-01 16:00:08
924
原创 HBase运行流程图
列存储的优点:1)减少存储空间占用。2)⽀支持好多列HBase的特点: 海量存储(基于HDFS);列式存储;支持高并发;易扩展;稀疏;数据多版本;数据类型单一(全部用字节数组来存储)列存储的优点:1)减少存储空间占用。2)⽀支持好多列HBase的特点: 海量存储(基于HDFS);列式存储;支持高并发;易扩展;稀疏;数据多版本;数据类型单一(全部用字节数组来存储)HBase数据逻辑结构HBase整体架构:HBase shell操作: put; get; rowkey的范围值查询(非常重要)row
2021-12-01 14:51:18
1349
1
原创 虚拟机中ip消失
虚拟机中ip突然就找不到了前言方法一:方法二:方法三:前言之前在使用虚拟机的时候ip老是找不到,然后今天有出现了,之前的已经解决了。下面我就总结的几个我碰到的解决ip找不到的方法。希望对你能够有帮助方法一:查看服务:右击我的电脑->管理->服务和应用程序->服务在“服务”里找到和VMware相关的进程,将VMware NAT Service、VMware DHCP Service启动即可(最好也将其他与VMware相关的也启动)。方法二:虚拟机中如果使用ifcon
2021-12-01 14:27:05
5554
7
原创 HDFS上传流程
客户端发送上传请求谁接受?namenode接受完之后干嘛?查看文件是否存在,父目录是否存在检查完之后干嘛?namenode向客户端发送是否可以上传可以上传之后,我们应该干嘛?检查块(数据)是否是128M的1.1倍大于128M的1.1倍怎么办?进行切片(按照128M进行切片)小于128M的1.1倍怎么办?不进行切片,按照原数据进行上传数据知道了客户端问namenode把块(数据)存放到哪?namenode根据副本存储策略(就近原则)找到三个datanode节点找到节点之后,我们干
2021-12-01 09:54:53
1156
原创 hadoop知识点详解(含金量高)
文章有点长,耐心看完嗷1.什么是HDFS文件系统?HDFS是大数据开源框架hadoop的组件之一,全称(Hadoop Distributed File System),它是一个分布式文件系统,由多台服务器联合起来实现文件存储功能,通过目录树来定位文件,集群中的服务器都有有各自的角色。2.HDFS文件系统有什么特点?1.数据通过副本存储,提高容错性2.能够处理PB级及以上数据,可处理百万级文件数量3.节约成本,可分布在“廉价”机器上4.不适合低延时数据访问5.不适合对大量文件的存储和访问6.单线
2021-12-01 09:48:57
494
原创 hive练习题(含面试题目)
1、学生表 如下:自动编号 学号 姓名 课程编号 课程名称 分数1 2005001 张三 0001 数学 692 2005002 李四 0001 数学 893 2005001 张三 0001 数学 69删除除了自动编号不同, 其他都相同的学生冗余信息:delete tablename where 自动编号 not in (select min( 自动编号)from tablenamegroup by 学号, 姓名, 课程编号
2021-12-01 01:28:48
1728
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人