@Heartworm-CSDN博客

原创 MySQL--数据库的基本操作指令

utf8_general_ci对于插入的字符字母不区分大小写，utf8_bin则区分大小写，我们尝试创建两个不同校验集的数据库验证一下。语句：mysqldump -P (端口号) -u (用户) -p (密码) -B 数据库名称 > /存放路径/数据库名称.sql;结论：不同的校验集会影响读取数据的方式，在执行各种需要读取到数据库数据的操作时，不同校验集可能会有不同的结果。（dp_name是要被删除的数据库的名字）创建数据库时，有两个编码集，一个叫数据库编码集，一个叫数据库校验集。

2024-05-05 14:37:18 1079 1

原创李峋同款爱心python实现

要在vscode编写

2022-11-09 23:45:02 11931 14

原创实现电视剧男主李峋同款爱心

下面不多说，亮出源代码和操作步骤。

2022-11-09 08:06:05 850 7

原创 sql语句———多表联查

连接查询内连接：相当于查询集合A与集合B的交集部分外连接左外连接：查询左表所有数据，以及两张表交集部分数据右外连接：查询右表所有数据，以及两张表交集部分数据自连接：当前表与自身的连接查询，自连接必须使用表别名-- 内连接-- 内连接演示-- 1、查询每一个员工的姓名，以及关联的部门的名称（隐式内连接实现）-- 表结构：emp，dept-- 连接条件：emp.dept_id = dept.idselect emp.name, dept.name from emp, dept w

2022-04-22 13:11:15 28321

原创 Redhat虚拟机配置

Redhat镜像文件在主页资源里可以找到嗷

2022-04-12 13:52:52 1071

原创搭建Lambda架构日志分析流水线

搭建日志分析流水线1 准备工作（1）启动HDFSa)启动所有的Zookeeper，在3个节点分别使用以下命令：zkServer.sh startb)启动HDFS，在master节点使用以下命令：start-dfs.shc)启动Yarn，在master节点使用以下命令：start-yarn.shd)检查进程是否全部启动，在3个节点分别使用以下命令：jps（2）启动和配置Kafkaa)启动kafka，在3个节点分别使用以下命令：kafka-server-start.sh -d

2022-04-06 19:00:13 2876 1

原创附加数据源kafka日志数据采集

附加数据源：kafkakafka是一款由Apache软件基金会开源，采用Scala语言编写的一个基于zookeeper的分布式发布订阅消息系统。kafka最初是由LinkedIn开发，并于2011年初被贡献给了Apache基金会并成为顶级开源项目。kafka最初的设计目的是制作一个低延时、高吞吐（同时能传输的数据量）并且高可的消息队列。简单的说就是负责将数据从一个应用传递到另外一个应用，各个应用只需关注于数据的使用，无需关注数据在是如何传递的工具。kafka的架构如下图所示：1.Record：kafk

2022-03-24 08:00:00 1169

原创附加源flume日志数据采集

Flume是非常流行的日志采集系统，可以作为Spark Streaming的附加数据源。具体使用步骤如下所示：（1）登录Linux系统；（2）创建/home/hadoop/spark/streaming/flume目录，使用以下命令：mkdir -p /home/hadoop/spark/streaming/flume（3）进入/home/hadoop/spark/streaming/flume目录，使用以下命令：cd /home/hadoop/spark/streaming/flume（4

2022-03-23 22:32:01 2772

原创 sql on spark知识点

为什么使用Spark SQLSpark的全栈解决方案为用户提供了多样的数据分析框架，机器学习、图计算、流计算如火如荼的发展和流行吸引了大批的学习者，为什么人们今天还是要重视在大数据环境下使用SQL 呢？主要有以下几点原因：（1）易用性与用户惯性。在过去的很多年中，有大批的程序员的工作是围绕着数据库和应用的架构来做的，因为的易用性提升了应用的开发效率。程序员已经习惯了业务逻辑代码调用SQL的模式去写程序，惯性的力量是强大的，如果还能用原有方式解决现有的大数据问题，何乐而不为呢？提供SQL和JDBC的支持会

2022-03-21 07:52:35 309

原创 Spark Streaming

Spark Streaming介绍随着大数据的发展，人们对大数据的处理要求也越来越高，传统的MapReduce等批处理框架在某些特定领域（如实时用户推荐、用户行为分析）已经无法满足人们对实时性的需求，因此诞生了一批如S4、Storm的流式的、实时计算框架。而Spark由于其优秀的调度机制，快速的分布式计算能力，能够以极快的速度进行迭代运算。正是由于Spark的这些优势，使得Spark能够在某种程度上进行实时处理，Spark Streaming正是构建在此之上的流式框架。Spark Streaming作为

2022-03-17 15:57:09 3880

原创 spark之rdd属性以及特点

一组分区（Partition），即数据集的基本组成单位;一个计算每个分区的函数;RDD之间的依赖关系;一个Partitioner，即RDD的分片函数;一个列表，存储存取每个Partition的优先位置（preferred location）。RDD特点RDD表示只读的分区的数据集，对RDD进行改动，只能通过RDD的转换操作，由一个RDD得到一个新的RDD，新的RDD包含了从其他RDD衍生所必需的信息。RDDs之间存在依赖，RDD的执行是按照血缘关系延时计算的。如果血缘关系较长，可以通过持久化R

2022-03-14 09:40:44 776

原创 SQL经典练习题及答案

SQL数据库面试题以及答案（50例题）--可执行的oracle建表SQL:--学生表create table Student(S# varchar2(100) ,Sname varchar2(100),Sage int,Ssex varchar2(100)); comment on table Student is '学生表';comment on column Student.S# is '学号';comment on column Student.Sname is '学生姓名';

2022-01-11 19:17:01 3394

原创 python小游戏

在cmd 使用命令安装：pip install freegames安装完之后我们可以使用python -m freegames list来查看所有的游戏ant 蚂蚁bagels 百吉饼bounce 反弹cannon 加农大炮 connect 五子棋 crypto 加密fidget flappy flappyguess 猜一猜life 生活maze 迷宫memo

2021-12-23 22:49:22 2758 8

转载圣诞节给大家用python画个圣诞树

运行过程有点长嗷import turtle as t #as就是取个别名，后续调用的t都是turtlefrom turtle import *import random as rimport time n = 100.0 speed("fastest") #定义速度screensize(bg='black') #定义背景颜色，可以自己换颜色left(90)forward(3*n)color("orange", "yellow")#定义最上端星星的颜色，外圈是orang

2021-12-22 17:51:19 263

原创 python实现画樱花树

import turtle as Timport randomimport time# 画樱花的躯干(60,t)def Tree(branch, t): time.sleep(0.0005) if branch > 3: if 8 <= branch <= 12: if random.randint(0, 2) == 0: t.color('snow') # 白 e.

2021-12-22 17:36:43 1470

原创面试专题：分布式场景

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、什么是CAP理论二、什么是BASE理论三.分布式ID是什么？有哪些解决方案？四.什么是RPC五.分布式锁的使用场景是什么？有哪些实现方案？六.什么是分布式事务？有哪些实现方案？七.什么是ZAB协议八.为什么Zookeeper可以用来作为注册中心九.Zookeeper中的领导者选举的流程是怎样的？十.Zookeeper集群中节点之间数据是如何同步的一、什么是CAP理论CAP理论是分布式领域中非常重要的一个指导理论，C（Co

2021-12-18 19:08:49 293

原创项目实现：电商网站日志采集系统（六：定时任务）

六．定时任务编辑定时任务，使用以下命令：Crontab -e 如图：输入3写入以下内容：10 * * * * /home/hadoop/web_log/web_log_import.sh15 * * * * /home/hadoop/web_log/web_log_analysis.sh20 * * * * /home/hadoop/web_log/web_log_export.sh****************************************************

2021-12-16 12:20:23 407

原创项目实现：电商网站日志采集系统（五：保存分析结果）

（1）使用管理员账户和密码登录MySQL，使用以下命令：mysql -u debian-sys-maint -p(2)创建web_log数据库，使用以下命令：CREATE DATABASE IF NOT EXISTS web_log;(3)创建web_log用户，设置密码为123456，使用以下命令：CREATE USER ‘web_log'@'%' IDENTIFIED BY ‘123456’;FLUSH PRIVILEGES；(4)授予web_log用户操作web_log数据库的权限

2021-12-16 12:16:27 1869

原创项目实现：电商网站日志采集（四.搭建数据仓库）

四．搭建数据仓库数仓搭建分为Ods（数据运营层）数据原始层，最接近数据源中数据的一层Dwd（数据仓库层）从ODS获得数据建立数据模型DWB：data warehouse base 数据基础层，存储的是客观数据，一般用作中间层，可以认为是大量指标的数据层。Dws（服务数据层）整合汇总成分析某一个主题域的服务数据，一般是宽表Ads（数据服务层）该层主要是提供数据产品和数据分析使用的数据，宽表一般就放在这里写两个脚本和一个udf函数(1)创建编辑web_log_import.sh 脚本文件内容：

2021-12-16 12:04:57 1968

原创 eclipse代码：1到100既是3又是5的倍数

public static void main(String[] args) { int sum = 0; for(int i = 1 ; i <= 100 ; i++){ if(i % 3 == 0 && i % 5 == 0){ sum += i; } } System.out.println("3的倍数又是5倍数的数字之和:"+sum); }}

2021-12-15 10:38:52 1108

原创 eclipse实现银行ATM系统

package helloWorld;import java.util.Scanner;public class test03 { public static void main(String[] args) { Scanner scanner = new Scanner(System.in); /** * 注册 */ System.out.println("请输入注册用户名："); String zhuName = scanner.next();

2021-12-15 10:18:24 1864 2

原创 eclipse实现循环购买

.package holloewWored;import java.util.Scanner;public class qwer { public static void main(String[] args) { Scanner scanner = new Scanner(System.in); System.out.print("请选择是否继续购买(y/n)"); String i = scanner.next(); while(i.equals("y")) { System

2021-12-15 10:16:57 336

原创实现幸运抽奖注册会员

package baoguo;import java.util.Scanner;public class ssss { public static void main(String[] args) { //声明选择 String option; //声明用户名 String username = ""; int password = 0; //声明密码 int cardNumber = 0; //声明卡号

2021-12-15 10:15:41 247

原创使用while循环实现1，2，3，4，5，7，8，9，11，12

a = 1b = Truewhile a <13:a +=1if a ==6 or a ==10:print()else:print(a)

2021-12-15 10:14:32 835

原创 Ubuntu安装MySQL时出现E: Unable to locate package mysql-server 的解决方法

在Ubuntu系统下，利用apt-get install安装MySQL时sudo apt-get install mysql-server 出现如下问题：解决的办法：使用命令 sudo apt-get update 更新软件源sudo apt-get install mysql-server然后再输入 sudo apt-get install mysql-server 问题解决sudo apt-get install mysql-server...

2021-12-15 10:10:20 2417

原创项目实现：电商网站日志分析平台（三：etl数据清洗）

本篇为第三篇，剩余请移步主页查看本篇需要eclipse三．Etl数据清洗（1）在eclipse连接Hadoop，通过xshell进行连接，并进行Hadoop可视化（2）在eclipse创建Etl mapreduce项目（3）在eclipse进行编写NginxEtlMapper 和NginxETLDiver这两个类NginxEtlMapper类代码：package ETL;import java.io.IOException;import org.apache.hadoop.io

2021-12-15 09:52:54 1035

原创项目实现：电商网站日志分析平台（二:采集日志数据）

本篇为第二篇，剩余请移步主页查看第二步：采集日志数据准备工作：（1）开启3台虚拟机（2）3台虚拟机用xshell启动zookeeper（3）3台启动Hadoop在master群起后jps查看节点在slave1查看节点：在slave2查看节点：1.创建/home/hadoop/web_log目录，使用以下命令：mkdir /home/hadoop/web_log2.进入/home/hadoop/web_log目录，使用以下命令：cd /home/hadoop/web_log/

2021-12-15 09:18:57 1876 1

原创项目实现：电商网站日志分析平台（一.获取数据源）

本项目连载4篇,本篇为第一篇，剩余在主页查看准备：下载shop.html第一步：获取数据源通过nginx服务器进行生成日志信息1.安装nginx，使用以下命令：sudo apt-get install nginx2.上传shop.html文件到/home/hadoop/然后在home/hadoop/里mv shop.html文件到/var/www/html目录在/var/www/html查看是否上传成功3.在浏览器通过自己的http://IP/shop.html访问网页，网页会产生访问日

2021-12-15 09:08:25 1645 2

原创 Flume知识点总结

点击查看flume安装配置教程1、概念Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中。一般的采集需求，通过对flume的简单配置即可实现Flume针对特殊场景也具备良好的自定义扩展能力，因此，flume可以适用于大部分的日常数据采集场景。2、运行机制Flume分布式系统中最核心的角色

2021-12-09 23:56:44 226

原创 Flume安装

准备事项到flume官网下载安装包flume安装官网1.上传flume到master的/home/hadoop目录拖拽安装包到xshell的sftp连接进行上传2.把flume压缩文件解压到/usr/local中，使用以下命令：sudo tar -xvf apache-flume-1.9.0-bin.tar.gz -C /usr/local3.进入/usr/local目录，使用以下命令：cd /usr/local4.将解压后的apache-flume-1.9.0-bin目录重命名为fl

2021-12-09 09:33:20 299

原创 sqoop知识点

一、Sqoop概述1.1 Sqoop简介Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（如MySQL，Oracle，Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。Sqoop2的最新版本1.99.7；注意：2与1不兼容，且特征不完整，它并不打算用于生产部署；Sqoop1使用最多。1.2 Sqoop原理将导入或导出命令翻译成mapred

2021-12-08 19:26:45 602

原创 hdfs错误待机状态： Operation category READ is not supported in state standby

初步判断是由于HA节点中处于standby状态造成的异常，困扰：项目开放的hdfs端口只有一台服务器原因：原来nn1机器是active，nn2是standby, 现在nn1变成了standby。（1）在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。（2）hadoop2.

2021-12-08 17:27:38 2447 1

core-site.xml

日志分析的数据源shop.html

空空如也