自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 python之虚拟环境学习

python虚拟环境主要为1. virtualenv 2. Poetry

2024-04-01 11:08:25 241

原创 业务数据脚本自动生成

业务数据自动生成脚本,python代码

2024-04-01 10:59:10 215

原创 fish speech 快速体验版

fish speech 使用简报

2024-04-01 10:51:04 874

原创 四个BY的区别 HIVE中

因此,Order By是全局排序,Sort By是Reducer内部排序,Distribute By是数据分发,而Cluster By是排序和分发的组合操作。Sort By是对每个Reducer内部的数据进行排序。它不保证全局排序,但可以在每个Reducer内部对结果进行排序。在Hive中,有四个BY比较:Order By、Sort By、Distribute By和Cluster By。Cluster By是对数据进行排序和分发,相当于同时使用了Sort By和Distribute By。

2023-09-20 10:59:07 390

原创 南方电网面试题

面试

2022-11-01 18:29:56 982 1

原创 启动CLICKHOUSE

clickhouse-client -m

2021-08-07 15:36:39 274

原创 启动redis和启动maxwell

redis-server /etc/redis.conf/opt/module/maxwell-1.27.1/bin/maxwell --config /opt/module/maxwell-1.27.1/config.properties --daemon

2021-08-04 19:23:45 243

原创 电脑中hosts文件位置

C:\Windows\System32\drivers\etc

2021-07-14 18:56:48 93

原创 Spark core总结以及总结

1、RDD概述 1、什么是RDD: RDD是弹性分布式数据集 RDD代表的是弹性、可分区、不可变、里面元素可以并行计算的集合 弹性: 存储的弹性: 中间结果是保存在内存中,如果内存不足自动保存在磁盘 容错的弹性: task执行失败会自动重试 计算的弹性: 如果数据出错,会根据RDD依赖关系重新计算得到数据 分区的弹性: 读取HDFS文...

2021-06-02 16:45:28 177

原创 Spark十个热门类

import org.apache.spark.{SparkConf, SparkContext}object Test1 { //Top10热门品类 def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test")) //1、读取数据 val rdd1 = sc.textFile("...

2021-06-02 14:07:20 94

原创 spark排序

package com.atguigu.day05import java.text.SimpleDateFormatimport java.util.UUIDimport org.apache.spark.{SparkConf, SparkContext}case class UserAnalysis(userid:String,time:Long,page:String,var session:String=UUID.randomUUID().toString,var step:Int=1.

2021-06-02 12:24:22 87

原创 ETL数据清洗(每行字段大于11)

2)需求分析需要在Map阶段对输入的数据根据规则进行过滤清洗。3)实现代码(1)编写LogMapper类package com.atguigu.mapreduce.weblog;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import

2021-05-27 16:57:57 354

原创 hql视频类热度 HQL

9.4 业务分析9.4.1 统计视频观看数Top10思路:使用order by按照views字段做一个全局排序即可,同时我们设置只显示前10条。最终代码:SELECT videoid, viewsFROM video_orcORDER BY views DESCLIMIT 10;9.4.2 统计视频类别热度Top10思路:(1)即统计每个类别有多少个视频,显示出包含视频最多的前10个类别。(2)我们需要按照类别group b...

2021-05-27 15:50:24 160

原创 HQL经典十题

8.3 手写HQL8.3.1 手写HQL 第1题表结构:uid,subject_id,score求:找出所有科目成绩都大于某一学科平均成绩的学生数据集如下1001 01 901001 02 901001 03 901002 01 851002 02 851002 03 701003 01 701003 02 701003 03 851)建表语句create table score( uid string...

2021-05-27 15:48:49 1142

原创 IDEA写Scala经典Scala案列

2021-05-26 20:04:05 106

原创 Scala中shell经典案列

2021-05-26 10:44:08 103

原创 Scala总结以及复习

1、变量与数据类型 1、注释 1、单行注释: // 2、多行注释: /* .. */ 3、文档注释: /** ..*/ 2、标识符的命名规范 scala中标识符必须是数字、字母、下划线、$、特殊符号,首字母不能是数字 scala特殊符号一般是scala内部使用 实际工作中,标识符命名依然采用驼峰原则 3、变量 1、语法: val/var 变量名:类型 = 值 ...

2021-05-26 09:38:12 413

原创 scala中农产品经典案列

import scala.io.Sourceobject $01_Test { /** * 1、获取没有农贸市场的所有省份 * * 2、获取农产品种类最多的三个省份 * * 3、获取每个省份中农产品种类最多的三个农贸市场 * */ def main(args: Array[String]): Unit = { //读取数据 val allProvinces = Source.fromFile("datas/allp...

2021-05-25 16:10:33 170

原创 scala中WordCountHight

object $18_WordCountHight { def main(args: Array[String]): Unit = { val tupleList = List(("Hello Scala Spark World", 4), ("Hello Scala Spark", 3), ("Hello Scala", 2), ("Hello", 1)) //1、切割+压平,给单词赋予初始次数 val words = tupleList.flatMap(x=>...

2021-05-25 15:51:31 52

原创 MAPREDUCER(MR)java代码阶段

WCDRIVERimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.FileI

2021-05-24 21:31:00 189

原创 Scala中WordCountLow

import scala.io.Sourceobject $17_WordCountLow { def main(args: Array[String]): Unit = { //1、读取文件 val datas = Source.fromFile("datas/wc2.txt","utf-8").getLines().toList //List(hello hadoop flume kafka,kafka spark scala hadoop,hello java pyt..

2021-05-24 20:11:47 64

原创 redis回顾

1、redis介绍 1、redis是什么? redis是一个可以存储海量数据的内存数据库 2、redis的应用场景 redis一般用于关系型数据库的缓存,还可以用于实时场景 3、redis-server与redis-client 1、redis-server启动: redis-server [redis.conf] redis-server启动之后默认监听127.0.0.1:6379 2、redi...

2021-05-17 11:15:31 59

原创 04_查看进程脚本

#! /bin/bash#1、判断参数是否输入if [ $# -lt 1 ]then echo "必须输入一个待执行的命令..." exitfi#2、执行指令#xcall.sh mkdir -p /opt/module/xxxfor host in hadoop102 hadoop103 hadoop104do echo "======================$host=========================" ssh $host "$*"...

2021-05-11 17:51:15 109

原创 json格式介绍

json格式: 1、普通对象和Map: 由{}包裹,属性名通过""包裹,属性名与属性值之间通过:分割,属性和属性之间通过逗号分割 属性值如果是字符串通过""包裹 class Person{ private String name; private int age; public Person(String name,int age) = { this...

2021-05-11 17:50:37 82

原创 05_zookeeper启动脚本

#! /bin/bash#1、判断参数是否传入if [ $# -lt 1 ]then echo "必须传入参数......" exitfi#2、根据参数匹配动作case $1 in"start") for host in hadoop102 hadoop103 hadoop104 do echo "=======================启动$host zookeeper==================" ssh $ho...

2021-05-11 17:49:48 33

原创 06_第一层flume配置文件

#1、定义agent、source、channel的名称a1.sources = r1a1.channels = c1#2、描述sourcea1.sources.r1.type = TAILDIR#定义断点续传文件a1.sources.r1.positionFile = /opt/module/flume/position.json#定义监控的文件组a1.sources.r1.filegroups = f1#制定文件组监控的文件a1.sources.r1.filegroups.f1 =

2021-05-11 17:49:15 281

原创 07_第一层flume采集脚本

#! /bin/bash#1、判断参数是否传入if [ $# -lt 1 ]then echo "必须传入参数..." exitfi#2、根据参数匹配逻辑case $1 in"start") for host in hadoop102 hadoop103 do ssh $host "nohup /opt/module/flume/bin/flume-ng agent -n a1 -c /opt/module/flume/conf/ -f /op...

2021-05-11 17:48:41 57

原创 08_第二层flume配置文件

#1、定义agent、source、channel、sink的名称a1.sources = r1a1.channels = c1a1.sinks = k1#2、描述sourcea1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource#指定kafka集群地址a1.sources.r1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092#指定消费者组的ida1.so

2021-05-11 17:47:55 170

原创 09_sqoop常用参数

sqoop 导入常用参数:bin/sqoop import ------------------------------公有参数----------------------------------- --connect 指定mysql url连接 --username 指定mysql账号 --password 指定mysql的密码 -------------------------------导入HDFS的时候使用-------------------------...

2021-05-11 17:46:42 293

原创 10_首次导入数据脚本

#! /bin/bash#first.sh all/表名 日期#1、判断参数是否传入if [ $# -lt 1 ]then echo "至少需要传入一个参数..." exitfi#2、判断日志是否传入,如果传入了日志,则用指定的日期,如果没有传入,则用前一天的日期[ "$2" ] && datestr=$2 || datestr=$(date -d '-1 day' +%Y%m%d)import_date(){/opt/module/sqoop/bin/s...

2021-05-11 17:45:29 73

原创 11后续数据导入脚本

#! /bin/bash#importdata.sh all/表名 日期#1、判断参数是否传入if [ $# -lt 1 ]then echo "必须至少传入一个参数...." exitfi#2、获取日期[如果有传入日期用指定日期,如果没有传入日期用前一天的日期][ "$2" ] && datestr=$2 || datestr=$(date -d '-1 day' +%Y%m%d)import_date(){/opt/module/sqoop/bin/s...

2021-05-11 17:03:31 63

原创 数据采集回顾

1、数据仓库的概念 数仓就是数据仓库,数仓用于数据存储、分析、清洗、聚合等操作2、项目需求 1、数据采集平台[业务、日志] 2、数仓的维度建模 3、根据主题进行统计分析 4、即席查询 5、集群性能监控 6、元数据管理 7、数据质量监控 8、可视化3、技术选型 1、采集传输: Flume、kafka、Sqoop、logstash、datax flume、logstash: 主要用于采集日志 ...

2021-05-11 17:02:00 158

原创 Kafka安装以及配置

大数据技术之Kafka版本:V3.0第2章 Kafka快速入门2.1 安装部署2.1.1 集群规划 hadoop102 hadoop103 hadoop104 zk zk zk kafka kafka kafka 2.1.2 jar包下载http://kafka.apache.o...

2021-05-09 13:53:09 229 1

原创 Kafka启动脚本

#!/bin/bashcase $1 in"start"){ for i in hadoop102 hadoop103 hadoop104 do echo " --------启动 $i Kafka-------" ssh $i "/opt/module/kafka/bin/kafka-server-start.sh -daemon /opt/module/kafka/config/server.properties " don...

2021-05-09 13:50:05 182

原创 zookeeper启动脚本

#! /bin/bash#1.判断参数是否传入if [ $# -lt 1 ]then echo"必须传入参数...." exitfi#2.根据参数匹配动作case $1 in"start") for host in hadoop102 hadoop103 hadoop104 do echo "================启动$host zookeeper===================" ...

2021-05-08 19:07:17 57

原创 查看进程脚本

#! /bin/bash#1、判断参数是否输入if [ $# -lt 1 ]then echo "必须输入一个待执行的命令..." exitfi#2、执行指令#xcall.sh mkdir -p /opt/module/xxxfor host in hadoop102 hadoop103 hadoop104do echo "======================$host=========================" ssh $host "$*"...

2021-05-08 19:05:58 147

原创 Hadoop启动脚本

#! /bin/bash#1、判断参数是否传入if [ $# -lt 1 ]then echo "必须传入一个参数..." exitfi#2、匹配参数执行逻辑case $1 in"start") echo "=============================启动HDFS======================" ssh hadoop102 "start-dfs.sh" echo "=============================启动...

2021-05-08 19:05:22 70

原创 数据生成脚本

#! /bin/bashfor host in hadoop102 hadoop103do echo "====================开始生成$host的日志数据======================" #&: 后台执行,ssh断开的时候,程序会终止 #nohup: 免挂断,ssh断开的时候,程序不会终止 #0: 标准输入 #1: 标准输出 #2: 错误输出 #ssh远程使用nohup指令的时候必须使用标准输出与错误输出...

2021-05-08 19:04:18 93

原创 数据同步脚本

常用脚本#! /bin/bash#1、判断参数是否输入#xsync aa bb.txt#$#: 获取参数个数#$*: 获取所有参数,并且所有参数当做一个整体#$@: 获取所有参数,并且每个参数当做一个个单独的个体if [ $# -lt 1 ]then echo "必须传入一个文件或者目录..." exitfi#2、遍历输入的参数for f in $@do#3、判断文件/目录是否存在,如果存在则同步#-e: 判断文件/目录是否存在#-d: 判断是否为目录#-...

2021-05-08 19:03:22 231

原创 hadoop安装以及配置

大数据技术之Hadoop(入门)版本:V3.0第1章 完全分布式运行模式(开发重点)分析: 1)准备3台客户机(关闭防火墙、静态IP、主机名称) 2)安装JDK 3)配置环境变量 4)安装Hadoop 5)配置环境变量6)配置集群7)单点启动 8)配置ssh 9)群起并测试集群1.1 Hadoop部署1)集群部署规划 注意:Name...

2021-05-08 18:07:42 997

MP4自动转换为MP3格式

MP4自动转换为MP3格式 python格式 直接运行

2024-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除