午饭有鱼有虾9-CSDN博客

原创 python之虚拟环境学习

python虚拟环境主要为1. virtualenv 2. Poetry

2024-04-01 11:08:25 376 1

原创业务数据脚本自动生成

业务数据自动生成脚本，python代码

2024-04-01 10:59:10 391 1

原创 fish speech 快速体验版

fish speech 使用简报

2024-04-01 10:51:04 2230

因此，Order By是全局排序，Sort By是Reducer内部排序，Distribute By是数据分发，而Cluster By是排序和分发的组合操作。Sort By是对每个Reducer内部的数据进行排序。它不保证全局排序，但可以在每个Reducer内部对结果进行排序。在Hive中，有四个BY比较：Order By、Sort By、Distribute By和Cluster By。Cluster By是对数据进行排序和分发，相当于同时使用了Sort By和Distribute By。

2023-09-20 10:59:07 537

原创南方电网面试题

面试

2022-11-01 18:29:56 1352

原创启动CLICKHOUSE

clickhouse-client -m

2021-08-07 15:36:39 337

原创启动redis和启动maxwell

redis-server /etc/redis.conf/opt/module/maxwell-1.27.1/bin/maxwell --config /opt/module/maxwell-1.27.1/config.properties --daemon

2021-08-04 19:23:45 311

原创电脑中hosts文件位置

C:\Windows\System32\drivers\etc

2021-07-14 18:56:48 153

原创 Spark core总结以及总结

1、RDD概述 1、什么是RDD: RDD是弹性分布式数据集 RDD代表的是弹性、可分区、不可变、里面元素可以并行计算的集合弹性: 存储的弹性: 中间结果是保存在内存中,如果内存不足自动保存在磁盘容错的弹性: task执行失败会自动重试计算的弹性: 如果数据出错,会根据RDD依赖关系重新计算得到数据分区的弹性: 读取HDFS文...

2021-06-02 16:45:28 241

原创 Spark十个热门类

import org.apache.spark.{SparkConf, SparkContext}object Test1 { //Top10热门品类 def main(args: Array[String]): Unit = { val sc = new SparkContext(new SparkConf().setMaster("local[4]").setAppName("test")) //1、读取数据 val rdd1 = sc.textFile("...

2021-06-02 14:07:20 141

原创 spark排序

package com.atguigu.day05import java.text.SimpleDateFormatimport java.util.UUIDimport org.apache.spark.{SparkConf, SparkContext}case class UserAnalysis(userid:String,time:Long,page:String,var session:String=UUID.randomUUID().toString,var step:Int=1.

2021-06-02 12:24:22 163

原创 ETL数据清洗（每行字段大于11）

2）需求分析需要在Map阶段对输入的数据根据规则进行过滤清洗。3）实现代码（1）编写LogMapper类package com.atguigu.mapreduce.weblog;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import

2021-05-27 16:57:57 423

原创 hql视频类热度 HQL

9.4 业务分析9.4.1 统计视频观看数Top10思路：使用order by按照views字段做一个全局排序即可，同时我们设置只显示前10条。最终代码：SELECT videoid, viewsFROM video_orcORDER BY views DESCLIMIT 10;9.4.2 统计视频类别热度Top10思路：（1）即统计每个类别有多少个视频，显示出包含视频最多的前10个类别。（2）我们需要按照类别group b...

2021-05-27 15:50:24 206

原创 HQL经典十题

8.3 手写HQL8.3.1 手写HQL 第1题表结构：uid,subject_id,score求：找出所有科目成绩都大于某一学科平均成绩的学生数据集如下1001 01 901001 02 901001 03 901002 01 851002 02 851002 03 701003 01 701003 02 701003 03 851）建表语句create table score( uid string...

2021-05-27 15:48:49 1408

原创 IDEA写Scala经典Scala案列

2021-05-26 20:04:05 182

原创 Scala中shell经典案列

2021-05-26 10:44:08 177

原创 Scala总结以及复习

1、变量与数据类型 1、注释 1、单行注释: // 2、多行注释: /* .. */ 3、文档注释: /** ..*/ 2、标识符的命名规范 scala中标识符必须是数字、字母、下划线、$、特殊符号,首字母不能是数字 scala特殊符号一般是scala内部使用实际工作中,标识符命名依然采用驼峰原则 3、变量 1、语法: val/var 变量名:类型 = 值 ...

2021-05-26 09:38:12 523

原创 scala中农产品经典案列

import scala.io.Sourceobject $01_Test { /** * 1、获取没有农贸市场的所有省份 * * 2、获取农产品种类最多的三个省份 * * 3、获取每个省份中农产品种类最多的三个农贸市场 * */ def main(args: Array[String]): Unit = { //读取数据 val allProvinces = Source.fromFile("datas/allp...

2021-05-25 16:10:33 212

原创 scala中WordCountHight

object $18_WordCountHight { def main(args: Array[String]): Unit = { val tupleList = List(("Hello Scala Spark World", 4), ("Hello Scala Spark", 3), ("Hello Scala", 2), ("Hello", 1)) //1、切割+压平,给单词赋予初始次数 val words = tupleList.flatMap(x=>...

2021-05-25 15:51:31 101

原创 MAPREDUCER(MR)java代码阶段

WCDRIVERimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.FileI

2021-05-24 21:31:00 257

原创 Scala中WordCountLow

import scala.io.Sourceobject $17_WordCountLow { def main(args: Array[String]): Unit = { //1、读取文件 val datas = Source.fromFile("datas/wc2.txt","utf-8").getLines().toList //List(hello hadoop flume kafka,kafka spark scala hadoop,hello java pyt..

2021-05-24 20:11:47 112

原创 redis回顾

1、redis介绍 1、redis是什么? redis是一个可以存储海量数据的内存数据库 2、redis的应用场景 redis一般用于关系型数据库的缓存,还可以用于实时场景 3、redis-server与redis-client 1、redis-server启动: redis-server [redis.conf] redis-server启动之后默认监听127.0.0.1:6379 2、redi...

2021-05-17 11:15:31 114

原创 04_查看进程脚本

#! /bin/bash#1、判断参数是否输入if [ $# -lt 1 ]then echo "必须输入一个待执行的命令..." exitfi#2、执行指令#xcall.sh mkdir -p /opt/module/xxxfor host in hadoop102 hadoop103 hadoop104do echo "======================$host=========================" ssh $host "$*"...

2021-05-11 17:51:15 171

原创 json格式介绍

json格式: 1、普通对象和Map：由{}包裹,属性名通过""包裹,属性名与属性值之间通过:分割,属性和属性之间通过逗号分割属性值如果是字符串通过""包裹 class Person{ private String name; private int age; public Person(String name,int age) = { this...

2021-05-11 17:50:37 134

原创 05_zookeeper启动脚本

#! /bin/bash#1、判断参数是否传入if [ $# -lt 1 ]then echo "必须传入参数......" exitfi#2、根据参数匹配动作case $1 in"start") for host in hadoop102 hadoop103 hadoop104 do echo "=======================启动$host zookeeper==================" ssh $ho...

2021-05-11 17:49:48 63

原创 06_第一层flume配置文件

#1、定义agent、source、channel的名称a1.sources = r1a1.channels = c1#2、描述sourcea1.sources.r1.type = TAILDIR#定义断点续传文件a1.sources.r1.positionFile = /opt/module/flume/position.json#定义监控的文件组a1.sources.r1.filegroups = f1#制定文件组监控的文件a1.sources.r1.filegroups.f1 =

2021-05-11 17:49:15 382

原创 07_第一层flume采集脚本

#! /bin/bash#1、判断参数是否传入if [ $# -lt 1 ]then echo "必须传入参数..." exitfi#2、根据参数匹配逻辑case $1 in"start") for host in hadoop102 hadoop103 do ssh $host "nohup /opt/module/flume/bin/flume-ng agent -n a1 -c /opt/module/flume/conf/ -f /op...

2021-05-11 17:48:41 85

原创 08_第二层flume配置文件

#1、定义agent、source、channel、sink的名称a1.sources = r1a1.channels = c1a1.sinks = k1#2、描述sourcea1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource#指定kafka集群地址a1.sources.r1.kafka.bootstrap.servers = hadoop102:9092,hadoop103:9092#指定消费者组的ida1.so

2021-05-11 17:47:55 206

原创 09_sqoop常用参数

sqoop 导入常用参数:bin/sqoop import ------------------------------公有参数----------------------------------- --connect 指定mysql url连接 --username 指定mysql账号 --password 指定mysql的密码 -------------------------------导入HDFS的时候使用-------------------------...

2021-05-11 17:46:42 345

原创 10_首次导入数据脚本

#! /bin/bash#first.sh all/表名日期#1、判断参数是否传入if [ $# -lt 1 ]then echo "至少需要传入一个参数..." exitfi#2、判断日志是否传入,如果传入了日志,则用指定的日期,如果没有传入,则用前一天的日期[ "$2" ] && datestr=$2 || datestr=$(date -d '-1 day' +%Y%m%d)import_date(){/opt/module/sqoop/bin/s...

2021-05-11 17:45:29 110

原创 11后续数据导入脚本

#! /bin/bash#importdata.sh all/表名日期#1、判断参数是否传入if [ $# -lt 1 ]then echo "必须至少传入一个参数...." exitfi#2、获取日期[如果有传入日期用指定日期,如果没有传入日期用前一天的日期][ "$2" ] && datestr=$2 || datestr=$(date -d '-1 day' +%Y%m%d)import_date(){/opt/module/sqoop/bin/s...

2021-05-11 17:03:31 93

原创数据采集回顾

1、数据仓库的概念数仓就是数据仓库,数仓用于数据存储、分析、清洗、聚合等操作2、项目需求 1、数据采集平台[业务、日志] 2、数仓的维度建模 3、根据主题进行统计分析 4、即席查询 5、集群性能监控 6、元数据管理 7、数据质量监控 8、可视化3、技术选型 1、采集传输: Flume、kafka、Sqoop、logstash、datax flume、logstash: 主要用于采集日志 ...

2021-05-11 17:02:00 215

原创 Kafka安装以及配置

大数据技术之Kafka版本：V3.0第2章 Kafka快速入门2.1 安装部署2.1.1 集群规划 hadoop102 hadoop103 hadoop104 zk zk zk kafka kafka kafka 2.1.2 jar包下载http://kafka.apache.o...

2021-05-09 13:53:09 274 1

原创 Kafka启动脚本

#!/bin/bashcase $1 in"start"){ for i in hadoop102 hadoop103 hadoop104 do echo " --------启动 $i Kafka-------" ssh $i "/opt/module/kafka/bin/kafka-server-start.sh -daemon /opt/module/kafka/config/server.properties " don...

2021-05-09 13:50:05 236

原创 zookeeper启动脚本

#! /bin/bash#1.判断参数是否传入if [ $# -lt 1 ]then echo"必须传入参数...." exitfi#2.根据参数匹配动作case $1 in"start") for host in hadoop102 hadoop103 hadoop104 do echo "================启动$host zookeeper===================" ...

2021-05-08 19:07:17 95

原创查看进程脚本

#! /bin/bash#1、判断参数是否输入if [ $# -lt 1 ]then echo "必须输入一个待执行的命令..." exitfi#2、执行指令#xcall.sh mkdir -p /opt/module/xxxfor host in hadoop102 hadoop103 hadoop104do echo "======================$host=========================" ssh $host "$*"...

2021-05-08 19:05:58 195

原创 Hadoop启动脚本

#! /bin/bash#1、判断参数是否传入if [ $# -lt 1 ]then echo "必须传入一个参数..." exitfi#2、匹配参数执行逻辑case $1 in"start") echo "=============================启动HDFS======================" ssh hadoop102 "start-dfs.sh" echo "=============================启动...

2021-05-08 19:05:22 112

原创数据生成脚本

#! /bin/bashfor host in hadoop102 hadoop103do echo "====================开始生成$host的日志数据======================" #&: 后台执行,ssh断开的时候,程序会终止 #nohup: 免挂断,ssh断开的时候,程序不会终止 #0: 标准输入 #1: 标准输出 #2: 错误输出 #ssh远程使用nohup指令的时候必须使用标准输出与错误输出...

2021-05-08 19:04:18 131

原创数据同步脚本

常用脚本#! /bin/bash#1、判断参数是否输入#xsync aa bb.txt#$#: 获取参数个数#$*: 获取所有参数,并且所有参数当做一个整体#$@: 获取所有参数,并且每个参数当做一个个单独的个体if [ $# -lt 1 ]then echo "必须传入一个文件或者目录..." exitfi#2、遍历输入的参数for f in $@do#3、判断文件/目录是否存在,如果存在则同步#-e: 判断文件/目录是否存在#-d: 判断是否为目录#-...

2021-05-08 19:03:22 293

原创 hadoop安装以及配置

大数据技术之Hadoop（入门）版本：V3.0第1章完全分布式运行模式（开发重点）分析： 1）准备3台客户机（关闭防火墙、静态IP、主机名称） 2）安装JDK 3）配置环境变量 4）安装Hadoop 5）配置环境变量6）配置集群7）单点启动 8）配置ssh 9）群起并测试集群1.1 Hadoop部署1）集群部署规划注意：Name...

2021-05-08 18:07:42 1146

MP4自动转换为MP3格式

空空如也