自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 收藏
  • 关注

原创 dolphinscheduler报错:WorkflowExecuteThread:[244] - handler error:java.lang.NullPointerException:

dolphinscheduler报错:WorkflowExecuteThread:[244] - handler error:java.lang.NullPointerException: null。

2023-06-28 10:11:57 252 1

原创 Class com.hadoop.compression.lzo.LzoCodec was not found

idea 使用spark连接hive时报错:Class com.hadoop.compression.lzo.LzoCodec was not found

2022-08-15 15:45:47 924 1

原创 spark-hive

报错:set_ugi() not successful, Likely cause: new client talking to old server. Continuing without it.hive thrift接口可以参考注意代码中的hive-site.xml和集群上面的保持一致否则会报错,例如set_ugi() not successful, Likely cause: new client talking to old server. Continuing without it..

2022-01-24 17:55:42 3378 2

原创 SQL中为null赋值的方法

SQL中为null赋值的方法NVL函数是一个空值转换函数 NVL(表达式1,表达式2) 如果表达式1为空值,NVL返回值为表达式2的值,否则返回表达式1的值。 该函数的目的是把一个空值(null)转换成一个实际的值。 其表达式的值可以是数字型、字符型和日期型。 但是表达式1和表达式2的数据类型必须为同一个类型。coalesce(arg1, arg2,arg3,arg4......); 该函数的含义是返回最近的一个为非空值的值.例: (1)coalesce(1, 2

2021-09-29 16:38:01 5763

原创 hive分区回复

当删除了hive分区表,重新运行,会没有数据所以我们需要回复hive分区表数据语法:MSCK REPAIR TABLE table_name;执行后,Hive会检测如果HDFS目录下存在但表的metastore中不存在的partition元信息,更新到metastore中。...

2021-09-26 17:49:35 201

原创 No such file or directoryssment_test.sh: line 3: /etc/profile

No such file or directoryssment_test.sh: line 3: /etc/profile判定一下脚本语言是windows 还是 Linux

2021-09-26 15:35:08 191

原创 ParseException line 125:60 missing ) at ‘as‘ near ‘<EOF>‘ line 144:57 missing ) at ‘as‘ near ‘<EOF>‘

substring_index(substring_index(content_tag,'"',-4),'"',1)as content_tag,由于单双引号在hive中不能正确识别,所以需要转义符号 在SQL中能正确识别

2021-09-23 09:56:17 1168

转载 对大数据指标的理解、大数据常用指标都有哪些

导读:数据指标体系是构建数据中台的重要一环。数据指标的建立让运营及产品人员更直观地看到基本指标的变动,让数据分析师更便捷地开展数据分析工作。数据指标就是将大数据之“大”的精髓给提炼出来,展现每日观察数据的使用者最迫切想要看到的统计量。数据指标体系并不是第三方服务公司的专利,只要对埋点科学地进行数据采集,每个成型的互联网公司都可以自己搭建数据指标体系。数据之大,很多时候人们并不知从哪里着手,甚至弄不清自己到底想要什么数据,这时候数据产品经理这一角色应运而生。数据产品经理既要完成数据体系设计,让原本无序或庞

2021-08-04 20:24:00 6463

原创 Kafka重点内容

\1. Kafka如何保证数据不丢失 如何保证不重复producer 生产端是如何保证数据不丢失的 ack+hw+isr 都不能100%解决.consumer端是如何保证数据不丢失的 ISR: enable.auto.commit=false(手动)Kafka幂等写⼊可以保证同⼀分区数据不会重复.\2. Kafka副本ISR的作⽤?为什么需要ISR?原理是什么?检测folloer是否在线,有没有失去联系当ACK等于-1的时候,如果有follower同步过慢,会造成数据重复ISR定期检测

2021-06-23 17:57:24 90

原创 Scala中的偏函数

如果一个方法中没有match只有case,这个函数可以定义成PartialFunction偏函数。偏函数定义时,不能使用括号传参,默认定义PartialFunction中传入一个值,匹配上了对应的case,返回一个值。

2021-06-18 19:43:30 221

原创 Scala中的样例类 case class

样例类Case Class * Case Class一般被翻译成样例类,它是一种特殊的类,能够被优化以用于模式匹配。 * 当一个类被声名为case class的时候,scala会帮助我们做下面几件事情: * 1、构造器中的参数如果不被声明为var的话,它默认的是val类型的,但一般不推荐将构造器中的参数声明为var。 * 2、自动创建伴生对象,同时在里面给我们实现子apply方法,使我们在使用的时候可以不直接使用new创建对象。 * 3、伴生对象中同样会帮我们实现unapply方法,从而...

2021-06-18 19:34:33 291 1

原创 scala中list的常用操作

object listDemo { def main(args: Array[String]): Unit = { val list: List[String] = List("a", "b" ,"a") //为列表预添加元素 println("A" +: list) //在列表开头添加元素 println("c" :: list) //在列表开头添加指定列表的元素 println(List("d","e") ::: list) //复制.

2021-06-16 19:33:18 557

原创 Spark中master、worker、driver、executor

首先说一句,master和worker是物理节点,driver和executor是进程。1,master和worker节点搭建spark集群的时候我们就已经设置好了master节点和worker节点,一个集群有多个master节点和多个worker节点。master节点常驻master守护进程,负责管理worker节点,我们从master节点提交应用。worker节点常驻worker守护进程,与master节点通信,并且管理executor进程。PS:一台机器可以同时作为master和worke

2021-06-15 21:52:55 644

原创 Spark中map与flatMap

map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回map函数的源码:def map(self, f, preservesPartitioning=False): """ Return a new RDD by applying a function to each element of this RDD. >>> rdd = sc.parallelize(["b", "a", "c"]) >>> sorte

2021-06-15 20:44:40 2352 2

原创 Spark中常用函数

1. filter过滤函数df.filter(df.列名==值) 或者 df.filter("列名==值") 中间可以使用(或操作|) (与操作&)2. union函数df.union(df1) 可进行行合并的操作,df与df1的列名相同3. 本地集合求并集totalset = set1 | set2 set1=set(pandas['列名'])4. pandas df 选择数据df.iat[i,0] 选择行为i,列为0的数据5. pyspark df选

2021-06-15 20:00:43 1812

原创 Spark中对Partitioner的理解

前言分区只不过是将原来大的数据分成几部分。 比如分布式系统中的分区,我们可以将其定义为大型数据集的分区,并将它们存储为整个群集中的多个部分。通过分区可以减少网络I/O,从而可以更快地处理数据。在Spark中,co-group,groupBy,groupByKey等操作需要大量的I/O操作。 在这种情况下,如果我们应用分区,那么我们可以快速减少I/O操作的数量,以便我们可以加速数据处理。Spark适用于数据局部性原则。 工作节点获取更接近它们的处理数据。 通过分区网络,I/O将减少,从而可以更快地处理数

2021-06-15 19:47:12 183

原创 Scala中的类和对象

类和对象scala是支持面向对象的,也有类和对象的概念。我们依然可以基于scala语言来开发面向对象的应用程序。创建类和对象用法:使用class来定义一个类使用new来创建对象

2021-06-08 20:45:21 55

原创 Scala中的case

一:模式匹配1.简单匹配,值匹配val bools = List(true, false)for (bool <- bools) {bool match {case true => println("heads")case false => println("tails")case _ => println("something other than heads or tails (yikes!)")}}2.类型匹配val sundries = List(23,

2021-06-08 20:42:58 354

原创 Expression not in GROUP BY key

SemanticException [Error 10025]: Line 4:0 Expression not in GROUP BY key 'device_type'selectuser_id ,device_num ,device_type ,os ,os_version ,manufacturer,carrier ,network_type,area_code ,count(1) launch_countfrom dwd_nshop.dwd_nshop_actlog_la

2021-05-19 17:07:16 4360

原创 有关count()函数的用法

count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值为NULL。count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略列值为NULL。count(列名)只包括列名那一列,在统计结果的时候,会忽略列值为空。...

2021-05-19 16:30:44 1350

原创 当远程连接数据库被拒绝连接

当远程连接数据库被拒绝连接ERROR 1130: Host '192.168.1.3' is not allowed to connect to this MySQL server在数据库中执行以下代码grant all privileges on *.* to '用户名'@'IP地址' identified by '密码';

2021-05-17 22:42:44 792

原创 hive中的SQL

第一章 查询语句基本语法1.1 **Select***查询结构基本语法下面是一个SQL查询语句的基本结构1.2 sql****语句的执行顺序1.3 查询注意事项1.4 数据库建模关系型数据库最难的地方,就是建模(model)。错综复杂的数据,需要建立模型,才能储存在数据库。所谓"模型"就是两样东西:实体(entity)+ 关系(relationship)ER图。实体指的是那些实际的对象,带有自己的属性,可以理解成一组相关属性的容器。关系就是实体之间的联系,通常可以分成"一对一"、

2021-05-06 21:41:16 926

原创 当虚拟机报错,该虚拟机似乎正在使用中。无法打开虚拟机

当虚拟机报错,该虚拟机似乎正在使用中。无法打开虚拟机例如:解决方法:找到该虚拟机的安装目录,把以 .lck 结尾的文件及文件夹删除就可以了

2021-05-06 17:54:54 207

原创 Hive的安装部署--三种模式

Hive的安装部署Hive常用的安装分三种(注意:Hive会自动监测Hadoop的环境变量,如有就必须启动Hadoop)先从本地上传Hive安装文件apache-hive-2.1.1-bin.tar.gz到/root/soft1 嵌入式模式使用hive自带默认元数据库derby来进行存储,通常用于测试优点:使用简单,不用进行配置缺点:只支持单Session。安装步骤:1.1 解压hive并配置环境变量[root@hd01 local]tar -zxvf apache-hive

2021-04-28 21:30:38 1755

原创 Hive的基本知识

一:Hive定义1.1出现原因Hive最早来源于FaceBook ,因为FaceBook⽹站每天产⽣海量的结构化⽇志数据,为了对这些数据进⾏管理,并且因为机器学习的需求,产⽣了Hive这⻔技术,并继续发展成为⼀个成功的Apache项⽬。1.2定义:Hive是⼀个基于 Hadoop 的数据仓库⼯具,可以将结构化的数据⽂件映射成⼀张数据表,并可以使⽤类似SQL的⽅式来对数据⽂件进⾏读写以及管理。这套Hive SQL 简 称HQL。Hive的执⾏引擎可以是MR、Spark、Tez。1.3本质:

2021-04-28 20:29:51 261 2

原创 HDFS、MapReduce最重要的五个图

–SecondayNamenode的工作机制(检查点机制)通过上图,可以总结如下: 1. SecondaryNamenode请求Namenode停止使用正在编辑的editlog文件,Namenode会创建新的 editlog文件(小了吧),同时更新seed_txid文件。 2. SecondaryNamenode通过HTTP协议获取Namenode上的fsimage和editlog文件。 3. SecondaryNamenode将fsimage读进内存当中,并逐步分析editlog文件里的数据

2021-04-28 20:15:11 70

原创 获取对象四种方法

反射: 动态获取字节码文件对象,对其成员进行抽象化获取对象四种方法:反射,new,序列化,克隆获取字节码文件对象Class<?> class1 = Class.forname("com.qf.refect.Person");获取实例对象Objet objet = class1.newIstance();通过反射得到方法Methon methon = class1.getMethon("show");调用方法,通过调用invoke方法实现Object obj = me

2021-04-28 20:01:50 1014

原创 大数据专用名词解释

常用的数据采集框架:- sqoop: 用于RDBMS与HDFS之间数据导入与导出- flume: 采集日志文件数据,动态采集日志文件,数据流 flume采集到的数据,一份给HDFS,用于做离线分析;一份给Kafka,实时处理- kafka: 主要用于实时的数据流处理 flume与kafka都有类似消息队列的机制,来缓存大数据环境处理不了的数据HDFS: 分布式文件系统MapReduce: 分布式计算系统Yarn: Hadoop2.0版本的资源调度的框架。 是Hadoop

2021-04-28 19:59:57 702

原创 SQL中常用的聚合函数

SQL Server中常用的聚合函数用:1.COUNT(*)    返回所有元组个数(一行数据就是一个元组)2.COUNT()   统计一列中值的个数3.SUM()    计算一列值的总和(此列必须是数值型)4.AVG()     计算一列值的平均值(此列必须是数值型)5.MAX()     求一列值中的最大值6.MIN()     求一列值中的最小值...

2021-04-28 19:57:29 2340

原创 分区、分桶练习

1.将数据放入分区表ip1(fadd,sadd,tadd,fouadd)中并进行分区,(区号:firstadd),即:ip第一位2.将数据放入分桶排序(正序)表ip2,分8个桶3.按照fadd查出第2,5桶4.按照fadd查找第2,4,6,8桶1.将数据放入分区表ip1(fadd,sadd,tadd,fouadd)中并进行分区,(区号:firstadd),即:ip第一位create external table if not exists ip1(fadd int,asdd int,tad

2021-04-28 19:50:33 99

原创 简单的将数据存入数据仓库hive,并操作。

简单的将数据存入数据仓库hive,并操作。有一个用户user.txt01#bingbing#2302#liying#2003#mali#2404#xiaoli#1805#wangli#2006#mumu#23要求:1.将数据存入数据仓库users.myuser(id,name,age),需要将数据放在hdfs的/data下面2.查找年龄最大的三个人,年龄相同再按照姓名排序第一题:先将user.txt放到Linux的/boot目录下在hdfs上创建/data[root@hd

2021-04-27 20:22:45 681 1

原创 NotePad++安装NppFtp出问题

在使用Notepad++的时候,想要安装插件NppFtp,怎么下载都显示炸不到这个包找不到,安装不上:可以去朋友的那里直接把这个文件夹复制到该目录下,就能正常安装使用。

2021-04-27 08:17:22 328

原创 Python自动登录QQ空间

Python自动登录QQ空间:from selenium import webdriver#注意:#这是打开一个浏览器:以谷歌浏览器为例#同时还要下载相符性的版本驱动器,否则Python不能自动控制derver=webdriver.Chrome(executable_path=r"D:\\Google\\chrome.exe")url="https://i.qq.com/"derver.get(url)derver.implicitly_wait(10)iframe=derver.fin

2021-04-26 19:18:36 1312 2

原创 Python爬取王者荣耀英雄皮肤

Python爬取王者荣耀英雄皮肤:from urllib import requestimport jsonimport urlliburl="https://pvp.qq.com/web201605/js/herolist.json"# 请求一个数据resp=request.urlopen(url)result=resp.read().decode('utf-8')result=json.loads(result)print(result)for item in result:

2021-04-26 19:11:30 166

原创 大数据的概念

大数据的定义:维基百科 给出的定义: 数据规模巨大到无法通过人工在合理的时间内达到截取,管理,处理并整理成为人类所解读的信 息。麦肯锡全球研究所 给出的定义: 一种规模大到在获取、存储、管理、分析方面都大大超出了传统数据库软件工具能力范围的数据 集合。高德纳(Gartner)研究机构 给出的定义: "大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、 高增长率和多样化的信息资产。概念总结: 海量数据,具有高增长率、数据类型多样化、一定时间内无法使用

2021-04-24 20:22:26 1006 1

原创 SQL的分类

execute(String sql):通常用于DDL executeUpdate(String sql):通常用于DML executeQuery(String sql):用于DQLDDL(Data Defifinition Language):数据定义语言,用来定义数据库对象:库、表、列等; DML(Data Manipulation Language):数据操作语言,用来定义数据库记录(数据); DCL(Data Control Language):数据控制语言,用来定义访问权限和

2021-04-23 21:27:33 75

原创 IO流总结

InputStream :字节输入流 read():一个字节一个字节的读,每次读出一个字节 InputStream inputStream = new FileInputStream("test1.txt")) num = inputStream.read();---System.out.println((char)num);read(数组):一次可以读出多个字节,数组的作用:每次会将读出的字节临时放到这个数组中 (InputStream inputStream

2021-04-23 21:24:50 86

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除