大数据
雨中禁火
这个作者很懒,什么都没留下…
展开
-
spark-hive
报错:set_ugi() not successful, Likely cause: new client talking to old server. Continuing without it.hive thrift接口可以参考注意代码中的hive-site.xml和集群上面的保持一致否则会报错,例如set_ugi() not successful, Likely cause: new client talking to old server. Continuing without it..原创 2022-01-24 17:55:42 · 3656 阅读 · 2 评论 -
SQL中为null赋值的方法
SQL中为null赋值的方法NVL函数是一个空值转换函数 NVL(表达式1,表达式2) 如果表达式1为空值,NVL返回值为表达式2的值,否则返回表达式1的值。 该函数的目的是把一个空值(null)转换成一个实际的值。 其表达式的值可以是数字型、字符型和日期型。 但是表达式1和表达式2的数据类型必须为同一个类型。coalesce(arg1, arg2,arg3,arg4......); 该函数的含义是返回最近的一个为非空值的值.例: (1)coalesce(1, 2原创 2021-09-29 16:38:01 · 5946 阅读 · 0 评论 -
hive分区回复
当删除了hive分区表,重新运行,会没有数据所以我们需要回复hive分区表数据语法:MSCK REPAIR TABLE table_name;执行后,Hive会检测如果HDFS目录下存在但表的metastore中不存在的partition元信息,更新到metastore中。...原创 2021-09-26 17:49:35 · 237 阅读 · 0 评论 -
No such file or directoryssment_test.sh: line 3: /etc/profile
No such file or directoryssment_test.sh: line 3: /etc/profile判定一下脚本语言是windows 还是 Linux原创 2021-09-26 15:35:08 · 219 阅读 · 0 评论 -
ParseException line 125:60 missing ) at ‘as‘ near ‘<EOF>‘ line 144:57 missing ) at ‘as‘ near ‘<EOF>‘
substring_index(substring_index(content_tag,'"',-4),'"',1)as content_tag,由于单双引号在hive中不能正确识别,所以需要转义符号 在SQL中能正确识别原创 2021-09-23 09:56:17 · 1242 阅读 · 0 评论 -
对大数据指标的理解、大数据常用指标都有哪些
导读:数据指标体系是构建数据中台的重要一环。数据指标的建立让运营及产品人员更直观地看到基本指标的变动,让数据分析师更便捷地开展数据分析工作。数据指标就是将大数据之“大”的精髓给提炼出来,展现每日观察数据的使用者最迫切想要看到的统计量。数据指标体系并不是第三方服务公司的专利,只要对埋点科学地进行数据采集,每个成型的互联网公司都可以自己搭建数据指标体系。数据之大,很多时候人们并不知从哪里着手,甚至弄不清自己到底想要什么数据,这时候数据产品经理这一角色应运而生。数据产品经理既要完成数据体系设计,让原本无序或庞转载 2021-08-04 20:24:00 · 6918 阅读 · 0 评论 -
Kafka重点内容
\1. Kafka如何保证数据不丢失 如何保证不重复producer 生产端是如何保证数据不丢失的 ack+hw+isr 都不能100%解决.consumer端是如何保证数据不丢失的 ISR: enable.auto.commit=false(手动)Kafka幂等写⼊可以保证同⼀分区数据不会重复.\2. Kafka副本ISR的作⽤?为什么需要ISR?原理是什么?检测folloer是否在线,有没有失去联系当ACK等于-1的时候,如果有follower同步过慢,会造成数据重复ISR定期检测原创 2021-06-23 17:57:24 · 102 阅读 · 0 评论 -
Scala中的偏函数
如果一个方法中没有match只有case,这个函数可以定义成PartialFunction偏函数。偏函数定义时,不能使用括号传参,默认定义PartialFunction中传入一个值,匹配上了对应的case,返回一个值。原创 2021-06-18 19:43:30 · 249 阅读 · 0 评论 -
Scala中的样例类 case class
样例类Case Class * Case Class一般被翻译成样例类,它是一种特殊的类,能够被优化以用于模式匹配。 * 当一个类被声名为case class的时候,scala会帮助我们做下面几件事情: * 1、构造器中的参数如果不被声明为var的话,它默认的是val类型的,但一般不推荐将构造器中的参数声明为var。 * 2、自动创建伴生对象,同时在里面给我们实现子apply方法,使我们在使用的时候可以不直接使用new创建对象。 * 3、伴生对象中同样会帮我们实现unapply方法,从而...原创 2021-06-18 19:34:33 · 341 阅读 · 1 评论 -
scala中list的常用操作
object listDemo { def main(args: Array[String]): Unit = { val list: List[String] = List("a", "b" ,"a") //为列表预添加元素 println("A" +: list) //在列表开头添加元素 println("c" :: list) //在列表开头添加指定列表的元素 println(List("d","e") ::: list) //复制.原创 2021-06-16 19:33:18 · 604 阅读 · 0 评论 -
Spark中master、worker、driver、executor
首先说一句,master和worker是物理节点,driver和executor是进程。1,master和worker节点搭建spark集群的时候我们就已经设置好了master节点和worker节点,一个集群有多个master节点和多个worker节点。master节点常驻master守护进程,负责管理worker节点,我们从master节点提交应用。worker节点常驻worker守护进程,与master节点通信,并且管理executor进程。PS:一台机器可以同时作为master和worke原创 2021-06-15 21:52:55 · 692 阅读 · 0 评论 -
Spark中map与flatMap
map将函数作用到数据集的每一个元素上,生成一个新的分布式的数据集(RDD)返回map函数的源码:def map(self, f, preservesPartitioning=False): """ Return a new RDD by applying a function to each element of this RDD. >>> rdd = sc.parallelize(["b", "a", "c"]) >>> sorte原创 2021-06-15 20:44:40 · 2419 阅读 · 2 评论 -
Spark中常用函数
1. filter过滤函数df.filter(df.列名==值) 或者 df.filter("列名==值") 中间可以使用(或操作|) (与操作&)2. union函数df.union(df1) 可进行行合并的操作,df与df1的列名相同3. 本地集合求并集totalset = set1 | set2 set1=set(pandas['列名'])4. pandas df 选择数据df.iat[i,0] 选择行为i,列为0的数据5. pyspark df选原创 2021-06-15 20:00:43 · 1886 阅读 · 0 评论 -
Spark中对Partitioner的理解
前言分区只不过是将原来大的数据分成几部分。 比如分布式系统中的分区,我们可以将其定义为大型数据集的分区,并将它们存储为整个群集中的多个部分。通过分区可以减少网络I/O,从而可以更快地处理数据。在Spark中,co-group,groupBy,groupByKey等操作需要大量的I/O操作。 在这种情况下,如果我们应用分区,那么我们可以快速减少I/O操作的数量,以便我们可以加速数据处理。Spark适用于数据局部性原则。 工作节点获取更接近它们的处理数据。 通过分区网络,I/O将减少,从而可以更快地处理数原创 2021-06-15 19:47:12 · 195 阅读 · 0 评论 -
Expression not in GROUP BY key
SemanticException [Error 10025]: Line 4:0 Expression not in GROUP BY key 'device_type'selectuser_id ,device_num ,device_type ,os ,os_version ,manufacturer,carrier ,network_type,area_code ,count(1) launch_countfrom dwd_nshop.dwd_nshop_actlog_la原创 2021-05-19 17:07:16 · 4433 阅读 · 0 评论 -
hive中的SQL
第一章 查询语句基本语法1.1 **Select***查询结构基本语法下面是一个SQL查询语句的基本结构1.2 sql****语句的执行顺序1.3 查询注意事项1.4 数据库建模关系型数据库最难的地方,就是建模(model)。错综复杂的数据,需要建立模型,才能储存在数据库。所谓"模型"就是两样东西:实体(entity)+ 关系(relationship)ER图。实体指的是那些实际的对象,带有自己的属性,可以理解成一组相关属性的容器。关系就是实体之间的联系,通常可以分成"一对一"、原创 2021-05-06 21:41:16 · 963 阅读 · 0 评论 -
Hive的安装部署--三种模式
Hive的安装部署Hive常用的安装分三种(注意:Hive会自动监测Hadoop的环境变量,如有就必须启动Hadoop)先从本地上传Hive安装文件apache-hive-2.1.1-bin.tar.gz到/root/soft1 嵌入式模式使用hive自带默认元数据库derby来进行存储,通常用于测试优点:使用简单,不用进行配置缺点:只支持单Session。安装步骤:1.1 解压hive并配置环境变量[root@hd01 local]tar -zxvf apache-hive原创 2021-04-28 21:30:38 · 1819 阅读 · 0 评论 -
Hive的基本知识
一:Hive定义1.1出现原因Hive最早来源于FaceBook ,因为FaceBook⽹站每天产⽣海量的结构化⽇志数据,为了对这些数据进⾏管理,并且因为机器学习的需求,产⽣了Hive这⻔技术,并继续发展成为⼀个成功的Apache项⽬。1.2定义:Hive是⼀个基于 Hadoop 的数据仓库⼯具,可以将结构化的数据⽂件映射成⼀张数据表,并可以使⽤类似SQL的⽅式来对数据⽂件进⾏读写以及管理。这套Hive SQL 简 称HQL。Hive的执⾏引擎可以是MR、Spark、Tez。1.3本质:原创 2021-04-28 20:29:51 · 320 阅读 · 2 评论 -
HDFS、MapReduce最重要的五个图
–SecondayNamenode的工作机制(检查点机制)通过上图,可以总结如下: 1. SecondaryNamenode请求Namenode停止使用正在编辑的editlog文件,Namenode会创建新的 editlog文件(小了吧),同时更新seed_txid文件。 2. SecondaryNamenode通过HTTP协议获取Namenode上的fsimage和editlog文件。 3. SecondaryNamenode将fsimage读进内存当中,并逐步分析editlog文件里的数据原创 2021-04-28 20:15:11 · 78 阅读 · 0 评论 -
大数据专用名词解释
常用的数据采集框架:- sqoop: 用于RDBMS与HDFS之间数据导入与导出- flume: 采集日志文件数据,动态采集日志文件,数据流 flume采集到的数据,一份给HDFS,用于做离线分析;一份给Kafka,实时处理- kafka: 主要用于实时的数据流处理 flume与kafka都有类似消息队列的机制,来缓存大数据环境处理不了的数据HDFS: 分布式文件系统MapReduce: 分布式计算系统Yarn: Hadoop2.0版本的资源调度的框架。 是Hadoop原创 2021-04-28 19:59:57 · 746 阅读 · 0 评论 -
分区、分桶练习
1.将数据放入分区表ip1(fadd,sadd,tadd,fouadd)中并进行分区,(区号:firstadd),即:ip第一位2.将数据放入分桶排序(正序)表ip2,分8个桶3.按照fadd查出第2,5桶4.按照fadd查找第2,4,6,8桶1.将数据放入分区表ip1(fadd,sadd,tadd,fouadd)中并进行分区,(区号:firstadd),即:ip第一位create external table if not exists ip1(fadd int,asdd int,tad原创 2021-04-28 19:50:33 · 110 阅读 · 0 评论 -
简单的将数据存入数据仓库hive,并操作。
简单的将数据存入数据仓库hive,并操作。有一个用户user.txt01#bingbing#2302#liying#2003#mali#2404#xiaoli#1805#wangli#2006#mumu#23要求:1.将数据存入数据仓库users.myuser(id,name,age),需要将数据放在hdfs的/data下面2.查找年龄最大的三个人,年龄相同再按照姓名排序第一题:先将user.txt放到Linux的/boot目录下在hdfs上创建/data[root@hd原创 2021-04-27 20:22:45 · 738 阅读 · 1 评论 -
大数据的概念
大数据的定义:维基百科 给出的定义: 数据规模巨大到无法通过人工在合理的时间内达到截取,管理,处理并整理成为人类所解读的信 息。麦肯锡全球研究所 给出的定义: 一种规模大到在获取、存储、管理、分析方面都大大超出了传统数据库软件工具能力范围的数据 集合。高德纳(Gartner)研究机构 给出的定义: "大数据"是需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、 高增长率和多样化的信息资产。概念总结: 海量数据,具有高增长率、数据类型多样化、一定时间内无法使用原创 2021-04-24 20:22:26 · 1081 阅读 · 1 评论