自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (2)
  • 收藏
  • 关注

原创 Invalid input of type: ‘NoneType‘. Convert to a byte, string or number first

使用airflow,将查询的sql结果插入redis中,报了如下错误解决方法,如下:1.redis版本过高解决方法:解决redis版本过高注:但未尝试,这是最后的解决方法2.数据的问题可以先查看自己的数据是否有null数据,在这里,我查看了自己的数据中,有null的数据,所以导致了这个问题,因为有为null的空数据,导致了插入redis时,无法判断具体类型,从而报这个错误。...

2021-10-27 13:43:37 913

原创 ClickHouse函数操作大全

官址学习文档:https://clickhouse.yandex/docs/zh/零、检测函数类型(clickhouse中数据的类型)SELECT toTypeName(0);-- UInt8(三位数为8)SELECT toTypeName(-0);-- Int8SELECT toTypeName(-343);-- Int16SELECT toTypeName(12.43); -- Float64(默认浮点型的数据为64),所以一般在处理浮点型的数据的时候尽量转成toFloat32(12.43)

2021-07-08 21:10:05 1965

原创 idea访问hdfs分布式系统权限问题

当执行代码后,显示如图类似错误:原因:这是因为,访问hdfs的用户是本机用户,而该用户属于other用户,因此无权限访问。解决办法:可在代码的开头插入下面这句话:System.setProperty("HADOOP_USER_NAME","root")# 注:该行必须放在开头,且HADOOP_USER_NAME必须大写...

2021-07-07 20:32:59 593 2

原创 hdfs每次创建文件或目录权限问题

一.HDFS权限概述1、临时修改文件或目录权限hdfs dfs -chmod 777 文件名或目录名2、每次创建自动变更权限在hdfs中默认的umask值为“022”,若想改变每次创建后的权限,可以进入$HADOOP_HOME/etc/hadoop/中对core-site.xml添加配置,如下:<property>   <name>fs.permissions.umask-mode</name>   <value>037</value&g

2021-07-05 20:27:34 1225 2

原创 Flume的学习及使用

第一章:Flume的简介1.1 大数据处理流程在企业中,大数据的处理流程一般是:1.数据采集2.数据存储3.数据清洗4.数据分析5.数据展示参考下图:1.2 Flume的简介Flume是一种分布式的,可靠的、高可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单的可扩展数据模型,允许在线分析应用程序。参考官网: http://flume.apache

2021-05-19 22:50:44 772

原创 Hive的hql总结(后期会添加)

一、对于hive中json格式字符串的解析1、get_json_object函数的作用:用来解析json字符串的一个字段:格式get_json_object(json_txt, path): 从一个JSON字符串中取出指定路径对应的数据!说明:第一个参数填写json对象变量,第二个参数使用$表示json变量标识,然后用 . 或 [] 读取对象或数组;如果输入的json字符串无效,那么返回NULL。每次只能返回一个数据项。$: 代表根对象. : 获取子元素的操作符[] : 获取一个数组中子元素

2021-05-19 22:23:57 326

原创 远程连接mysql服务器出现的错误解决

远程连接mysql服务器可以先用windows平台的工具访问linux系统上的mysql服务器,如果提示不让远程登录,看下面的解决办法常见错误分析:1.不让远程登录的解决办法首先注意:设置完成后,root的密码变成了mysql不让远程登录:如果出现没有权限的问题,在mysql授权(在安装mysql的机器上执行)mysql -uroot -p#(执行下面的语句 .:所有库下的所有表 %:任何IP地址或主机都可以连接)输入命令说明:GRANT ALL PRIVILEGES ON . T..

2021-05-06 22:41:22 550 2

原创 Hive进阶之自定义函数学习

自定义函数1 自定义函数的简介1.1自定义函数来历hive的内置函数满足不了所有的业务需求‘hive提供很多的模板可以自定义功能,比如:自定义函数、serde、输入输出格式等。1.2 自定义函数分类UDF:用户自定义函数,user defined function。一对一的输入输出。(最常用的)。UDTF:用户自定义表生成函数。user defined table-generate function,一对多的输入输出。lateral view explodeUDAF:用户自定义聚合函数

2021-05-06 22:26:32 232

原创 Hbase进阶(1)

一、Hbase读写数据的工作流程1.1写数据流程Hbase使用memstore和storefile存储对表的更新。数据在更新时首先写入hlog和memstore,memstore中的数据时排序的,当memstore累计到一定的阈值时,就会创建一个新的memstore,并将老的memstore添加到flush队列,由单独的线程flush到磁盘上,成为一个filestore。与此同时,系统会在zookeeper中记录一个checkpoint,表示这个时刻之前的数据变更已经持久化了。当系统出现意外时,可能

2021-05-06 20:53:02 193

原创 Hbase基础详解

一、Hbase来源hbase是一个开源的、分布式的、多版本的、可扩展的、非关系型的数据库。hbase是big table的开源的java版本,建立在hdfs基础之上,提供高可靠性、高性能的、列式存储、可伸缩、近实时读写的nosql的数据库系统数据量越来越大,传统的关系型数据库不能满足存储和查询的需求。而hive虽然能够满足存储的要求,但是hive的本质也是利用底层的mr程序,所以读写速度不快。而且hive不能满足非结构化的、半结构化的存储,hive的主要作用是做分析和统计,hive用于存储是无意义的

2021-05-06 19:40:31 851

原创 将json格式的数据文件存入hive中的方法

如果数据格式是Json格式,如果按照常规的思路我们要使用自定义函数去解析, 那么在这里使用JSonSerde就可以直接读取Json格式的文件,不需要做转化。如果是第三方jar包或者是自己写的,就必须要先加载jar包:hive> add jar /hivedata/json-serde-1.3.8-jar-with-dependencies.jar;(后面的是jar包所在的路径)简单案例演示:#数据内容:{"pid":1,"content":"this is pid of 1 content"

2021-05-06 19:12:47 2000

原创 关闭HBase ./stop-hbase.sh 出现stopStopping hbasecat:/tmp/hbase-root-master.pid:No such file or directory

stopping hbasecat: /tmp/hbase-root-master.pid: 没有那个文件或目录1.查看端口号是否正确如果端口号不是8020,先将端口号改为8020,在重新执行start-hbase.sh2. 在hbase目录下conf文件夹下 hbase-env.sh中修改pid文件的存放路径看注释,hbase默认注释掉HBASE_PID_DIR,而hbase默认把pid文件放在/tmp目录下,Ubuntu 默认重启自动删除/tmp文件夹中的目录 。删除之后hbase无法找到,

2021-05-05 20:42:43 3664 1

原创 Hive进阶(1)重点

一、Hive的复杂数据类型前面已经讲过基本数据类型,以下是复杂基本类型复杂类型分为三种,分别是 数组array,键值对map,和结构体structarray : col array<基本类型> ,下标从0开始,越界不报错,以NULL代替 map : column map<string,string> struct: col struct 1231.1array示例-- 数据如下: 注意下面列之间是通过TAB来分隔的 zhangsan 78,89,92,96 li

2021-04-28 22:10:58 174

原创 Hive的进阶(表的查询)

一、查询语句基本语法1.1SQL查询语句的基本结构select selection_list # 查询的列 from table # 要查询的表join on # 连接的表 where # 查询条件 group by # 分组查询 having # 分组条件过滤 order by # 字段排序 sort by # 结果排序limit # 限制结果数 union/union all # 合并表1.2SQL语句的执行顺序fromon joinwheregroup by ha

2021-04-28 20:31:42 2321

原创 hive基础重点总结

一、表分类内部表:也叫管理表,表目录会创建在hdfs得/usr/hive/warehouse/下的相应的库对应的目录中。外部表:外部表会根据创建表时LOCATION指定的路径来创建目录,如果没有指定LOCATION,则位置跟内部表相同,一般使用的时第三方提供的或者公用的数据。内部表与外部表之间的区别1.内部表与外部表在创建时的差别:就差两个关键字,EXTERNAL LOCATION举例内部表create table t_inner(id int);外部表create exern

2021-04-27 22:26:31 506

原创 mapreduce中分片的概念

1.1分片的概念MapReduce在进行作业提交时,会预先对将要分析的原始数据进行划分处理,形成一个个等长的逻辑数据对象,称之为输入分片(inputSplit),简称“分片”。MapReduce为每一个分片构建一个单独的MapTask,并由该任务来运行用户自定义的map方法,从而处理分片中的每一条记录。1.2分片大小的选择拥有许多分片,意味着处理每个分片所需要的时间要小于处理整个输入数据所花的时间(分而治之的优势)。并行处理分片,且每个分片比较小。负载平衡,好的计算机处理的更快,可以腾出时间,做别

2021-04-27 08:16:48 1374

原创 Hive的进阶(表的操作等)

一、Hive对数据库的基本操作-库、表1.1规则语法注释语法:– – 单行注释// 单行注释/**多行注释*/大小写规则:Hive的数据库名、表名都不区分大小写建议关键字大写命名规则名字不能使用数字开头不能使用关键字尽量不使用特殊符号如果表比较多,那么表名和字段名可以定义规则加上前缀快速创建库和表:– hive有⼀个默认的数据库default,如果不明确的说明要使用哪个库,则使用默认数据库。hive> create database zoo;hi

2021-04-26 20:54:49 1197

原创 对Hive的学习

一、Hive定义出现的原因:Hive最早来源于FaceBook ,因为FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产⽣了Hive这们技术,并继续发展成为⼀个成功的Apache项⽬。1.1、定义Hive是⼀个基于 Hadoop 的数据仓库⼯具,可以将结构化的数据文件映射成⼀张数据表,并可以使用类似SQL的方式来对数据文件进行读写以及管理。这套Hive SQL 简称HQL。Hive的执行引擎可以是MapReduce、Spark、Tez。1.2本质

2021-04-26 20:03:53 1008 4

原创 Zookeeper和HA的了解

一、Zookeeper的概述1.1Zookeeper是什么zookeeper是⼀个伪分布式应⽤程序提供的⼀个分布式开源协调服务框架。是Google的Chubby的⼀个开源实现,是Hadoop和Hbase的重要组件。主要⽤于解决分布式集群中应用系统的⼀致性问题。提供了基于类似Unix系统的目录节点树方式的数据存储。可用于维护和监控存储数据的状态的变化,通过监控这些数据状态的变化,从而达到基于数据的集群管理提供了⼀组原语(机器指令),提供了java和c语⾔的接⼝1.2 Zookeeper的特点

2021-04-25 21:02:10 920

原创 快速排序

快速排序:快速排序,顾名思义,是一种速度快,效率高的排序算法。快排原理:​ 在要排的数(比如数组array)中选择一个中心值key(比如array[0]),通过一趟排序将数组array分成两部分,其中以key为中心,key右边都比key大,key左边的都key小,然后对这两部分分别重复这个过程,直到整个有序。​ 整个快排的过程就简化为了一趟排序的过程,然后递归调用就行了。​ 一趟排序的方法:假设要排的数组为:array[8] ={5,2,8,9,2,3,

2021-04-24 22:04:35 57

原创 hdfs

1.大数据的初了解1.概念总结:拥有海量数据,具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、 管理和处理的数据集合。2.特征:(4v)1.巨大的数据量(Volume)2.数据类型多样化(Variety)3.增长速度快(Velocity)4.价值密度低(Value)3.大数据的应用场景:-记录已经发生的一切-描述正在发生的一切-预测将要发生的一切注:大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。例如:、OFO故障告

2021-04-24 21:04:54 187

二、RESTfull api.pdf

二、RESTfull api.pdf

2021-07-15

Spark MLlib矩阵(基本数据类型).pdf

对Spark MLlib矩阵进行了介绍与基本讲解

2021-07-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除