仙女的崽儿-CSDN博客

原创 Invalid input of type: ‘NoneType‘. Convert to a byte, string or number first

使用airflow，将查询的sql结果插入redis中，报了如下错误解决方法，如下：1.redis版本过高解决方法：解决redis版本过高注：但未尝试，这是最后的解决方法2.数据的问题可以先查看自己的数据是否有null数据，在这里，我查看了自己的数据中，有null的数据，所以导致了这个问题，因为有为null的空数据，导致了插入redis时，无法判断具体类型，从而报这个错误。...

2021-10-27 13:43:37 984

原创 ClickHouse函数操作大全

官址学习文档：https://clickhouse.yandex/docs/zh/零、检测函数类型（clickhouse中数据的类型）SELECT toTypeName(0);-- UInt8(三位数为8)SELECT toTypeName(-0);-- Int8SELECT toTypeName(-343);-- Int16SELECT toTypeName(12.43); -- Float64(默认浮点型的数据为64)，所以一般在处理浮点型的数据的时候尽量转成toFloat32(12.43)

2021-07-08 21:10:05 2100

原创 idea访问hdfs分布式系统权限问题

当执行代码后，显示如图类似错误：原因：这是因为，访问hdfs的用户是本机用户，而该用户属于other用户，因此无权限访问。解决办法：可在代码的开头插入下面这句话：System.setProperty("HADOOP_USER_NAME","root")# 注：该行必须放在开头，且HADOOP_USER_NAME必须大写...

2021-07-07 20:32:59 682 2

原创 hdfs每次创建文件或目录权限问题

一.HDFS权限概述1、临时修改文件或目录权限hdfs dfs -chmod 777 文件名或目录名2、每次创建自动变更权限在hdfs中默认的umask值为“022”，若想改变每次创建后的权限，可以进入$HADOOP_HOME/etc/hadoop/中对core-site.xml添加配置，如下：<property>　　　<name>fs.permissions.umask-mode</name>　　　<value>037</value&g

2021-07-05 20:27:34 1376 2

原创 Flume的学习及使用

第一章：Flume的简介1.1 大数据处理流程在企业中，大数据的处理流程一般是：1.数据采集2.数据存储3.数据清洗4.数据分析5.数据展示参考下图：1.2 Flume的简介Flume是一种分布式的，可靠的、高可用的服务，用于有效地收集，聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制，具有强大的功能和容错能力。它使用一个简单的可扩展数据模型，允许在线分析应用程序。参考官网： http://flume.apache

2021-05-19 22:50:44 840

原创 Hive的hql总结（后期会添加）

一、对于hive中json格式字符串的解析1、get_json_object函数的作用：用来解析json字符串的一个字段：格式get_json_object(json_txt, path)：从一个JSON字符串中取出指定路径对应的数据！说明：第一个参数填写json对象变量，第二个参数使用$表示json变量标识，然后用 . 或 [] 读取对象或数组；如果输入的json字符串无效，那么返回NULL。每次只能返回一个数据项。$: 代表根对象. : 获取子元素的操作符[] : 获取一个数组中子元素

2021-05-19 22:23:57 370

原创远程连接mysql服务器出现的错误解决

远程连接mysql服务器可以先用windows平台的工具访问linux系统上的mysql服务器,如果提示不让远程登录,看下面的解决办法常见错误分析:1.不让远程登录的解决办法首先注意:设置完成后,root的密码变成了mysql不让远程登录:如果出现没有权限的问题，在mysql授权(在安装mysql的机器上执行)mysql -uroot -p#(执行下面的语句 .:所有库下的所有表 %：任何IP地址或主机都可以连接)输入命令说明:GRANT ALL PRIVILEGES ON . T..

2021-05-06 22:41:22 586 2

原创 Hive进阶之自定义函数学习

自定义函数1 自定义函数的简介1.1自定义函数来历hive的内置函数满足不了所有的业务需求‘hive提供很多的模板可以自定义功能，比如：自定义函数、serde、输入输出格式等。1.2 自定义函数分类UDF：用户自定义函数，user defined function。一对一的输入输出。(最常用的)。UDTF：用户自定义表生成函数。user defined table-generate function，一对多的输入输出。lateral view explodeUDAF：用户自定义聚合函数

2021-05-06 22:26:32 265

原创 Hbase进阶（1）

一、Hbase读写数据的工作流程1.1写数据流程Hbase使用memstore和storefile存储对表的更新。数据在更新时首先写入hlog和memstore，memstore中的数据时排序的，当memstore累计到一定的阈值时，就会创建一个新的memstore，并将老的memstore添加到flush队列，由单独的线程flush到磁盘上，成为一个filestore。与此同时，系统会在zookeeper中记录一个checkpoint，表示这个时刻之前的数据变更已经持久化了。当系统出现意外时，可能

2021-05-06 20:53:02 231

原创 Hbase基础详解

一、Hbase来源hbase是一个开源的、分布式的、多版本的、可扩展的、非关系型的数据库。hbase是big table的开源的java版本，建立在hdfs基础之上，提供高可靠性、高性能的、列式存储、可伸缩、近实时读写的nosql的数据库系统数据量越来越大，传统的关系型数据库不能满足存储和查询的需求。而hive虽然能够满足存储的要求，但是hive的本质也是利用底层的mr程序，所以读写速度不快。而且hive不能满足非结构化的、半结构化的存储，hive的主要作用是做分析和统计，hive用于存储是无意义的

2021-05-06 19:40:31 903

原创将json格式的数据文件存入hive中的方法

如果数据格式是Json格式,如果按照常规的思路我们要使用自定义函数去解析, 那么在这里使用JSonSerde就可以直接读取Json格式的文件,不需要做转化。如果是第三方jar包或者是自己写的，就必须要先加载jar包：hive> add jar /hivedata/json-serde-1.3.8-jar-with-dependencies.jar;（后面的是jar包所在的路径）简单案例演示：#数据内容：{"pid":1,"content":"this is pid of 1 content"

2021-05-06 19:12:47 2213

原创关闭HBase ./stop-hbase.sh 出现stopStopping hbasecat:/tmp/hbase-root-master.pid:No such file or directory

stopping hbasecat: /tmp/hbase-root-master.pid: 没有那个文件或目录1.查看端口号是否正确如果端口号不是8020，先将端口号改为8020，在重新执行start-hbase.sh2. 在hbase目录下conf文件夹下 hbase-env.sh中修改pid文件的存放路径看注释，hbase默认注释掉HBASE_PID_DIR，而hbase默认把pid文件放在/tmp目录下，Ubuntu 默认重启自动删除/tmp文件夹中的目录。删除之后hbase无法找到，

2021-05-05 20:42:43 4214 1

原创 Hive进阶(1)重点

一、Hive的复杂数据类型前面已经讲过基本数据类型，以下是复杂基本类型复杂类型分为三种,分别是数组array,键值对map,和结构体structarray : col array<基本类型> ,下标从0开始，越界不报错，以NULL代替 map : column map<string,string> struct: col struct 1231.1array示例-- 数据如下: 注意下面列之间是通过TAB来分隔的 zhangsan 78,89,92,96 li

2021-04-28 22:10:58 210

原创 Hive的进阶(表的查询)

一、查询语句基本语法1.1SQL查询语句的基本结构select selection_list # 查询的列 from table # 要查询的表join on # 连接的表 where # 查询条件 group by # 分组查询 having # 分组条件过滤 order by # 字段排序 sort by # 结果排序limit # 限制结果数 union/union all # 合并表1.2SQL语句的执行顺序fromon joinwheregroup by ha

2021-04-28 20:31:42 2370

原创 hive基础重点总结

一、表分类内部表：也叫管理表，表目录会创建在hdfs得/usr/hive/warehouse/下的相应的库对应的目录中。外部表：外部表会根据创建表时LOCATION指定的路径来创建目录，如果没有指定LOCATION，则位置跟内部表相同，一般使用的时第三方提供的或者公用的数据。内部表与外部表之间的区别1.内部表与外部表在创建时的差别：就差两个关键字，EXTERNAL LOCATION举例内部表create table t_inner(id int);外部表create exern

2021-04-27 22:26:31 536

原创 mapreduce中分片的概念

1.1分片的概念MapReduce在进行作业提交时，会预先对将要分析的原始数据进行划分处理，形成一个个等长的逻辑数据对象，称之为输入分片（inputSplit），简称“分片”。MapReduce为每一个分片构建一个单独的MapTask，并由该任务来运行用户自定义的map方法，从而处理分片中的每一条记录。1.2分片大小的选择拥有许多分片，意味着处理每个分片所需要的时间要小于处理整个输入数据所花的时间(分而治之的优势)。并行处理分片，且每个分片比较小。负载平衡，好的计算机处理的更快，可以腾出时间，做别

2021-04-27 08:16:48 1580

xhzxhz12的博客

原创 Invalid input of type: ‘NoneType‘. Convert to a byte, string or number first

原创 ClickHouse函数操作大全

原创 idea访问hdfs分布式系统权限问题

原创 hdfs每次创建文件或目录权限问题

原创 Flume的学习及使用

原创 Hive的hql总结（后期会添加）

原创远程连接mysql服务器出现的错误解决

原创 Hive进阶之自定义函数学习

原创 Hbase进阶（1）

原创 Hbase基础详解

原创将json格式的数据文件存入hive中的方法

原创关闭HBase ./stop-hbase.sh 出现stopStopping hbasecat:/tmp/hbase-root-master.pid:No such file or directory

原创 Hive进阶(1)重点

原创 Hive的进阶(表的查询)

原创 hive基础重点总结

原创 mapreduce中分片的概念

原创 Hive的进阶(表的操作等)

原创对Hive的学习

原创 Zookeeper和HA的了解

原创快速排序

原创 hdfs

二、RESTfull api.pdf

Spark MLlib矩阵（基本数据类型）.pdf

空空如也