仙女的崽儿
码龄6年
关注
提问 私信
  • 博客:24,405
    24,405
    总访问量
  • 21
    原创
  • 985,250
    排名
  • 3
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2019-07-06
博客简介:

xhzxhz12的博客

查看详细资料
个人成就
  • 获得26次点赞
  • 内容获得11次评论
  • 获得47次收藏
  • 代码片获得115次分享
创作历程
  • 21篇
    2021年
成就勋章
TA的专栏
  • 问题解决
    1篇
  • ClickHouse
    1篇
  • 大数据的学习
    19篇
  • HIVE
    5篇
  • mysql
    1篇
  • Flume
    1篇
  • HBASE
    2篇
  • 算法
    1篇
兴趣领域 设置
  • 数据结构与算法
    数据结构
  • 移动开发
    android studio
  • 软件工程
    性能优化
  • 学习和成长
    面试
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Invalid input of type: ‘NoneType‘. Convert to a byte, string or number first

使用airflow,将查询的sql结果插入redis中,报了如下错误解决方法,如下:1.redis版本过高解决方法:解决redis版本过高注:但未尝试,这是最后的解决方法2.数据的问题可以先查看自己的数据是否有null数据,在这里,我查看了自己的数据中,有null的数据,所以导致了这个问题,因为有为null的空数据,导致了插入redis时,无法判断具体类型,从而报这个错误。...
原创
发布博客 2021.10.27 ·
1017 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

二、RESTfull api.pdf

发布资源 2021.07.15 ·
pdf

Spark MLlib矩阵(基本数据类型).pdf

发布资源 2021.07.15 ·
pdf

ClickHouse函数操作大全

官址学习文档:https://clickhouse.yandex/docs/zh/零、检测函数类型(clickhouse中数据的类型)SELECT toTypeName(0);-- UInt8(三位数为8)SELECT toTypeName(-0);-- Int8SELECT toTypeName(-343);-- Int16SELECT toTypeName(12.43); -- Float64(默认浮点型的数据为64),所以一般在处理浮点型的数据的时候尽量转成toFloat32(12.43)
原创
发布博客 2021.07.08 ·
2128 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

idea访问hdfs分布式系统权限问题

当执行代码后,显示如图类似错误:原因:这是因为,访问hdfs的用户是本机用户,而该用户属于other用户,因此无权限访问。解决办法:可在代码的开头插入下面这句话:System.setProperty("HADOOP_USER_NAME","root")# 注:该行必须放在开头,且HADOOP_USER_NAME必须大写...
原创
发布博客 2021.07.07 ·
710 阅读 ·
2 点赞 ·
2 评论 ·
3 收藏

hdfs每次创建文件或目录权限问题

一.HDFS权限概述1、临时修改文件或目录权限hdfs dfs -chmod 777 文件名或目录名2、每次创建自动变更权限在hdfs中默认的umask值为“022”,若想改变每次创建后的权限,可以进入$HADOOP_HOME/etc/hadoop/中对core-site.xml添加配置,如下:<property>   <name>fs.permissions.umask-mode</name>   <value>037</value&g
原创
发布博客 2021.07.05 ·
1419 阅读 ·
1 点赞 ·
2 评论 ·
3 收藏

Flume的学习及使用

第一章:Flume的简介1.1 大数据处理流程在企业中,大数据的处理流程一般是:1.数据采集2.数据存储3.数据清洗4.数据分析5.数据展示参考下图:1.2 Flume的简介Flume是一种分布式的,可靠的、高可用的服务,用于有效地收集,聚合和移动大量日志数据。它具有基于流数据流的简单灵活的体系结构。它具有可调整的可靠性机制以及许多故障转移和恢复机制,具有强大的功能和容错能力。它使用一个简单的可扩展数据模型,允许在线分析应用程序。参考官网: http://flume.apache
原创
发布博客 2021.05.19 ·
890 阅读 ·
0 点赞 ·
0 评论 ·
7 收藏

Hive的hql总结(后期会添加)

一、对于hive中json格式字符串的解析1、get_json_object函数的作用:用来解析json字符串的一个字段:格式get_json_object(json_txt, path): 从一个JSON字符串中取出指定路径对应的数据!说明:第一个参数填写json对象变量,第二个参数使用$表示json变量标识,然后用 . 或 [] 读取对象或数组;如果输入的json字符串无效,那么返回NULL。每次只能返回一个数据项。$: 代表根对象. : 获取子元素的操作符[] : 获取一个数组中子元素
原创
发布博客 2021.05.19 ·
388 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Hbase进阶(1)

一、Hbase读写数据的工作流程1.1写数据流程Hbase使用memstore和storefile存储对表的更新。数据在更新时首先写入hlog和memstore,memstore中的数据时排序的,当memstore累计到一定的阈值时,就会创建一个新的memstore,并将老的memstore添加到flush队列,由单独的线程flush到磁盘上,成为一个filestore。与此同时,系统会在zookeeper中记录一个checkpoint,表示这个时刻之前的数据变更已经持久化了。当系统出现意外时,可能
原创
发布博客 2021.05.06 ·
240 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hbase基础详解

一、Hbase来源hbase是一个开源的、分布式的、多版本的、可扩展的、非关系型的数据库。hbase是big table的开源的java版本,建立在hdfs基础之上,提供高可靠性、高性能的、列式存储、可伸缩、近实时读写的nosql的数据库系统数据量越来越大,传统的关系型数据库不能满足存储和查询的需求。而hive虽然能够满足存储的要求,但是hive的本质也是利用底层的mr程序,所以读写速度不快。而且hive不能满足非结构化的、半结构化的存储,hive的主要作用是做分析和统计,hive用于存储是无意义的
原创
发布博客 2021.05.06 ·
928 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

将json格式的数据文件存入hive中的方法

如果数据格式是Json格式,如果按照常规的思路我们要使用自定义函数去解析, 那么在这里使用JSonSerde就可以直接读取Json格式的文件,不需要做转化。如果是第三方jar包或者是自己写的,就必须要先加载jar包:hive> add jar /hivedata/json-serde-1.3.8-jar-with-dependencies.jar;(后面的是jar包所在的路径)简单案例演示:#数据内容:{"pid":1,"content":"this is pid of 1 content"
原创
发布博客 2021.05.06 ·
2278 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

关闭HBase ./stop-hbase.sh 出现stopStopping hbasecat:/tmp/hbase-root-master.pid:No such file or directory

stopping hbasecat: /tmp/hbase-root-master.pid: 没有那个文件或目录1.查看端口号是否正确如果端口号不是8020,先将端口号改为8020,在重新执行start-hbase.sh2. 在hbase目录下conf文件夹下 hbase-env.sh中修改pid文件的存放路径看注释,hbase默认注释掉HBASE_PID_DIR,而hbase默认把pid文件放在/tmp目录下,Ubuntu 默认重启自动删除/tmp文件夹中的目录 。删除之后hbase无法找到,
原创
发布博客 2021.05.05 ·
4490 阅读 ·
4 点赞 ·
1 评论 ·
9 收藏

Hive进阶之自定义函数学习

自定义函数1 自定义函数的简介1.1自定义函数来历hive的内置函数满足不了所有的业务需求‘hive提供很多的模板可以自定义功能,比如:自定义函数、serde、输入输出格式等。1.2 自定义函数分类UDF:用户自定义函数,user defined function。一对一的输入输出。(最常用的)。UDTF:用户自定义表生成函数。user defined table-generate function,一对多的输入输出。lateral view explodeUDAF:用户自定义聚合函数
原创
发布博客 2021.05.06 ·
280 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive进阶(1)重点

一、Hive的复杂数据类型前面已经讲过基本数据类型,以下是复杂基本类型复杂类型分为三种,分别是 数组array,键值对map,和结构体structarray : col array<基本类型> ,下标从0开始,越界不报错,以NULL代替 map : column map<string,string> struct: col struct 1231.1array示例-- 数据如下: 注意下面列之间是通过TAB来分隔的 zhangsan 78,89,92,96 li
原创
发布博客 2021.04.28 ·
219 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive的进阶(表的查询)

一、查询语句基本语法1.1SQL查询语句的基本结构select selection_list # 查询的列 from table # 要查询的表join on # 连接的表 where # 查询条件 group by # 分组查询 having # 分组条件过滤 order by # 字段排序 sort by # 结果排序limit # 限制结果数 union/union all # 合并表1.2SQL语句的执行顺序fromon joinwheregroup by ha
原创
发布博客 2021.04.28 ·
2386 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive基础重点总结

一、表分类内部表:也叫管理表,表目录会创建在hdfs得/usr/hive/warehouse/下的相应的库对应的目录中。外部表:外部表会根据创建表时LOCATION指定的路径来创建目录,如果没有指定LOCATION,则位置跟内部表相同,一般使用的时第三方提供的或者公用的数据。内部表与外部表之间的区别1.内部表与外部表在创建时的差别:就差两个关键字,EXTERNAL LOCATION举例内部表create table t_inner(id int);外部表create exern
原创
发布博客 2021.04.27 ·
547 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

远程连接mysql服务器出现的错误解决

远程连接mysql服务器可以先用windows平台的工具访问linux系统上的mysql服务器,如果提示不让远程登录,看下面的解决办法常见错误分析:1.不让远程登录的解决办法首先注意:设置完成后,root的密码变成了mysql不让远程登录:如果出现没有权限的问题,在mysql授权(在安装mysql的机器上执行)mysql -uroot -p#(执行下面的语句 .:所有库下的所有表 %:任何IP地址或主机都可以连接)输入命令说明:GRANT ALL PRIVILEGES ON . T..
原创
发布博客 2021.05.06 ·
598 阅读 ·
1 点赞 ·
2 评论 ·
0 收藏

Hive的进阶(表的操作等)

一、Hive对数据库的基本操作-库、表1.1规则语法注释语法:– – 单行注释// 单行注释/**多行注释*/大小写规则:Hive的数据库名、表名都不区分大小写建议关键字大写命名规则名字不能使用数字开头不能使用关键字尽量不使用特殊符号如果表比较多,那么表名和字段名可以定义规则加上前缀快速创建库和表:– hive有⼀个默认的数据库default,如果不明确的说明要使用哪个库,则使用默认数据库。hive> create database zoo;hi
原创
发布博客 2021.04.26 ·
1495 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

对Hive的学习

一、Hive定义出现的原因:Hive最早来源于FaceBook ,因为FaceBook网站每天产生海量的结构化日志数据,为了对这些数据进行管理,并且因为机器学习的需求,产⽣了Hive这们技术,并继续发展成为⼀个成功的Apache项⽬。1.1、定义Hive是⼀个基于 Hadoop 的数据仓库⼯具,可以将结构化的数据文件映射成⼀张数据表,并可以使用类似SQL的方式来对数据文件进行读写以及管理。这套Hive SQL 简称HQL。Hive的执行引擎可以是MapReduce、Spark、Tez。1.2本质
原创
发布博客 2021.04.26 ·
1038 阅读 ·
2 点赞 ·
4 评论 ·
0 收藏

mapreduce中分片的概念

1.1分片的概念MapReduce在进行作业提交时,会预先对将要分析的原始数据进行划分处理,形成一个个等长的逻辑数据对象,称之为输入分片(inputSplit),简称“分片”。MapReduce为每一个分片构建一个单独的MapTask,并由该任务来运行用户自定义的map方法,从而处理分片中的每一条记录。1.2分片大小的选择拥有许多分片,意味着处理每个分片所需要的时间要小于处理整个输入数据所花的时间(分而治之的优势)。并行处理分片,且每个分片比较小。负载平衡,好的计算机处理的更快,可以腾出时间,做别
原创
发布博客 2021.04.27 ·
1626 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏
加载更多