大数据
文章平均质量分 64
树下AI
公众号:树下的AI攻略 每天分享一个AI小技巧
展开
-
hive取当前周的周一
需要用到hive中的next_day函数和date_add函数例如:next_day(“2021-09-23”,“mo”)第一步:先取当前周的下一个周一hive (dws)> select next_day("2021-09-23","mo") as monday;OKmonday2021-09-27第二步:取当前周的周一hive (dws)> select date_add(next_day('2021-09-23','MO'),-7) as monday;OKmo.原创 2021-09-26 21:38:07 · 7226 阅读 · 0 评论 -
hive使用自定义UDF处理json数据数组
前期准备部分测试数据user1;18;male;{"id": 1,"ids": [101,102,103],"total_number": 3} user2;20;female;{"id": 2,"ids": [201,202,203,204],"total_number": 4} user3;23;male;{"id": 3,"ids": [301,302,303,304,305],"total_number": 5} user4;17;male;{"id": 4,"ids": [401,402原创 2021-09-25 18:34:20 · 951 阅读 · 1 评论 -
hive内置函数处理json数据
建表导入测试数据CREATE TABLE IF NOT EXISTS jsont1( username string, age int, sex string, json string )row format delimited fields terminated by ';'; load data local inpath '/data/lagoudw/data/weibo.json' overwrite into table jsont1;内置函数一:get_json_object(原创 2021-09-23 23:05:56 · 1304 阅读 · 0 评论 -
数据仓库基础知识
什么是数据仓库?数据仓库是一个面向主题,集成的,相对稳定的,反映历史变化的而数据集合,用于支持管理决策。数仓的四大特征面向主题的传统的数据库是面向应用的,而数据仓库中的数据是面向主题的主题:是一个抽象概念,是较高层次上企业信息系统中的数据综合,归纳并进行分析利用的抽象。在逻辑意义上,是对应企业中某一宏观分析领域所涉及的分析对象。其中所谓较高层次是相对面向应用的数据组织方式,指按照主题进行数据组织的具有更高的数据抽象级别。集成的数据仓库的数据来源广,可能是从原有的多个数据库,数据文件原创 2021-09-14 14:47:57 · 888 阅读 · 0 评论 -
Hive笔记
基本数据类型因为这些基本的数据类型都是 java 中的接口进行实现的,因此与 java 中数据类型是基本一致的:数据类型的隐式转换Hive 中基本数据类型遵循以下层次结构,按 照这个层次结构,子类型到祖先类型允许隐式转换。数据类型的显示转换使用cast函数进行强制类型转换,若强制类型转换失败,返回NULLhive> select cast('1111s' as int); OKNULL hive> select cast('1111' as int); OK1111原创 2021-07-11 20:48:37 · 245 阅读 · 2 评论 -
Hive性能优化总结
Hive优化1.架构优化执行引擎优化器分区表分桶表文件格式数据压缩2.参数优化本地模式严格模式JVM重用并行执行推测执行合并小文件Fetch模式3.SQL优化列裁剪和分布裁剪sort by 代替 order bygroup by 代替 count(distinct)group by配置调整join基础优化处理空值或无意义值单独处理倾斜key调整map数调整reduce数4.优化小结1.架构优化影响Hive效率的因素:数据倾斜,数据冗余,Job或I/O过多,MapReduce分配不合原创 2021-07-11 16:02:54 · 2698 阅读 · 0 评论 -
Hive函数面试题
##连续值问题##TopN问题一.连续值问题 求连续7天登录的用户原始数据uid dt status1 2019-07-11 1 1 2019-07-12 1 1 2019-07-13 1 1 2019-07-14 1 1 2019-07-15 1 1 2019-07-16 1 1 2019-07-17 1 1 2019-07-18 1 2 2019-07-11 1 2 2019-07-12 1 2 2019-07-13 0 2 2019-07-14 1 2 2019-原创 2021-06-17 23:07:41 · 151 阅读 · 0 评论 -
HDFS客户端解决文件权限问题
HDFS客户端解决文件权限问题HDFS文件系统权限问题hdfs的文件权限机制与linux系统的文件权限机制类似!!r:read w:write x:execute 权限x对于文件表示忽略,对于文件夹表示是否有权限访问其内容如果linux系统用户zhangsan使用hadoop命令创建一个文件,那么这个文件在HDFS当中的owner就是zhangsanHDFS文件权限的目的,防止好人做错事,而不是阻止坏人做坏事。HDFS相信你告诉我你是谁,你就是谁!!如果不指定操作HDFS集群的用户信息,默认原创 2021-05-26 22:12:26 · 999 阅读 · 0 评论