大数据
zzumarch
一切数据出发,让数据回归数据本质
展开
-
presto 实现 多行转多列
SELECT kv['20200101'] AS dt1, kv['20200102'] AS dt2, kv['20200103'] AS dt3FROM ( SELECT map_agg(dt, cnt) kv FROM a GROUP BY 1) tpresto 实现 列转行SELECT t1.uid, t2.key, t2.valueFROM a as t1CROSS JOIN unnest ( array['dt1', 'dt2', 'dt3']...原创 2022-03-29 20:30:26 · 1379 阅读 · 0 评论 -
spark -- repartition和coalesce区别
我们都知道coalese 和repartition都是对数据再划分但是有时候用的时候还是有区别的我们从源码把主要部分拿来比较:coalesce(numPartitions:Int,shuffle:Boolean=false)而repartition 是去执行coalesce(numPartitions, shuffle = true)这里我们我们看出来repartitionshuffle = true 而coalesce为false我们来通过具体例子来分析我们对两个算子的应用场景:.原创 2021-08-02 16:52:06 · 407 阅读 · 0 评论 -
mysql 有关数组json解析
1:在mysql中若元素类型为text 但存储的是一个数据组时,相对其他hive oracle 等mysql处理稍显复杂,下面为在项目中遇见的问题:比如 表 B中 有字段班级id 和 student 其中student 为text 类型 存储的为班级内所有学生的信息比如 [{'name':'a','age':23},{'name':'a','age':10},{'name':'a','ag...原创 2020-04-21 15:56:52 · 566 阅读 · 0 评论 -
HIVE中Grouping sets 时遇见的问题
hive 中使用grouping SETS时遇见对坑:hive报错Grouping sets aggregations (with rollups or cubes) are not allowed if aggregation function parameters overlap with the aggregation functions columnsselect p.c...原创 2020-04-10 15:27:00 · 3088 阅读 · 0 评论 -
hive 中判断中文的表达式
select regexp_extract('这里china', '[\u4e00-\u9fa5]+', 0)输出结果为:这里select regexp_replace('2019这里china', '[\u4e00-\u9fa5]+', "")输出结果为:2019china原创 2019-07-30 11:09:36 · 9195 阅读 · 0 评论 -
根据经纬度计算两点的距离
SELECT111.199*sqrt((f.lng-e.lng)*(f.lng-e.lng)+(f.lat-e.lat)*(f.lat-e.lat)*cos((f.lng+e.lng)/2)*cos((f.lng+e.lng)/2)) as distancefrom fleft join e on 条件原创 2019-07-30 11:15:40 · 142 阅读 · 0 评论