前言
最近在写书,12万字了,还有三章,全都要落地的东西,要全情投入了。
这几天继续让大佬们代班,把群内聊天内容整理一下,供您参考。感谢@许则则 的辛苦整理。
都是群里聊天实录,直接复制粘贴的。肯定有错别字、语句不通顺的问题。您将就着看哈。
明细层直接做大宽表是否可行
问题:
请教大家个问题
如果明细层直接做大宽表 只不过明细表里的维度属性 全是从维度表里拿过来
这样就省去先事实表,再汇聚宽表的过程
维表也可以一致性保证 这样有什么问题吗?
可行:
没啥问题
和原来的事实表粒度一样就行
反正你基础事实表就是为了生成这张宽表的
这样方便,还能保证一致性维度
我个人建模都是从用途出发,看你想咋用
正常是abc三张,改成ac,本来b也是为了出c的
也没啥大问题,不用纠结
稍微喜欢规范化一点的肯定是拆,但经常发现基础事实表唯一的用途就是给很少的几张甚至一张宽表供数,合也正常
你这个前提是不是需要已经有事实表和维度表了,第二步把数据关联并打平,你也可以把打平这一层独立一层
不建议:
属于图省事的做法
个人感觉还是要拆一下的
不然耦合性是不是太高了
增量宽表,维度名称变化需要刷历史的问题。
最好还是做个基础事实表吧,省这点事以后来新人还得解释。
来自@ calm 的提问,感谢@ 一百个**、@春*、@隽*、@142**、@念*等大佬的绝世好问题和精彩讨论!
同步增量数据到hdfs用啥好
问题:
我有个问题啊,现在我们需要同步增量数据到hdfs里,数据源那边用的是canal,但是现在没有spark和flink这种能接入hdfs的。有的只有java,是不是用 java 直接操作 hdfs api,写入增量数据,还是有其他办法
手里头没有现成的工具可用
想立马就用呢,但是没有掌控好,万一生产挂了的话,也没有专门的人运维他,影响业务了,所以要选择一个比较稳妥的方式,有什么建议?
## shell
那要看你数据重要程度了
如果只是个简单的数据同步,完全可以自己实现。引入新的技术,框架,你要考虑学习成本,维护成本
如果没有什么要求,直接shell,实现就完事了,但是出现问题就比较恶心了
shell脚本也可以服务化。脚本考虑出错重试,边界情况即可
这类需求到了一定阀值或者规模时,可以考虑工具的方式实现,提升效率
工具的好处就是封装了很多灾备和安全
## NiFi
试一试NiFi吧
NiFi里面的processor基本上都现成了。只需要配置好信息就能用。
里面应该会有HDFSPut得processor
NiFi 有一些问题需要注意
你直接用hdfs put指令会超时,如果数据太大。因为他是走webhdfs。request会超时
NiFi 太重了,可以使用 docker container
可以考率轻量化的 waterdrop
## waterdrop
waterdrop很轻量化
waterdrop相当于是一个解析器而已,你配置一个作业,程序自动转义成spark任务,2.0版本已经支持flink引擎,1.0的话是spark引擎
来自@杨** 的提问,感谢@刘**、y*、Lei**、峰、*栋 等各位老师的积极讨论~
黑话
问题:
谁能帮忙解释一下这是啥意思?每个字都认识,但是连起来就不太理解了。
我的经验,业务角度,比较好落地,又有成绩的一种方案:管理层要大力支持,以点破面,形成闭环,增量数据前端控制,存量数据技术处理+业务治理,业务推动,技术配合,寻找业务场景或业务价值点驱动,过程指标透明化,成果指标监控。
讨论:
以点破面,闭环,增量存量,价值点驱动,指标透明 记下来了,考试要考。
太专业了,总监专用术语。
谁能再翻译一下成白话文啊,信息量好大。
黑话也需要刻意练习
看来互联网黑话还是得刻意用用
管理层要倾斜资源,将各方问题拉通对齐,清晰明确痛点,以点破面,形成闭环,不同数据分治优化,业务推动,技术配合,寻找治理抓手,形成方法论,寻找业务场景或业务价值点驱动点,反哺目标生态,过程指标透明化,成果指标监控。
会说话的人给人感觉就是不一样。
信信信息密度太高了!!
这个技能点的不错,明年提升你当总监。
牛逼啊,我得记到小本本里,领导问的时候随时背诵出来。
我就一直不懂什么叫 抓手,直到今天坐地铁听到广播:请抓好扶手…
我就一直不懂什么叫 拉通,对齐,咋叫拉通,咋叫对齐,标准是啥?
过去我们主要依靠推荐技术赋予的信息分发能力、跨端联动抖头西、分多个产品自研,实现深度共建,形成组合拳,打造内容生态闭环,以此赋能客户用户创造价值。未来我们要增加横向不同场景价值,延长服务链路。同时纵深满足用户需求,借助人类年龄的自然势能,在小中青多个年龄用户深度渗透。另外通过加强基建投入,多种阵地相关产品完善经营价值链路,建立对外用户持久影响力。
我看了两篇说没个的之后故事可以串起来了,先是看了一篇说阿里的人写了个互联网黑话生成器。后来看一篇说讲互联网黑话来自阿里,他们的日报用黑话来写。我串起来理解就是其实阿里员工是做了一个自动写日报的工具,外界的不同解读。
这些黑话我觉得应该是在对外时候说的,对内说没啥意思。
还有几个,飞轮效应,延迟满足,正向反馈,私域流量,点线面体,利出一孔。
打桩 穿刺
先开一枪,再放一炮
就是很概括,战略层面没啥问题。只是对于我们干活层面的同事来说,希望说出来就明确,不要似是而非,讲半天就不落地。大家都很忙,说些没毛病也没作用的话,像唱大戏一样。比如说拉通,开发的就希望:有多少方,负责人是谁,什么方式,接口是哪些,时间 地点在哪里,拉通的目标是啥,第一轮先梳理什么,出什么输出物。还有,想到一个就是所谓的扁平化管理。一些比较战略性的东西,没有中间层消化,分解成执行层面的东西,直接就怼到基层,基层看到这些自然啼笑皆非了。
不想当将军的士兵不是好士兵,当然能多了解一些对我们自己也是成长啊。
这也叫引申出另一个问题。一些有层级的组织,中间层做传声筒,把上面的命令传下去,让下面的人理解然后做了又递上去,也会引发这种问题,中间层被穿透了。
见人说人话,见鬼说鬼话呗,见到客户就只能说官话了,因人环境对象而异喽。
其实也还好吧 挺好理解的 也不是一次把这些全用上。。。
黑话的产生就是因为人浮于事,人多事少。
来自@lH李** 的提问,感谢@liu**、春*、Jason**、周美*、*汪、Fy**、张* 等各位老师的积极讨论~
结语
用一个哥们的私信作为结语吧:
感谢阅读,本次分享的内容就结束了。
欢迎大家加我微信好友,尽个点赞之交,一起进化吧!
推荐阅读:
更多精彩: