BusinessIntelligence/DataWareH
dbLenis
Even the longest journey begins with a single step
展开
-
如何写好 5000 行的 SQL 代码
上千行的 SQL 代码常见,且永不过时!经历了大大小小的 MIS 系统,小到几人用的协作系统,几十人用的 OA 系统,到上千人用的 MES/ERP 系统,再到百万人用的电商系统,存储过程的影子在半个世纪(20世纪70年代末开始)以来从未淡出它的战场。我们几个 SQL 老玩家经常自吹, SQL 是半衰期最长的编程语言。玩会它不用担心失业。我之前写过如何去阅读和拆解一个上千行的 S...原创 2019-12-22 12:42:35 · 1114 阅读 · 0 评论 -
9 张脑图梳理下分布式数据计算系统【附高福利】
写在前面有时候,人的眼界真挺重要的。知乎张佳玮先生,文艺界中 80 后五虎将。获得这个名号的时候,张公子还是高中毕业生。彼时的张先生早已读书破万卷,脑袋灵光,通晓中外文学,玲珑脱俗于应试教育体制下。想想那时的我,还与语数外苦苦做着斗争。以至于本科毕业了很长时间,依然还是个只会 ABC 的脑残,没错,我是智力方面的残疾人,简称“脑残”。初入外企职场,我认为凭着一手说...原创 2019-08-22 08:07:50 · 266 阅读 · 0 评论 -
BI, 数据仓库,ETL, 数据开发,有什么区别?
BI: Business Intelligence. 为商业提供一切智能化操作,判断与管理的手段,都可以归拢到 BI 范畴。即便是 AI (Artificial Intelligence)只要其能提供上述功能,依旧可以成为 BI 的一部分。什么是智能化的商业操作,判断与管理?“啤酒与尿布”的故事,在这个行业广为人知了。年轻的爸爸在购买尿布的同时,会捎带上一打啤酒...原创 2019-08-22 08:05:53 · 6066 阅读 · 0 评论 -
SQL 人要敢于说不
“哎,小 C 帮导个数据,很简单,我只要 5 万条”我们组的小姑娘经常会被这种无脑的要求,折腾得哭笑不得。曾几何时我做 SQL 开发的时候也经常遇到这种不定期,无规范的 ad hoc 查询。这是数据应用初期常有的拍脑袋案例。但如果真的开了这种口子,我们来猜猜会怎么样:各个部门都要来开这样的接口,一次导出数据,具体数据量不可控;有时候,多个部门同时开始导出全年或者前 5...原创 2019-08-22 08:05:03 · 233 阅读 · 0 评论 -
个人公众号
公众号原创 2017-08-29 21:53:45 · 935 阅读 · 0 评论 -
人工智能 - 应用方向指南
本文主要搜集机器学习等人工智能方向的应用参考资料https://www.zhihu.com/question/41012507/answer/106702987知乎上 [T1 在东京]网友回答: ( 1)代替肉眼检查作业,实现製造检查智能化和无人化 例如工程岩体的分类,现场工程人员在使用tablet拍照后,就可以通过APP自动得到工程岩体分类的结果,高效且淮确率高...原创 2018-09-13 22:02:05 · 890 阅读 · 0 评论 -
kNN 算法的 SQL 实现
在 2008 年尾的时候,读到一本非常有趣的书,叫做《Data Mining With SQL Server 2008》. 在遇到《Inside Sql Server》系列前夕,此时正值读书的空档期。为什么会对这本书感兴趣呢,毕竟是作为农学毕业的我,八竿子也打不到 Data Mining 的领域去,主要还是对于前途的担忧。这话题说来,估计长的可以写篇小说了。咱们不卖焦虑,所以简而言之:做了两年 C...原创 2018-06-13 21:45:10 · 1376 阅读 · 0 评论 -
谈谈表分区
表分区并不是 Rocket Science (火箭科学),没有那么多神秘的计算或者多么强大的功能。它能给数据系统带来的益处,如果将它比喻成古代藩王制度的话,也就那么 2 个:分区自成一格:有自己的存储空间,地盘大小全靠你的数据量。管理也靠自己,有自己的独立索引。因为存储空间相比整张大表小了很多数据量级,故建立的索引更加有效,命中率更高。在表 有分区的设计下,要处理的一个问题是,假如本区的数据...原创 2018-04-21 22:38:24 · 663 阅读 · 0 评论 -
白话词云图制作
在数据行业深耕细作很多年,反复的从前端 UI 做到中间服务层,最后连数据库存储也没有放过,至今也一直被数据库以及数据库应用架构深深吸引着。在之前面试很多数据岗位的时候,反复被面试官质疑的问题是,“你到底是喜欢做 ETL, 数据模型,还是数据可视化?” 其实这个问题在我看来一点都没水准。做数据行业的,哪能说自己特别偏科某一项呢,不都是动脑子的事情嘛,那么多精彩的技术,引人入胜的问题,不都全部...原创 2018-04-21 11:24:33 · 603 阅读 · 0 评论 -
流式数据分析处理的常规方法
《Designing Data-Intensive Applications》的核心部分都已经翻译完成了。此书是分布式系统架构必读书,出版于2017年,中文版目前还没有面世。我找了其中比较吸引我的那几章,阅读的同时,顺手翻译并记录了下来。这边是其中一章。当然前面也有几篇翻译加整理的文章,比如流量那几篇。流式处理的一些常用方法:Complex Event Processing ( CEP) ...翻译 2018-04-16 20:56:43 · 17703 阅读 · 0 评论 -
关于访问量,我们在谈些什么?
what about load ?关于访问量,我们在谈些什么?读《Design Data-Intensive Applications》, 随想纪录片刻:可以是每秒的读写访问量,每秒的写访问,每秒的读访问单独描述读访问,比如一个数据库,只有读访问,那么怎么衡量读的最大访问量?在什么样的配置下,有多少访问量之后,性能才会有问题。这还要和访问请求的复杂程度联系起来,如果是热...翻译 2018-03-19 20:05:45 · 320 阅读 · 0 评论 -
Hive 的事务支持
Hive 开始支持事务,是在 Hive 0.14 之后。HDFS 的文件,只能允许新建,删除,对文件中的内容进行更新,不允许单条修改。Hive 的文件存储是基于 HDFS 文件存在的,所以原则上不会直接对 HDFS 做文件内容的事务更新,只能是采取另外的手段来完成。即用 HDFS 文件作为原始数据,用 delta 文件作为操作日志的记录。当访问 Hive 数据时,根据 HDFS 文件和 delta...翻译 2018-03-12 21:44:23 · 5739 阅读 · 4 评论 -
解读《Hadoop 构建数据仓库实践》
书中构建一个数据仓库示例模型的讲解,实实在在的透漏了一个基于big data 的数据仓库原型。 可以看做是一个非典型的应用场景。里面有很多的点,是可以值得拿出来好好深入思考的,举一反三在数据建模这块,就会遇到一个数据模型的存储细节问题。 Hive 的用途在整个数据仓库中,是可以放在RDS,TDS两个阶段的。按照作者的思路,RDS, TDS 分别承载了整个数据仓库数据流的两个不同存储阶段。R...翻译 2018-03-10 10:49:07 · 3625 阅读 · 0 评论 -
Hadoop 之上的数据建模 - Data Vault 2.0
对比传统的基于 RDBMS 之上的数据仓库和商业智能项目,尝试着说说,Hadoop 之上的数据仓库,从ETL, 数据存储,到分析展现。重点围绕数据建模方面做分析,因为这是本文的重点,介绍一份新的数据建模方式 Data Vault 2.0.ETL 最基本的构建来自于 转换和工作流。工作流,作用是规划一条完整的数据转换流。转换,是 ETL 最中心的组件。可以用 MapReduce 来完成,...翻译 2018-03-10 10:47:27 · 5891 阅读 · 0 评论 -
数据分析师的书单
这两礼拜,收到很多读者的来信。 总结了下,都是有关数据分析方向的咨询。 问题都是纠结于如何开始数据分析的学习。 我的方法很简单,找几本书,先看起来再说。 与其花那个时间去想,怎么办,还不如,直接办!Excel 2013数据透视表应用大全作为一名数据分析师,如果不会用 Excel 那肯定是不合格的。快速的粘贴,灵活的公式,丰富的图标排版,枯燥的数字瞬间在你的手指尖焕发出真正的魅力。依...原创 2018-03-14 23:18:24 · 4735 阅读 · 0 评论