wujiandao的专栏

数据恩仇录

排序:
默认
按更新时间
按访问量

人工智能 - 应用方向指南

本文主要搜集机器学习等人工智能方向的应用 参考资料 https://www.zhihu.com/question/41012507/answer/106702987 知乎上 [T1 在东京]网友回答: ( 1)代替肉眼检查作业,实现製造检查智能化和无人化 例如工程岩体的...

2018-09-13 22:02:05

阅读数:50

评论数:0

解读主流大数据架构

前几天读到白发川的一篇文章《对比解读五种主流大数据架构的数据分析能力》,文中详细总结了各类数据架构的应用以及原理。作为一名在数据仓库耕耘多年的技术人员,对于其中的一些技术细节还是破解兴趣的,所以随着作者的思路写下了我对主流数据架构的理解(如无特殊说明,以下涉及到这篇文章一律用《主流大数据架构》来代...

2018-08-01 00:20:20

阅读数:2059

评论数:0

kNN 算法的 SQL 实现

在 2008 年尾的时候,读到一本非常有趣的书,叫做《Data Mining With SQL Server 2008》. 在遇到《Inside Sql Server》系列前夕,此时正值读书的空档期。为什么会对这本书感兴趣呢,毕竟是作为农学毕业的我,八竿子也打不到 Data Mining 的领域去...

2018-06-13 21:45:10

阅读数:180

评论数:0

谈谈表分区

表分区并不是 Rocket Science (火箭科学),没有那么多神秘的计算或者多么强大的功能。它能给数据系统带来的益处,如果将它比喻成古代藩王制度的话,也就那么 2 个: 分区自成一格:有自己的存储空间,地盘大小全靠你的数据量。管理也靠自己,有自己的独立索引。因为存储空间相比整张大表小了很...

2018-04-21 22:38:24

阅读数:53

评论数:0

白话词云图制作

在数据行业深耕细作很多年,反复的从前端 UI 做到中间服务层,最后连数据库存储也没有放过,至今也一直被数据库以及数据库应用架构深深吸引着。 在之前面试很多数据岗位的时候,反复被面试官质疑的问题是,“你到底是喜欢做 ETL, 数据模型,还是数据可视化?” 其实这个问题在我看来一点都没水准。做数...

2018-04-21 11:24:33

阅读数:189

评论数:0

流式数据分析处理的常规方法

《Designing Data-Intensive Applications》的核心部分都已经翻译完成了。此书是分布式系统架构必读书,出版于2017年,中文版目前还没有面世。我找了其中比较吸引我的那几章,阅读的同时,顺手翻译并记录了下来。这边是其中一章。当然前面也有几篇翻译加整理的文章,比如流量那...

2018-04-16 20:56:43

阅读数:1218

评论数:0

关于访问量,我们在谈些什么?

what about load ? 关于访问量,我们在谈些什么? 读《Design Data-Intensive Applications》, 随想纪录片刻: 可以是每秒的读写访问量,每秒的写访问,每秒的读访问 单独描述读访问,比如一个数据库,只有读访问,那么怎么衡量读的最大访问量? ...

2018-03-19 20:05:45

阅读数:78

评论数:0

数据分析师的书单

这两礼拜,收到很多读者的来信。 总结了下,都是有关数据分析方向的咨询。 问题都是纠结于如何开始数据分析的学习。 我的方法很简单,找几本书,先看起来再说。 与其花那个时间去想,怎么办,还不如,直接办! Excel 2013数据透视表应用大全 作为一名数据分析师,如果不会用 Excel 那...

2018-03-14 23:18:24

阅读数:658

评论数:0

Hive 的事务支持

Hive 开始支持事务,是在 Hive 0.14 之后。HDFS 的文件,只能允许新建,删除,对文件中的内容进行更新,不允许单条修改。Hive 的文件存储是基于 HDFS 文件存在的,所以原则上不会直接对 HDFS 做文件内容的事务更新,只能是采取另外的手段来完成。即用 HDFS 文件作为原始数据...

2018-03-12 21:44:23

阅读数:1269

评论数:4

解读《Hadoop 构建数据仓库实践》

书中构建一个数据仓库示例模型的讲解,实实在在的透漏了一个基于big data 的数据仓库原型。 可以看做是一个非典型的应用场景。里面有很多的点,是可以值得拿出来好好深入思考的,举一反三 在数据建模这块,就会遇到一个数据模型的存储细节问题。 Hive 的用途在整个数据仓库中,是可以放在RDS,...

2018-03-10 10:49:07

阅读数:1356

评论数:0

Hadoop 之上的数据建模 - Data Vault 2.0

对比传统的基于 RDBMS 之上的数据仓库和商业智能项目,尝试着说说,Hadoop 之上的数据仓库,从ETL, 数据存储,到分析展现。重点围绕数据建模方面做分析,因为这是本文的重点,介绍一份新的数据建模方式 Data Vault 2.0. ETL 最基本的构建来自于 转换和工作流。 工作流,作...

2018-03-10 10:47:27

阅读数:2036

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭