大数据
dbLenis
Even the longest journey begins with a single step
展开
-
数据工程师必须掌握的7个大数据实战项目
文章导语:作为一名电影爱好者,我阅片无数,有些片子还经常翻来覆去看个好几遍。小时候因为这事儿,没少被我妈抓耳朵,“看过的片子为啥还要倒二遍?”我也说不上来,就是单纯的爱看。男人爱看的电影,以武侠,动作,科技为多,也认识了一帮明星,比如尼古拉斯凯奇,史泰龙,李小龙,成龙,李连杰,甄子丹等等。这些人很猛,有男人气。只要是他们的片儿,肯定不落下。在我眼里,他们就是好片代名词。不知几何时,电影上开始...原创 2019-12-29 19:28:03 · 11180 阅读 · 0 评论 -
为什么 Spark 在数据科学界这么红?
点击蓝色“有关SQL”关注我哟加个“星标”,天天与6000人一起快乐成长最初时,Spark 孵化于加利福尼亚大学(University of California) 伯克利分校(Berkeley)的大数据实验室( AMPLab).说起这个实验室,还有两个巨头产品, Apache Mesos 和 Alluxio. 看官可能对这两产品不是很了解,没关系...原创 2019-11-17 20:46:04 · 253 阅读 · 0 评论 -
SQL 已死,NoSQL才是王道?醒醒吧,别瞎说八道了
乱象当今数据库供应商风头正茂的,要数这三家公司,Amazon, Google, Microsoft. 没错,他们都是云计算提供者。火热的三款看家产品分别是:Amazon RDS,Google Cloud SQL,Azure Database for PostgreSQL.A厂CTO说,AWS最火的产品是什么呢?是 Aur...原创 2019-10-24 08:21:57 · 14210 阅读 · 21 评论 -
Spark SQL 与 Hive 的第一场会师
“你好,一杯热美式,加 2 份shot, 1 份焦糖,谢谢”L 跨进汇智国际中心大厦的 Starbucks, 拿着 iPhone 对着点餐机轻轻一扫,对黑带服务员小妹抛出一个笑脸。“ L 先生,您的热美式”“谢谢”最近 1 礼拜,无论双休还是工作日,L 每天基本都是同一时间,在早上 Starbucks 开门的 5 分钟内必定冲进去,点好咖啡,在大玻璃落地窗坐定。打开 17 寸 MacPro...原创 2018-11-03 11:34:32 · 372 阅读 · 0 评论 -
Spark 高难度对话 SQL Server 后记
GIIS (Global Information Industry Summit)峰会已经结束一周了。从拉斯维加斯回来的 L 却依然兴奋,被冷冰的 SQL Server , Oracle 门票价挫伤之后,阴差阳错进入了另一片广袤的技术天地。对于技术宅,莫过激起他研究到底的雄心,而此时的大数据生态正好给了 L 一味兴奋剂,而且剂量不低于 500CC.目睹了 Spark 与 SQL Server...原创 2018-11-02 00:43:09 · 262 阅读 · 0 评论 -
Hive 编程专题 八: 列引用之 RLike 条件
环境:Hive: 2.7.7Oracle SQL DeveloperCloudera JDBC Driver案例 - 1 : where name RLike ‘.(a|l|i)’select * from default.employee where name RLike '.*(a|l|i)+'数据部署:insert into default.employee (na...原创 2018-11-18 22:50:35 · 1374 阅读 · 0 评论 -
Hive 编程专题二 : 列引用之列组合
环境:Hive: 2.7.7Oracle SQL DeveloperCloudera JDBC Driver案例:select type + '.' + type_desc + ': ' + nameobject as原创 2018-11-14 21:25:17 · 470 阅读 · 0 评论 -
Hive 编程专题三 : 列引用之算术组合
环境:Hive: 2.7.7Oracle SQL DeveloperCloudera JDBC Driver案例:select object_id,schema_id, object_id + schema_id, object_id-schema_id,object_id*schema_id...原创 2018-11-14 21:26:28 · 305 阅读 · 0 评论 -
9 张脑图梳理下分布式数据计算系统
写在前面有时候,人的眼界真挺重要的。知乎张佳玮先生,文艺界中 80 后五虎将。获得这个名号的时候,张公子还是高中毕业生。彼时的张先生早已读书破万卷,脑袋灵光,通晓中外文学,玲珑脱俗于应试教育体制下。想想那时的我,还与语数外苦苦做着斗争。以至于本科毕业了很长时间,依然还是个只会 ABC 的脑残,没错,我是智力方面的残疾人,简称“脑残”。初入外企职场,我认为凭着一手说得过去的 SQL 编码手,加...翻译 2019-01-27 22:02:18 · 849 阅读 · 0 评论 -
个人公众号
公众号原创 2017-08-29 21:53:45 · 935 阅读 · 0 评论 -
为程序员讨回失去的午觉,我被投诉了,差点吃官司
老读者都知道,三天前我发表了文章《不让程序员午睡的老板,你们赚到钱了吗》。本意上是支持程序员为了下午的工作效率,中午应该休息15-20分钟,一来对自己工作效率有提升,二来可以帮老板多赚钱。本来是件好事,结果当事儿人直接找上门了,投诉了我的文章,可能还要打官司,毕竟对方定义的是侵权。还原下当时的截图,当然这次做得专业些,不留任何真实姓名,我们只讨论现象...原创 2019-08-26 07:52:26 · 37163 阅读 · 220 评论 -
2019 MySQL 8 安全安装避坑指南
1. 安装vmware centos的虚拟机-省却安装vmware虚拟机管理的部分-centos7下载地址:官方:https://www.centos.org/download/镜像文件地址:http://mirrors.nju.edu.cn/centos/7.6.1810/isos/x86_64/CentOS-7-x86_64-DVD-1810.iso2. ...原创 2019-09-03 08:39:02 · 18602 阅读 · 8 评论 -
Spark 高难度对话 SQL Server 续篇
GIIS (Global Information Industry Summit)峰会已经进行如火如荼进行了半程。商业数据库这边明显已经冷了下来,$1100 一天的峰会价格,并不是每个企业都吃得消,再者,在东半球上海举行的 QCon 已经吸引了更多的关注,那里的互联网应用似乎更加吸引资本的青睐,入会价格同样不低,接近 6K RMB ,好在是全场票。L 这两天拿着 Spark, Hive, Had...原创 2018-10-19 07:53:14 · 1020 阅读 · 0 评论 -
Spark 高难度对话 SQL Server
在我们欢天喜地迎接超级长假的时候,地球的另半面拉斯维加斯正在进行着一场超级火爆的 GIIS (Global Information Industry Summit)峰会。看名头,这是一场信息领域的全球峰会,峰会的少不了 DB-Engines 公布的前 300 名 SQL 以及 NoSQL ,耳熟能详的有 Oracle, SQL Server, MySQL, PostgreSQL, DB2, Re...原创 2018-10-09 07:48:51 · 519 阅读 · 0 评论 -
Spark SQL 大数据处理
InfoQ 上有学者对 Spark 的大数据处理,做了一些归纳演讲 我尝试着对这些演讲做翻译,加入了一些自己的理解和实验 理解是我自己的,有可能是错误的,实验是为了证明自己的理解是正确的Big Data Processing with Apache Spark - Part 2 : Spark SQLhttps://www.infoq.com/articles/apache-spark...原创 2018-03-03 16:26:57 · 3898 阅读 · 0 评论 -
数据模型以及查询语言
The limits of my language mean the limits of my world! 这是《Design Data-Intensive Applications》第二章的序言。请教了几个身边英语比我好的朋友,最终有个朋友,通晓日语和英语,还有 SQL 的硕士,翻译的比较时下:别让语言,限制了我们的想象力!数据模型以及查询语言当我们是一个应用开发人员,我们...翻译 2018-03-27 22:20:31 · 934 阅读 · 0 评论 -
关于性能,我们在谈些什么?
当我们在说性能的时候,我们在谈些什么?衡量性能有两个指标:在保持服务器资源配置不变的情况下,增加额定的访问量,会给系统带来多大的影响,比如影响了读取时间,写入时间等等。在增加额定的访问量的情况下,要增加多少服务器资源,才能使其保持平日里的性能这两个指标是基于服务架构来衡量的,要么在现有技术服务架构下,提出的衡量标准,要么基于未来的访问量,提出的架构设计。所以暂时这两个都不谈,也没...翻译 2018-03-27 22:24:06 · 1009 阅读 · 0 评论 -
应对高并发的方法论
前两文,分别介绍了访问量以及性能指标的概念,回顾如下:关于访问量,我们在谈些什么关于性能 ,我们在谈些什么再次总结下:parameters of load : 访问量的衡量requests per second 每秒处理多少请求,平均值和峰值one request completed in seconds 一次请求花费多少时间metrics to measure th...翻译 2018-03-27 22:27:05 · 417 阅读 · 0 评论 -
谈谈表分区
表分区并不是 Rocket Science (火箭科学),没有那么多神秘的计算或者多么强大的功能。它能给数据系统带来的益处,如果将它比喻成古代藩王制度的话,也就那么 2 个:分区自成一格:有自己的存储空间,地盘大小全靠你的数据量。管理也靠自己,有自己的独立索引。因为存储空间相比整张大表小了很多数据量级,故建立的索引更加有效,命中率更高。在表 有分区的设计下,要处理的一个问题是,假如本区的数据...原创 2018-04-21 22:38:24 · 663 阅读 · 0 评论 -
大数据在 IoT 的应用
在自己的行业待久了之后,就想着看看别的行业是怎么玩大数据的。行业的不同,落实到数据模型和技术手段就会有不一样。本着探索的精神,我每隔一段时间就想着搜罗一下不同的应用。互联网总有一些喜欢分享的朋友,我最喜欢去找灵感和案例的地方,是在infoQ.当然国内的极客邦,CSDN也不错,甚至有些应用已经属于前端黑科技。总有看不完的新鲜应用,所以一个一个的去淘吧,有感觉就满足了。今天看到...翻译 2018-05-21 20:53:57 · 3162 阅读 · 0 评论 -
重读《决战大数据》有感
满大街都能听到大数据, big data 的言论,去问问这些谈论的人,什么是大数据,能用来做什么,十有八九的回答,都会说这些数据量大,所以才叫大数据。 不仅仅是行业外的业余人员这么看大数据,业内专业IT人员,都这么叫,包括知名的招聘网站,所以看到这类招聘,直接忽略,不专业! 你知道“大数据”怎么备份吗,知道“大数据”怎么采集吗,知道模型为什么这么用呢? 不知道,你还一口一个大数据!连养数据的...原创 2018-05-27 12:44:49 · 1930 阅读 · 0 评论 -
Hortonworks , 快速上手 Hadoop 的套件
最近我在思考的一件事情:如何帮助团队 SQL 开发快速掌握大数据相关技术呢?面对疯狂暴涨的数据,SQL Server 存储成本越来越高了,日志的增长量也极大超过预期,隔三差五总有空间不足导致的应用异常。而且各种多样化的查询需求,在海量数据环境中,响应也越发慢了。打开Google ,开始琢磨起来,找到两个工具: HDP, CDH.Hortonwork Hadoop 与 Cloudera Ha...原创 2018-06-03 18:24:50 · 4730 阅读 · 0 评论 -
4 步搞定 Hive 增量更新
Hive 的更新很有趣。Hive 的表有两种,一种是 managed table, 一种是 external table.managed table 是 Hive 自动帮我们维护的表,自动分割底层存储文件,自动分区,这些自动化的操作,都是 Hive 封装了与 Hadoop 交互的接口。external table 只是一种在 Hive 维护的与外部文件的映射。managed tab...翻译 2018-05-22 23:34:13 · 31666 阅读 · 3 评论 -
Netflix: 从 Batch ETL 到 Stream Processing 的转型之路
大胆预测:重量级的数据应用,包括但不仅限于数据分析,数据挖掘,计算广告等,将全部会转换成实时数据处理架构。在电子化市场营销,尤其当今信息技术快速发展的前提下,数据处理的快慢直接影响变现的质量。爱好收集一些数据应用,今天在 InfoQ.com 上看到一篇好文,迫不及待要顺着原文清理下自己的思路。原文如下:Migrating Batch ETL to stream processing: A ...原创 2018-06-25 20:17:48 · 1850 阅读 · 0 评论 -
深度解密 5 类大数据架构及实现
前几天读到白发川的一篇文章《对比解读五种主流大数据架构的数据分析能力》,文中详细总结了各类数据架构的应用以及原理。作为一名在数据仓库耕耘多年的技术人员,对于其中的一些技术细节还是破解兴趣的,所以随着作者的思路写下了我对主流数据架构的理解(如无特殊说明,以下涉及到这篇文章一律用《主流大数据架构》来代替)。作者的原文地址如下: https://mp.weixin.qq.com/s?__biz=M...原创 2018-08-01 00:20:20 · 36659 阅读 · 4 评论 -
使用 Sqoop 将 30W+ MySQL 数据导入 Hive
本实验完成的是,使用 Sqoop 从 MySQL 导出数据到 Hive.整体步骤分为:初始化 MySQL 的 30W+ 数据安装配置 Sqoop在 Hive 中初始化目标表Sqoop 脚本实现导入1 初始化 MySQL 的 30W+ 数据MySQL 安装在本机 centOS 上面。 使用 MySQL 官网的表结构创建语句和 30W+ 数据导入语句,初始化数据。MyS原创 2018-02-07 22:02:31 · 788 阅读 · 0 评论