导语
“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。
本期会给大家奉献上精彩的:hive、Spark、Cassandra、MongoDB、数据仓库、OLAP、Redis、Hbase、Spark、。全是干货,希望大家喜欢!!!
1Hive
分布式数据仓库(TDW)是一个以hive + hadoop为基础的大规模分布式系统,它提供了一种类SQL语言(称为HQL)让用户可以方便在其上进行编程开发。
在数据分析领域,经常需要计算数据集不同元素的个数(Distinct值),也称为基数计算。精确的基数计算需要消耗过多的计算资源,当数据量非常大时,这种资源的消耗就更加严重。因此在大数据领域,采用估值算法降低基数计算的成本成为一种新的选择。目前已经出现了一些优秀的基数估值算法,例如HLLC(HyperLogLog Counting)等。
TDW引入了HLLC算法,用户可以写HQL简单的使用它。在能够容忍一定精度损失的前提下,HLLC算法往往拥有比精确计算高得多的计算效率。HLLC算法在TDW上已经取得了较多的应用并且收到了较好的效果。
本文不打算介绍HLLC算法的原理,有兴趣的读者可以参考Flajolet的论文《HyperLogLog: The analysis of a near-optimal cardinality estimation algorithm》。
https://data.qq.com/article?id=809
2数据仓库
大量用户的使用,驱动着在数据中台建设的路上不断前进。如何将新兴技术能力应用到数据仓库的建设,如何以有限的成本高效解决企业在数据建设中面临的问题,将是马蜂窝数仓建设一直的思考。
https://mp.weixin.qq.com/s/r-cg-aXhp14FWgHcMY6Vdw
3OLAP
本文讲解了小米集存储计算于一体的分布式数据分析型数据库服务的OLAP。
https://mp.weixin.qq.com/s/pE40rm9HOBe9b8f1tXxoog
4Redis
Redis是一种内存数据存储,可用作数据库,缓存和消息代理。它支持从简单到复杂的数据结构,包括哈希,字符串,排序集,位图,地理空间数据等。在本指南中,我们将演示如何使用一些不同的工具和方法对在Ubuntu 18.04上运行的Redis服务器的性能进行基准测试
https://www.digitalocean.com/community/tutorials/how-to-perform-redis-benchmark-tests
5Spark
本文作者 Raja Sekar 已经有三年多 Spark 的使用经验,他认为 Spark 的 DataFrame 非常优秀,可以解决大多数分析工作负载问题,但仍然有一些地方使用 RDD 会更方便。于是,他萌生出了一个使用原生语言重新实现 Spark 的想法,想看看重写后在性能和资源管理效率方面可以达到怎样的效果。最后他选择了最近很火的 Rust,重写后的 FastSpark 不仅在运行速度上比 Spark 更快,而且能够节省相当多的内存,作者接下来的目标也很简单:将其作为 Apache Spark 的替代方案
https://mp.weixin.qq.com/s/F9mGwxkpYjprx2DWD__nBQ
6Hbase
本文主要讲述了用HBase存放时空数据的缺陷及常用的时空索引技术。https://mp.weixin.qq.com/s/GEF3jdUvqRW00ArzLB08fg
7数据安全
大数据时代,数据是最重要的。从个人角度来看,衣食住行都会产生数据,包含着最基本的个人信息以及历史消费记录等等。如果被盗,就会造成财产损失甚至更严重的后果;从企业来看,数据是市场竞争的关键部分,而保护用户的数据安全是最基本的责任,事关企业发展与信誉等等。。
https://mp.weixin.qq.com/s/k5qCwa1bpw0QPfFlAwo2AQ
8mangoDB
本文讲述了MongoDB的一个工单分析服务,经常性发出操作超时问题分析,并通过防止索引seeks操作来解决此问题;
https://cloud.tencent.com/developer/article/1509697
9Redis
针对“附近的人”这一位置服务领域的应用场景,Redis结合其有序队列zset以及geohash编码,实现了空间搜索功能,且拥有极高的运行效率。本文将从源码角度对其算法原理进行解析,并推算查询时间复杂度。
https://mp.weixin.qq.com/s/72Ztx8eehxzA7T8fHy0D5Q
10微软
微软文化重塑
https://mp.weixin.qq.com/s/8bAtRbewd2u_uqzD1oLynw
11开心一刻
女票允许我出轨,并且还介绍她闺密给我认识。在她真的很爱我的前提下,该如何理解她的行为?
千万不要上当!!!Mac告诉你,我也可以装windows哦,但你真的装了,会用高发热来报复你的!
致谢:
周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞
猜你喜欢
大数据和云计算技术周报(第56期)
加入技术讨论群
《大数据和云计算技术》社区群人数已经6000+,欢迎大家加下面助手微信,拉大家进群,自由交流。
喜欢QQ群的,可以扫描下面二维码:
欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过108+):