大数据与云计算技术周报(第128期)

导语

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

    

本期会给大家奉献上精彩的:hive、Spark、Cassandra、MongoDB、数据仓库、OLAP、Redis、Hbase、Spark、。全是干货,希望大家喜欢!!!

1Hive

分布式数据仓库(TDW)是一个以hive + hadoop为基础的大规模分布式系统,它提供了一种类SQL语言(称为HQL)让用户可以方便在其上进行编程开发。

        在数据分析领域,经常需要计算数据集不同元素的个数(Distinct值),也称为基数计算。精确的基数计算需要消耗过多的计算资源,当数据量非常大时,这种资源的消耗就更加严重。因此在大数据领域,采用估值算法降低基数计算的成本成为一种新的选择。目前已经出现了一些优秀的基数估值算法,例如HLLC(HyperLogLog Counting)等。

        TDW引入了HLLC算法,用户可以写HQL简单的使用它。在能够容忍一定精度损失的前提下,HLLC算法往往拥有比精确计算高得多的计算效率。HLLC算法在TDW上已经取得了较多的应用并且收到了较好的效果。

        本文不打算介绍HLLC算法的原理,有兴趣的读者可以参考Flajolet的论文《HyperLogLog: The analysis of a near-optimal cardinality estimation algorithm》。

https://data.qq.com/article?id=809

2数据仓库

大量用户的使用,驱动着在数据中台建设的路上不断前进。如何将新兴技术能力应用到数据仓库的建设,如何以有限的成本高效解决企业在数据建设中面临的问题,将是马蜂窝数仓建设一直的思考。

https://mp.weixin.qq.com/s/r-cg-aXhp14FWgHcMY6Vdw

3OLAP

本文讲解了小米集存储计算于一体的分布式数据分析型数据库服务的OLAP。

https://mp.weixin.qq.com/s/pE40rm9HOBe9b8f1tXxoog

4Redis

Redis是一种内存数据存储,可用作数据库,缓存和消息代理。它支持从简单到复杂的数据结构,包括哈希,字符串,排序集,位图,地理空间数据等。在本指南中,我们将演示如何使用一些不同的工具和方法对在Ubuntu 18.04上运行的Redis服务器的性能进行基准测试 

https://www.digitalocean.com/community/tutorials/how-to-perform-redis-benchmark-tests

5Spark

本文作者 Raja Sekar 已经有三年多 Spark 的使用经验,他认为 Spark 的 DataFrame 非常优秀,可以解决大多数分析工作负载问题,但仍然有一些地方使用 RDD 会更方便。于是,他萌生出了一个使用原生语言重新实现 Spark 的想法,想看看重写后在性能和资源管理效率方面可以达到怎样的效果。最后他选择了最近很火的 Rust,重写后的 FastSpark 不仅在运行速度上比 Spark 更快,而且能够节省相当多的内存,作者接下来的目标也很简单:将其作为 Apache Spark 的替代方案

https://mp.weixin.qq.com/s/F9mGwxkpYjprx2DWD__nBQ

6Hbase

本文主要讲述了用HBase存放时空数据的缺陷及常用的时空索引技术。https://mp.weixin.qq.com/s/GEF3jdUvqRW00ArzLB08fg

7数据安全

大数据时代,数据是最重要的。从个人角度来看,衣食住行都会产生数据,包含着最基本的个人信息以及历史消费记录等等。如果被盗,就会造成财产损失甚至更严重的后果;从企业来看,数据是市场竞争的关键部分,而保护用户的数据安全是最基本的责任,事关企业发展与信誉等等。。

https://mp.weixin.qq.com/s/k5qCwa1bpw0QPfFlAwo2AQ

8mangoDB

本文讲述了MongoDB的一个工单分析服务,经常性发出操作超时问题分析,并通过防止索引seeks操作来解决此问题;

https://cloud.tencent.com/developer/article/1509697

9Redis

针对“附近的人”这一位置服务领域的应用场景,Redis结合其有序队列zset以及geohash编码,实现了空间搜索功能,且拥有极高的运行效率。本文将从源码角度对其算法原理进行解析,并推算查询时间复杂度。

https://mp.weixin.qq.com/s/72Ztx8eehxzA7T8fHy0D5Q

10微软

微软文化重塑

https://mp.weixin.qq.com/s/8bAtRbewd2u_uqzD1oLynw

11开心一刻

女票允许我出轨,并且还介绍她闺密给我认识。在她真的很爱我的前提下,该如何理解她的行为?

千万不要上当!!!Mac告诉你,我也可以装windows哦,但你真的装了,会用高发热来报复你的!

致谢:

周蓬勃、王在道、孙亚飞、冯艺帆、陈少军、邓开表、张少华、薛述强、刘彬、刘超、廖程鹏、董言、吕西金、朱洁、蓝随、黄文辉、郭飞

猜你喜欢

#大数据和云计算机技术社区#博客精选(2017)

NoSQL 还是 SQL ?这一篇讲清楚

阿里的OceanBase解密

#大数据和云计算技术#: "四有"社区介绍

大数据和云计算技术周报(第56期)

新数仓系列:Hbase周边生态梳理(1)

《大数据架构详解》第2次修订说明

简单梳理跨数据中心数据库

云观察系列:漫谈运营商公有云发展史

云观察系列:百度云的一波三折

云观察系列:阿里云战略观察

超融合方案分析系列(7)思科超融合方案分析

加入技术讨论群

《大数据和云计算技术》社区群人数已经6000+,欢迎大家加下面助手微信,拉大家进群,自由交流。

喜欢QQ群的,可以扫描下面二维码:

欢迎大家通过二维码打赏支持技术社区(英雄请留名,社区感谢您,打赏次数超过108+):

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据技术与应用实习周记全文共1页,当前为第1页。大数据技术与应用实习周记全文共1页,当前为第1页。大数据技术与应用实习周记 大数据技术与应用实习周记全文共1页,当前为第1页。 大数据技术与应用实习周记全文共1页,当前为第1页。 2020年6月15日,中北大学软件学院与优逸客校企合作大数据方向实训班级UBDF2006班正式开训。本周为软件学院的大数据方向课程第一周,班级人数总共为38人,本周课程实训过程内容主要如下: 一、实训内容 根据OBE(成功导向)的教学理念,深入聚焦学生解决复杂工程问题能力的培养,本周主要为实训学员讲解了软件工程管理相关理论知识以及相关过程文档的编写、相关项目管理工具的使用,比如UML图、Git版本控制系统以及MarkDown文档编写技巧、服务器部署技术等。具体的讲解内容如下: 二、实训过程 1、开班典礼 开班典礼一直为我们的传统,在正式上课之前为学员举办一个典礼,采用员工化思想培养学员,让学员认识到角色的转变,为将来进入职场打下基础。 2、实训授课 本次授课采用全线上直播授课,在讲解过程中为了避免同学中网路波动等问题,在授课过程中学员可随时提出疑问在线解答,同时采用在线连麦方式提问学员的掌握程度,并且为锻炼学员的表达能力,每天中午都会抽取半小时时间让学员进行主题演讲,锻炼学员的自信与表达能力。 在实训过程中每天都会让学员通过平台汇报自己的知识掌握程度以及通过在线考试方式检测学员的学习情况,每日会对学员提出问题进行解答,为学员制造更好的学习氛围。实训过程中学员的在线连线。 3、学员主题演讲风采 4、学员日周报 三、实训感言 在本次一周的上课中,充分感受到了中北学员的热情以及对学习的热爱,在实训过程中学员有不同的问题能积极反馈,并且能在实训过程中为我们的实训课程提出一些宝贵的意见。 实训不仅是一次传道授业的过程中,在和学员的相处过程中,能被学员的刻苦学习的精神感染,在授课过程中,自己也有了更好的心情为学员解决问题,把好学员走向社会的最后几步。 大数据技术与应用实习周记

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值