大数据和云计算技术周报（第171期)

最新推荐文章于 2024-04-30 16:44:46 发布

大数据和云计算技术

最新推荐文章于 2024-04-30 16:44:46 发布

阅读量255

点赞数

文章标签：数据库编程语言人工智能大数据区块链

本文链接：https://blog.csdn.net/zNZQhb07Nr/article/details/110848230

版权

导语

“大数据” 三个字其实是个marketing语言，从技术角度看，包含范围很广，计算、存储、网络都涉及，知识点广、学习难度高。

本期会给大家奉献上精彩的：MongoDB、Hbase、压测、ClickHouse、DL、Spark、java。全是干货，希望大家喜欢！！！

1MongoDB

本文讲述了通过分析MongoDB insert请求慢日志中相应chunk version信息、config.chunks集合中路由信息，解读路由更新导致响应慢场景、3.6版本之后对chunk version管理的变化；

https://mongoing.com/archives/75945

2HBase

如何将HBase的数据迁移到Kafka呢？今天笔者就给大家来分享一下具体的实现流程。

https://mp.weixin.qq.com/s/-J9nQs8IjEOcSj849tYigg

3ClickHouse

本文主要介绍手淘流量分析业务发展过程中，实时性业务分析需求的产生，实时分析目标的设定，如何进行技术的选型，以及如何基于ClickHouse构建系统架构和未来的业务预期

https://mp.weixin.qq.com/s/dQGQfsD8nuUXljYubIKDQg

4压测

压测的一般流程和方法是什么？需要关注哪些数据指标？如何推算后端需要支持的qps？本文分享总结压测过程中需要注意的问题

https://mp.weixin.qq.com/s/aTcvD4__Rbo0UoRrW3ZjuA

5Spark

Spark SQL是Apache Spark最广泛使用的一个组件，它提供了非常友好的接口来分布式处理结构化数据，在很多应用领域都有成功的生产实践，但是在超大规模集群和数据集上，Spark SQL仍然遇到不少易用性和可扩展性的挑战。为了应对这些挑战，英特尔大数据技术团队和百度大数据基础架构部工程师在Spark 社区版本的基础上，改进并实现了自适应执行引擎。本文首先讨论Spark SQL在大规模数据集上遇到的挑战，然后介绍自适应执行的背景和基本架构，以及自适应执行如何应对Spark SQL这些问题，最后我们将比较自适应执行和现有的社区版本Spark SQL在100 TB 规模TPC-DS基准测试碰到的挑战和性能差异，以及自适应执行在Baidu Big SQL平台的使用情况

https://www.iteblog.com/archives/2319.html