大数据随笔

最新推荐文章于 2025-12-04 18:10:19 发布

原创最新推荐文章于 2025-12-04 18:10:19 发布 · 201 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

博主复习并学习了大数据相关知识，分享所学内容。涉及HDFS、HBASE三级寻址、惰性机制等，还包括分布式计算、MR计算过程、shuffle过程、yarn资源管理体系等，此外介绍了impala、spark等工具特点。

大数据随笔

写在前面

写在前面

最近复习且学习了大数据相关的一点东西，写点学到的新东西，很乱很杂很抽象很意识流随便看看就行。

HDFS，块

HBASE 三级寻址，ROOT->META->User
惰性机制
region store Hlog读写
建表参数，rowkey优化
整合sql引擎

CAP理论，BASE理论与分布式系统

分布式计算：计算向数据靠拢

MR计算过程job task啥的，资源调度slot
shuffle过程

yarn 资源管理体系
以容器为单位分配资源
一个集群多个框架，数据共享资源弹性收缩

impala 依赖于hive的元数据，和hive的sql解析差不多，但是不转换成mr

spark 基于内存，DAG，惰性，RDD，“转换”“动作”，也利用了hive的sql解析

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

清清清漠

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据随笔（四）：IDEA配置编写hadoop程序

qq_34965116的博客

03-06

691

伪分布式Hadoop启动之后，打开Intellij IDEA，新建一个工程选择创建Maven工程，这是一个用于管理jar包的组件，本来一些Java程序需要依赖各种各样的jar包，需要自己去手动找到路径去导入，依赖大量jar包的时候手动一个个导入太过麻烦，Maven可以通过编辑一个叫pom.xml的配置文件来从Maven的代码库中自动下载所需要的jar包并配置依赖 Project SDK选择前面下...

参与评论您还未登录，请先登录后发表或查看评论

教师随笔-大数据时代更考验教师的智慧.doc

11-24

本文从大数据的角度审视教育领域，探讨在大数据时代教师如何通过提升智慧来应对新的教育变革。 大数据时代的到来，让教育不再是传统意义上的知识传授，而是一场涉及教育模式、教学方法和学习方式的根本性变革。在...

机器学习和数据挖掘的联系与区别

weixin_34404393的博客

08-01

322

从数据分析的角度来看，数据挖掘与机器学习有很多相似之处，但不同之处也十分明显，例如，数据挖掘并没有机器学习探索人的学习机制这一科学发现任务，数据挖掘中的数据分析是针对海量数据进行的，等等。从某种意义上说，机器学习的科学成分更重一些，而数据挖掘的技术成分更重一些。本文选自《大数据架构详解：从数据获取到深度学习》机器学习(Machine Learnin...

大数据随笔（一）

weixin_34401479的博客

06-12

317

一、概述谈到大数据，离不开云计算、物联网、数据中心这些关键基础技术。云计算是分布式处理、并行处理和网格计算的，或者说是这些计算机科学概念的商业实现。狭义上云计算指IT基础设施的交付和使用模式，即通过网络以按需、易扩展的方式获得所需资源；广义上云计算指服务的交付和使用模式，即通过网络以按需、易扩展的方式获得所需服务。云计算强调云存储和计算能力，是一个动态的过程。...

大数据技术随笔

破碎琉璃为哪般

12-07

252

先来说说大数据和云计算云计算在美国与技术研究院中的定义是：指一种按使用量付费的模式，这种模式提供可用的，便携的，按需的网络访问，进入可配置的计算资源共享池，这些资源能够被快速的提供，只需要投入极少的管理工作，或与服务供应商进行很少的交互。资源共享池里资源包括网络，服务器，存储，应用软件，服务等。 大数据 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理...

将hive三级分区表中指定某一级分区的数据，全部导入一张新表的操作

攻城狮Kevin

06-03

1858

需求场景：hive原始表tbl1，三级分区分别是dt、hour、proj_id，现在要求将dt=‘20180305’下的所有数据导入一张新表tbl2 操作如下：一、创建新表tbl2 create table tbl2 like tbl1; 二、开启动态分区，指定资源队列 set mapreduce.job.queuename=root.offline.hdp_teu_dpd.nor...

大数据学习第二十天

weixin_43868405的博客

07-01

325

如何理解HBase 关于HBase比较官方的解释就是： HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，它的目标是存储并处理大型的数据，HBase技术可在廉价的PC Server上搭建大规模结构化存储集群。高可靠性：因为HBase的存储基于HDFS，有数据备份高性能：依托于Hadoop分布式平台，实现分布式计算，速度快面向列：HBase是一个Nosql型数据库，通过列式存储...

大数据随笔集

tr-add_oil的博客

12-15

236

查看网站： https://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html#%E7%9B%AE%E7%9A%84

大数据随笔（六）：分布式数据库HBase

qq_34965116的博客

03-19

371

HBase简介 HBase是一种分布式数据库，可以用来存储结构化和半结构化的松散数据。通过水平扩展，可以让数千台服务器去存储海量数据。用HBase的原因：HDFS+MapReduce是面向离线的数据处理，无法满足实时要求；传统关系型数据库扩展有瓶颈，现在数据结构经常变化，关系型数据库往往模式确定后就很难变更了。 HBase的访问接口： HBase数据模型列族可以动态扩展。更新操作会保留历史...

大数据随笔（七）：HBase安装配置和编程示例

qq_34965116的博客

03-22

345

HBase安装首先根据hadoop版本选择合适的HBase版本。 HBase版本参考我的hadoop是2.9.2，所以选择HBase版本是2.2.2 下载地址 tar -xzvf hbase-2.2.2-bin.tar.gz #解压 mv hbase-2.2.2 hbase #重命名 vi ~/.bashrc #添加环境变量 export PATH=${JAVA_HOME}/bin:/home...

幼儿教师教育随笔：“大数据”与“大道理”.docx

09-10

从幼儿教师的教育随笔中可以看出，作者在学前教育领域拥有丰富的学术背景和实践经验。在面对具体的孩子时，尽管有深厚的理论知识，但依旧会感到困惑，无法完全读懂孩子的行为和需求。作者通过观看罗振宇的跨年演讲，...

教育工作随笔我对大数据的熟悉.pdf

06-08

《教育工作随笔：我对大数据的熟悉》 大数据，这个概念在当今社会中无处不在，尤其在教育领域，它的影响力日益凸显。大数据的崛起，首先源于数据量的爆炸式增长。随着计算机互联网、移动互联网、物联网的发展，以及...

大数据学习笔记.zip

08-23

在这个压缩包中，随笔文件可能包含作者对于这些技术的个人理解和实践经验，或者是对这些技术的深入解析和案例研究。读者可以通过学习这些笔记，深入了解大数据处理的各个环节，掌握如何使用Hadoop进行分布式计算，...

共享出行数字化转型：车辆调度 AI 优化与用户体验数据化迭代实践

九河智造云的内容中心

12-02

434

某头部共享出行企业的实践显示，AI 调度系统上线后，车辆应答率提升 40%，用户平均候车时间从 12 分钟缩短至 6.5 分钟，车辆日均周转率提高 32%，运营效率显著提升。车辆调度 AI 优化与用户体验数据化迭代的实践，不仅解决了传统运营中的效率低、体验差等问题，更构建了以数据为核心的竞争优势。随着 AI、物联网、5G 等技术的持续迭代，未来将实现车辆调度、服务优化、安全管控的全链路智能升级，为用户提供更便捷、安全、个性化的出行服务，同时为城市交通可持续发展注入持久动能。

对称美学-od

最新发布

用来自己学习，复习

12-04

207

就是第 i 个字符串 = 第 i - 1 号字符串的取反 + 第 i - 1 号字符串;取反(R->B, B->R);现在告诉你 n 和 k，让你求得第 n 个字符串的第 k 个字符是多少。根据规律：S(n) = invert(S(n-1)) + S(n-1)长度 L(n) = 2^(n-1)，前半长度 = 2^(n-2)重复这个过程，直到 n = 1，S1 = "R"接下里输入T行，每行输入两个数字，表示n, k。第 4 个字符串：BRRBRBBR。第 2 个字符串：BR。第 1 个字符串：R。

大模型应用：大模型 MapReduce 全解析：核心概念、中文语料示例实现.12

minhuan的专栏

12-03

1069

本文介绍了MapReduce编程模型及其在大模型训练中的应用。MapReduce通过"分治-并行-聚合"思想处理大规模数据，传统Hadoop MapReduce侧重结构化数据计算，而大模型MapReduce则针对自然语言处理任务。文章详细对比了两者在架构、处理对象和核心算力等方面的差异，并提供了中文词频统计的Python实现示例，包括单机版和分布式版本。分布式实现利用多进程模拟集群计算，展示了数据分片、Map、Shuffle和Reduce的完整流程。

国产时序数据库供应商排名

weixin_43836476的博客

12-04

281

测试显示，在处理海量数据时，TDengine的压缩比可达10:1 - 50:1，大幅减少了存储空间。：提供了丰富的客户端工具和开发接口，支持多种编程语言，如Python、Java、C++等，方便开发者进行集成和二次开发。：在监控领域有较高的知名度和市场占有率，很多企业的监控系统采用OpenTSDB来存储和分析时序数据，尤其是在互联网企业的运维监控场景中应用较为普遍。它提供了简单易用的SQL接口，与常见的数据分析工具如Grafana等有良好的集成，生态系统在不断完善。

ElasticSearch索引red，关键字 Too many open files

weixin_42566359的博客

12-04

116

摘要：当Elasticsearch索引状态显示为red时，若发现"Too many open files"错误，表明主机文件句柄数不足。

国产时序数据库哪个靠谱

weixin_43836476的博客

12-04

153

在国产时序数据库领域，当前面临着诸多技术挑战。一方面，数据的高并发写入与查询处理能力不足。随着物联网、工业互联网等领域的快速发展，设备产生的数据量呈爆炸式增长，传统数据库难以应对每秒数万甚至数十万条数据的写入请求。测试显示，部分传统数据库在高并发场景下，写入性能会急剧下降，每秒写入数据量仅能维持在数千条，严重影响了数据的实时采集与存储。另一方面，数据存储成本过高。时序数据具有海量、高冗余的特点，传统数据库的存储方式会占用大量的磁盘空间，增加了企业的硬件采购与维护成本。数据表明，一些传统数据库存储相同规模的时