Play With SanLei-CSDN博客

原创数据分析师的个人修养

数据分析师的个人修养前言先分享：分享给别人后，别人会有不一-样的理解、疑问、质疑和新想法，会增强我们的认识程度。再使用：每一节课的内容都只是我经历的一一个沉淀，每个人都要结合自己的实际情况去使用，而只有多和同事同学交流，你才能督促自己去对每个知识点进行更深入的理解。在开源知识分享这件事上，1+1>>2使用方法：截屏，花更多的时间去和同事探讨、并独立思考最近遇到一件事的思考：工作中如果别人向你提一个需求，双方商定好完成时间后，你真的要按时去完成，如有特殊情况一定要提前解释好。每

2021-09-16 17:52:24 1138

原创大数据技术原理与应用作业十二

大数据技术原理与应用作业十二1. 试述数据可视化的概念。数据可视化是指将大型数据集中的数据以图形图像形式表示，并利用数据分析和开发工具发现其中未知信息的处理过程。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元素表示，大量的数据集构成数据图像，同时将数据的各个属性值以多维数据的形式表示，可以从不同的维度观察数据，从而对数据进行更深入的观察和分析。2. 试述数据可视化的重要作用。观测、跟踪数据。利用变化的数据生成实时变化的可视化图表，可以让人们一眼看出各种参数的动态变

2021-09-16 17:52:07 870

原创大数据技术原理与应用作业十一

大数据技术原理与应用作业十一1.试述BSP模型中超步的3个组件及具体含义。局部通信。每个参与的处理器都有自身的计算任务，它们只读取存储在本地内存中的值，不同处理器的计算任务都是异步并且独立的。通信。处理器群相互交换数据，交换的形式是，由一方发起推送（Put）和获取（Get）操作栅栏同步。当一个处理器遇到“路障”（或栅栏），会等其他所有的处理器完成它们的计算步骤；每一次同步也是一个超步的完成和下一个超步的开始。2.Pregel为什么选择一种纯消息传递模型？采用这种做法主要基于以下两个原因：

2021-09-16 17:51:49 2499

原创大数据技术原理与应用作业十

大数据技术原理与应用作业十1. 试述流数据的概念。流数据，即数据以大量、快速、时变的流形式持续到达。2. 试述流数据的特点。流数据具有如下特征：数据快速持续到达，潜在大小也许是无穷无尽的数据来源众多，格式复杂数据量大，但是不十分关注存储，一旦经过处理，要么被丢弃，要么被归档存储注重数据的整体价值，不过分关注个别数据数据顺序颠倒，或者不完整，系统无法控制将要处理的新到达的数据元素的顺序3. 在流计算的理念中，数据的价值与时间具备怎样的关系?数据的价值随着时间的流失而降低4. 试述流

2021-09-16 17:51:36 3533

原创大数据技术原理与应用作业九

大数据技术原理与应用作业九1. Spark是基于内存计算的大数据计算平台，试述Spark的主要特点。Spark具有如下4个主要特点：运行速度快；容易使用；通用性；运行模式多样。2. Spark的出现是为了解决Hadoop MapReduce的不足，试列举Hadoop MapReduce的几个缺陷，并说明Spark具备哪些优点。Hadoop存在以下缺点：表达能力有限；磁盘IO开销大；延迟高Spark主要有如下优点：Spark的计算模式也属于MapReduce，但不局限于Ma

2021-09-16 17:51:21 1716

原创大数据技术原理与应用作业八

大数据技术原理与应用作业八1. 试述在Hadoop推出之后其优化与发展主要体现在哪两个方面。Hadoop的优化与发展主要体现在两个方面：一方面是Hadoop资深两大核心组件MapReduce和HDFS的架构设计改进，另一方面是Hadoop生态系统其他组件的不断丰富。通过这些优化和提升，Hadoop可以支持更多的应用场景，提供更高的集群可用性，同时也带来了更高的资源利用率。2. 试述HDFS1.0中只包含一个名称节点会带来哪些问题。只包含一个名称节点会存在单点失效的问题。HDFS1.0 采用单点名称节

2021-09-16 17:50:57 3157

原创大数据技术原理与应用作业七

大数据技术原理与应用作业七1. 试述MapReduce和Hadoop的关系。Google公司最先提出了分布式并行编程模型MapRedece，Hadoop MapReduce是它的开源实现。Google的MapReduce运行在分布式文件系统GFS上，与Google类似，HadoopMapReduce运行在分布式文件系统HDFS上。相对而言，HadoopMapReduce要比GoogleMapReduce使用门槛低很多，程序员即使没有任何分布式程序开发经验，也可以很轻松地开发出分布式程序并部署到计算机集群

2021-09-16 17:50:29 9043 1

原创大数据技术原理与应用作业六

大数据技术原理与应用作业六1. 试述云数据库的概念。云数据库是部署和虚拟化在云计算环境中的数据库。云数据库是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法，它极大地增强了数据库的存储能力，消除了人员、硬件、软件的重复配置，让软、硬件升级变得更加容易，同时也虚拟化了许多后端功能。云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点。2. 与传统的软件使用方式相比，云计算这种模式具有哪些明显的优势？见下表：项目传统方式云计算方式获得软件的方式自己投资

2021-09-16 17:50:15 2471

原创大数据技术原理与应用作业五

大数据技术原理与应用作业五1. 如何准确理解NoSQL的含义?NoSQL是一种不同于关系数据库的数据库管理系统设计方式，是对非关系型数据库的一类统称，它采用的数据模型并非传统关系数据库的关系模型，而是类似键/值、列族、文档等非关系模型。2.试述关系数据库在哪些方面无法满足Web 2.0应用的需求。主要表现在以下几个方面：（1）无法满足海量数据的管理需求（2）无法满足数据高并发的需求（3）无法满足高可扩展性和高可用性的需求3.为什么说关系数据库的- -些关键特性在Web 2.0时代成为“

2021-09-15 16:10:52 3646

原创大数据技术原理与应用作业四

大数据技术原理与应用作业四大数据学院软件1839班张昊 20180063271. 试述在Hadoop体系架构中HBase与其他组成部分的相互关系。HBase利用Hadoop MapReduce来处理HBase中的海量数据，实现高性能计算；利用Zookeeper作为协同服务，实现稳定服务和失败恢复；使用HDFS作为高可靠的底层存储，利用廉价集群提供海量数据存储能力。当然，HBase也可以直接使用本地文件系统而不用HDFS作为底层数据存储方式，不过，为了提高数据可靠性和系统的健壮性，发挥HB

2021-09-15 16:09:14 5854

原创大数据技术原理与应用作业三

大数据技术原理与应用作业三1. 试述分布式文件系统设计的需求。分布式文件系统的设计目标主要包括透明性、并发控制、可伸缩性、容错以及安全需求等。但是，在具体实现中，不同产品实现的级别和方式都有所不同。下面是具体指标的含义：**透明性：**具备访问透明性、位置透明性、性能和伸缩透明性。访问透明性是指用户不需要专门区分哪些是本地文件，哪些是远程文件，用户能够通过相同的操作来访问本地文件和远程文件资源。位置透明性是指在不改变路径名的前提下，不管文件副本数量和实际存储位置发生何种变化，对用户而言都是透明

2021-09-15 16:06:11 5354

原创大数据技术原理与应用作业二

大数据技术原理与应用作业二1. 试述Hadoop和谷歌的MapReduce、GFS之间的关系。 Hadoop最初是由Apache Lucene 项目的创始人Doug Cutting开发的文本搜索库。Hadoop源自2002年的Apache Nutch项目：一个开源的网络搜索引擎并且也是Lucene项目的一部分。在2002年的时候,Nutch项目遇到了棘手的难题，该搜索引擎框架无法扩展到拥有数十亿网页的网络。而就在一年以后的2003年，谷歌公司发布了分布式文件系统GFS方面的论文，可以解决大规模数据

2021-09-15 16:01:55 3182 1

weixin_43644559的博客

原创数据分析师的个人修养

原创大数据技术原理与应用作业十二

原创大数据技术原理与应用作业十一

原创大数据技术原理与应用作业十

原创大数据技术原理与应用作业九

原创大数据技术原理与应用作业八

原创大数据技术原理与应用作业七

原创大数据技术原理与应用作业六

原创大数据技术原理与应用作业五

原创大数据技术原理与应用作业四

原创大数据技术原理与应用作业三

原创大数据技术原理与应用作业二

原创大数据技术原理与应用作业一

原创 leetcode每日一题:116. 填充每个节点的下一个右侧节点指针

原创 leetcode每日一题: 1002. 查找常用字符

原创 leetcode每日一题: 977. 有序数组的平方

原创 leetcode每日一题: 530. 二叉搜索树的最小绝对差

原创 leetcode每日一题: 24. 两两交换链表中的节点

空空如也

空空如也