大数据原理
文章平均质量分 64
基于大数据技术原理与应用
程子的小段
关注一下我的B站账号吧:https://space.bilibili.com/481428639?spm_id_from=333.1007.0.0
展开
-
数据可视化复习 第五章
三维数据场本质是个对连续信号采样形成的离散数据场,其中每个采样点上的数据类型可分为标量(例如强度、温度)、矢量/向量(例如风向、流向)和张量(例如压力)三大类。通过分析信号的稀疏性,可以在远小于Nyquist-Shannon采样率的条件下,采用随机采样获得离散数据场,应用非线性重建算法完美地重建原始的三维连续数据场。传输函数是一组定义了数据值及其相关属性 与颜色、不透明度等规觉元素之间的映射关系的函数。原创 2022-09-26 17:49:20 · 1411 阅读 · 2 评论 -
数据可视化复习 第四章
聚焦、平衡、简单将需要介绍的事物和概念用人们所熟知的事物的视觉形态来呈现。选取合适的源域和喻体表示时间与空间概念,能创造最佳的可视和交互效果。原创 2022-09-13 20:48:38 · 780 阅读 · 0 评论 -
数据可视化复习 第三章
相似度是衡量多个数据对象之间相似的数值,通常位于0和1之间。常用方法:欧几里得距离、明科夫斯基距离、余弦距离、Jaccard距离数据获取协议作为一种通用的数据获取标准,该协议通过定义基于网络的数据获取句法,以完善数据交换机制,维护、发展和提升数据获取频率。理论上,数据获取协议是一个中立的、不受限于任何规则的协议,它提供跨越规则的句法的互操作性,允许规则内的语义互操作性。原创 2022-09-07 21:40:38 · 414 阅读 · 0 评论 -
数据可视化复习 第二章
感知指客观事物通过感觉器官在人脑中的直接反映。如人类感觉器官产生的视觉嗅觉听觉触觉等。认知指在认识活动的过程中,个体对感觉信号接收、检测、转换、简约、合成、编码、储存、提取、重建、概念形成、判断和问题解决的信息加工处理过程。标记是指数据属性到可视化元素的映射,用于直观地代表数据的性质分类视觉通道是数据的值到标记的视觉表现属性的映射,用于展示数据属性的定量信息。原创 2022-09-04 18:05:13 · 1578 阅读 · 0 评论 -
数据可视化复习 第一章
层次模型:在信息管理、信息系统和只是管理学科中,最基本的模型是“数据、信息、知识、智慧(Data、Information、Knowledge、Wisdom,DIKW)”层次模型。:将信息以可视的方式呈现给用户,引导用户从可视化结果分析和推理出有效信息,可以极大的降低数据理解的复杂度;:面向用户,传播与发布复杂信息的最有效途径是是将数据可视化,达到信息共享与论证、信息写作与修正、重要信息过滤等目的。它以数据为基层结构,通过信息流顺序完成数据到智慧的转换。这种模型也作为一种数据处理流程,完成从原始数据的转化。原创 2022-08-21 09:44:04 · 617 阅读 · 0 评论 -
hadoop分布式系统复习题 大题
HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。HDFS优点:(高容错性、适合处理大数据、可构建在廉价机器上)①高容错性:数据自动保存多个副本。它通过增加副本的形式,提高容错性。某一个副本丢失以后,它可以自动恢复。②适合处理大数据:数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据;...原创 2022-08-16 20:40:32 · 1300 阅读 · 0 评论 -
hadoop分布式系统复习题 选择题
D 、 HDFS 有高容错性的特点,并且设计用来部署在低廉的(low- cost )硬件上。C 、 HDFS 为海量的数据提供了存储,而 MapReduce 为海量的数据提供了计算。C 、每个文件的 Block 大小和复制( Replication )因子都是可配置的。D 、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑。B 、除了最后一个 Block ,所有的Block都是同样的大小。A 、 HDFS 既适合超大数据集存储.也适合小数据集的存储。...原创 2023-07-19 13:47:26 · 7191 阅读 · 0 评论 -
云计算与大数据
摘要:云计算和大数据以及人工智能,是目前最为热门的新兴技术。它们共同推动了全球数字化转型,成为了当前最具发展潜力的技术,也是所有首席技术官最想要拥有的技术。而其中,云计算和大数据因为都与资源有关,所以不了解的人常常会将两者混淆。实际上,云计算和大数据是完全不同的两种技术,且各自的重点也不一样,云计算比较注重资源分配,而大数据则是更注重高效处理。简单来说,云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。而大数据指无法在一定时间范围内用常规软件工具进行原创 2021-05-25 15:48:12 · 8164 阅读 · 1 评论 -
大数据采集与处理期末复习题
填空:数据产生方式经历的阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段大数据的四个特点:数据量大、数据类型繁多、处理速度快和价值密度低。大数据的四种范式:实验、理论、计算、数据密集型大数据计算模式:批处理计算、流计算、图计算、查询分析计算Hadoop的特性:高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言Hadoop的核心:HDFS和MapReduce分布式文件系统的节点:一类叫主节点(名称节点)或从节点(数据节点)Hbase:采用行键、列族原创 2021-04-25 08:15:18 · 5804 阅读 · 10 评论 -
常用的DOS命令
打开dos控制台:window+R+cmd+回车键d:+回车键 进行盘符切换dir(directory) 列出当前目录下的文件以及文件夹md(make directory) 创建目录rd(remove directory) 删除目录cd(change directory) 改变指定目录(进入指定目录)cd… 退回到上一级目录cd\ 退回到根目录del(delete) 删除文件,删除一堆后缀名一样的文件*.txt原创 2021-03-01 20:10:06 · 212 阅读 · 1 评论 -
大数据伪分布式的实验流程
建议多放点内存,如3072(电脑内存够得情况下)最起码得30G,不然不够用,最好多点。环境本教程使用 Ubuntu 18.04 64位 作为系统环境(或者Ubuntu 14.04,Ubuntu16.04 也行,32位、64位均可),请自行安装系统(可参考使用VirtualBox安装Ubuntu)。装好了 Ubuntu 系统之后,在安装 Hadoop 前还需要做一些必备工作。创建hadoop用户如果你安装 Ubuntu 的时候不是用的 “hadoop...原创 2021-01-28 13:42:42 · 427 阅读 · 2 评论