大数据
大数据
数据钻研者
数据狂魔
展开
-
2021-01-27
大数据理论基础二、Linux应用基础2.1.Linux系统简介1.UNIX的兴起①UNIX操作系统:●UNIX支持多用户和多任务。●颇具灵活性,可以很容易地被修改,从而使UNIX发展多样化。●在UNIX不断发展的过程中,它的定位是一个大型操作系统。●随着PC逐渐发展且功能日趋...原创 2021-01-27 16:28:54 · 93 阅读 · 0 评论 -
2021-01-24
大数据理论基础一、大数据概述1.2.大数据系统组成1.2.1大数据系统框架①大数据技术需解决的问题及解决思想:(快速的数据流转:流数据、实时数据、批处理数据)、(海量的数据规模:TB、PB、EB)、(多样的数据类型:结构化、半结构化、非结构化)------面临问题:发...原创 2021-01-24 16:28:08 · 66 阅读 · 0 评论 -
2020-12-08
网络爬虫一、概念1.网络爬虫(又称为网页蜘蛛,网络机器人,网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。2.作用:抓取网站上的信息。二、产生背景1.随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索...原创 2020-12-08 14:44:48 · 139 阅读 · 0 评论 -
2020-11-24
MapReduce一、概念1.MapReduce是一种编程、分布式计算模型,用于大规模数据集(大于1TB)的并行运算,并且是一种分布式并行处理技术。2.MapReduce是hadoop的核心组件之一,hadoop要实现分布式需要包括两部分,一部分是分布式文件系统hdfs,一部分是分布式计算框架mapreduce,缺一不可,也就是说,可以通过mapreduce很容易在 ...原创 2020-11-24 20:11:32 · 209 阅读 · 2 评论 -
2020-11-17
HDFS一、概念1.HDFS(分布式文件系统)是指被设计成适合运行在通用硬件上的分布式文件系统,有着高容错性、高吞吐量等特点。2.简言之就是:“把数据分散不同———>聚集使用”3.一个HDFS集群由一个NameNode:(①名称节点②主服务器管理文件系统的命名空间和客户端对文件的询问操作集群中的DataNode管理存储的数据)和若干个DataNone(数据节点)组成。4.故障检测和自动快速恢复是HDFS一个很核心的设计目标。...原创 2020-11-17 19:49:01 · 255 阅读 · 0 评论 -
2020-11-15
大数据一、什么是大数据?1.“大数据”指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。2.“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。3.“大数据”是一个以数据为核心的产业,是一个围绕大数据生命周期不断往复循环的生产过程,同时也是由多种行业协同配合而产生的一个复合性极高的行业。二、怎么使用大数据?1.在这个时代,企图收获成功(甚至是求生存)的在线...原创 2020-11-15 16:07:21 · 129 阅读 · 0 评论 -
2020-11-10
大数据生态系统一.认识Hadoop 1.概念:是一个由Apache基金会所开发的分布式系统基础架构,是一个用java写好的软件。 2.三个组件:包括HDFS(大数据存储)、MapReduce(大数据分析)、HBase(大数据管理)。二.Hadoop生态系统...原创 2020-11-15 15:27:45 · 144 阅读 · 0 评论 -
2020-10-28
大家好,我是一名大一新生,学的专业是大数据技术与应用,对于这门课我的内心是充满好奇与期待的,因为之前没有接触太多关于计算机的知识,所以接下来的更多时间内需要努力钻研,把大数据技术与应用这门专业学好,学精。 通过阅读《一本书读懂大数据》一书,我从中了解到大数据一些基础常识。如下 1. 大数据 ①含义 : 是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长...原创 2020-11-01 11:34:44 · 714 阅读 · 0 评论