自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_43874875的博客

原创大数据（Big data）

大数据被认为是“未来的新石油”，在社会生产、流通、分配、消费活动以及经济运行机制等方面发挥着重要的作用。作为 IT 类职业中的“大熊猫”，大数据工程师的收入待遇可以说达到了同类的顶级。国内 IT、通讯、行业招聘中，有 10％都是和大数据相关的，且比例还在上升。“大数据时代的到来很突然，在国内发展势头激进，而人才却非常有限，现在完全是供不应求的状况。所有从底层数据工作者往上发展的基本路径：很多初学者，对大数据的概念都是模糊不清的，大数据是什么，能做什么，学的时候，该按照什么线路去学习，学完往哪方面发展

2020-05-19 11:07:15 784

原创大数据——复习篇

欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体验；在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式进行展示；增加了图片

2020-05-18 07:05:04 215

原创集群部署

2020-01-07 15:56:18 232

原创大数据离线项目案例

离线项目总共包括以下部分：1.数据的预处理阶段2.数据的入库操作阶段3.数据的分析阶段4.数据保存到数据库阶段5.数据的查询显示阶段给出数据格式表和数据示例，请先阅读数据说明，再做相应题目。原始数据：qR8WRLrO2aQ:mienge:406:People & Blogs:599:2788:5:1:0:4UUEKhr6vfA:zvDPXgPiiWI:TxP1eXHJQ2...

2020-01-07 12:34:49 750

原创大数据------MapReduce中，Map类压缩文件中 InputSplit（）作用

了解inputSplitHadoop将MapReduce的输入数据划分成等长的小数据块，称为输入分片（input split）或简称为“分片”。Hadoop为每个分片构建一个map任务，并由该任务来运行用户自定义的map函数从而处理分片中的每条数据。getSplits()负责将文件切分成多个分片(InputSplit)，但InputSplit并没有实际切分文件，而只是说明了如何切分数据，也就是...

2019-11-26 15:47:43 265 2

原创大数据 --分布式计算框架MapReduce介绍

Hadoop组成Hadoop HDFS：一个高可靠、高吞吐量的分布式文件系统，对海量数据的存储。 Hadoop MapReduce：一个分布式的资源调度和离线并行计算框架。 Hadoop Yarn：基于HDFS,用于作业调度和集群资源管理的框架。什么是计算框架？是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。用于去解决或者处理某个复杂的计算问题。...

2019-11-20 09:53:51 872 1

原创大数据----使用MapReduce【1】

偏移量:指的是每行行首字母移动到文本的最前面需要一定的字符MapReduce的数据类型LongWritable 长整型IntWritable 整型DoubleWritable 双字节数值FloatWritable 浮点型Text 文本BooleanWritable 布尔型数值POM文件【配置文件】<?xml version="1.0" encoding="UTF-8"?&...

2019-11-20 09:36:34 290 2

原创大数据-Apache Hive【2】

1 Hive与传统数据库对比hive用于海量数据的离线数据分析。hive具有sql数据库的外表，但应用场景完全不同，hive只适合用来做批量数据统计分析。更直观的对比请看下面这幅图： 2 Hive 数据模型Hive中所有的数据都存储在HDFS中，没有专门的数据存储格式在创建表时指定数据中的分隔符，Hive 就可以映射成功，解析数据。Hive中包含以下数据模型：db：在hdfs中表现...

2019-11-20 09:20:18 736 2

原创大数据-----Apache Hive【1】

一、Apache Hive1．Hive 简介1.1．什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。本质是将SQL转换为MapReduce程序。主要用途：用来做离线数据分析，比直接用MapReduce开发效率更高。1.2．为什么使用Hive直接使用Hadoop MapReduce处理数据所面临的问题：人员...

2019-11-20 09:16:15 856 1

原创大数据小笔记——Hadoop入门（上）

Hadoop是什么？——Hadoop是一个适合大数据的分布式存储和计算平台。Hadoop的起源——Hadoop最早起源于lucene下的Nutch，Hadoop这个名字不是一个缩写，而是一个虚构的名字，是由Hadoop之父Doug Cutting的孩子给一个棕黄色的大象玩具命名的。所以Hadoop的标志也就是一头棕黄色的大象。Hadoop的三大核心组件————————————————...

2019-11-19 09:12:31 762 2

原创大数据之谜之低级bug

java.io.IOException: Type mismatch in key from map: expected org.apache.hadoop.io.LongWritable, recieved org.apache.hadoop.io.Textat org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.jav...

2019-11-15 18:07:07 942 2

原创大数据 ---分布式并行计算框架MapReduce

分布式并行计算框架MapReduce是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。游戏中，目标是计算每组纸条中每个图形的总个数。一共八个步骤，每个步骤都是计算的一部分，是框架的一部分。MapReduce计算框架分布式并行计算框架一个大的任务被拆分成多个小任务，每个小任务同时执行。按照执行流程进行计算。大数据为什快横向扩展移动程序到数据端多个数据副本分布式存储（...

2019-11-14 11:02:41 1912 4

原创大数据------namenode故障恢复

secondaryNamenode对namenode当中的fsimage和edits进行合并时，每次都会先将namenode的fsimage与edits文件拷贝一份过来，所以fsimage与edits文件在secondarNamendoe当中也会保存有一份，如果namenode的fsimage与edits文件损坏，那么我们可以将secondaryNamenode当中的fsimage与edits拷贝...

2019-11-14 10:40:22 683 2

原创大数据---最基本的项目流程（生动形象的比喻）

把大数据项目的流程看作是西红柿炒鸡蛋种植西红柿养只老母鸡原料生产数据生产2.采摘西红柿捡鸡蛋 ...

2019-11-14 10:34:28 836 2

原创 MapReduce简写（略解）

解读WordCountWordCount程序就是MapReduce的HelloWord程序。通过对WordCount程序分析，我们可以了解MapReduce程序的基本结构和执行过程。WordCount设计思路WordCount程序很好的体现了MapReduce编程思想。一般来说，文本作为MapReduce的输入，MapReduce会将文本进行切分处理并将行号作为输入键值对的键，文本内容作为...

2019-11-11 20:36:41 846 2

原创 HDFS（退役节点），集群扩展（扩容）节点图文详解，

在HDFS集群内退役一个集群分几步第一步在NameNode主节点新添加一个文件在dfs.hosts.exclude文件内添加需要退役的节点主机名、第二步在NameNode主节点的hdfs-site.xml文件添加配置，让dfs.hosts.exclude文件生效第三步刷新在NameNode主节点的hadoop安装目录下执行以下命令在Web页面查看如果页面没有结果请重启集...

2019-11-11 20:14:55 1035 1

原创 Linux：集群同步时间 no server suitable for synchronization found 找不到适合同步的服务器

出现此错误是因为时间同步服务器的防火墙没有关闭关闭同步服务启的防火墙即可在同步集群时间时，除时间同步服务器外，其他机器必须关掉 htpd 服务命令 service ntpd stop查看状态 service ntpd status启动 service ntpd start重启 service ntpd restart如果没有安装ntpd 服务则需要安装ntpd服务命令 yum i...

2019-11-11 20:06:04 1606 2

原创大数据概述(二）

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明大数据概述传统数据处理介绍目标：了解大数据到来之前，传统数据的通用处理模式数据来源:1、企业内部管理系统 ,如员工考勤（打卡）记录。2、客户管理系统（CRM）数据特征：数据处理方式：1、数据保存在数据库中。处理时以处理器为中心，应用程序到数据库中检索数据再进行计算（移动数据...

2019-11-11 08:39:38 849 5

原创最近网络上热词之 ----=----- 大数据？你了解大数据么！

大数据特点:主要特点大数据能做什么海量数据背景下大数据就业岗位大数据技术

2019-11-11 08:33:04 686 2

原创 liunx集群(三台),scp远程文件拷贝,ssh远程登陆

克隆虚拟机2.更改新增系统的mac地址3.更改网卡信息 (setup)重启系统生效reboot三台机器关闭防火墙内网环境安全性比较高, 防火墙开启会影响效率, 所以关闭防火墙三台机器执行以下命令（root用户来执行）三台机器关闭selinux三台机器更改主机名注意：重启才会生效三台机器给ip地址起别名测试scp 远程文件拷贝是...

2019-11-11 08:29:32 628 3

原创关于挂载和yum源（Linux）

1.查看分区四大块：1.分区名称2.分区类型3.uuid：设备的唯一编号4.mountpoint:目录的位置（虚拟机增加硬盘不用多说，傻瓜式操作完成以后重启就成）lslbk -f ：查看所有设备的挂载情况*分区具体操作：开始分区： fdisk /dev/sdb2.命令依次是 m–>n–>p–>w*格式化如果格式化成功的话那么他的分区类型和uuid...

2019-11-11 08:21:00 1306 2

原创 HDFS的数据完整性

1.当DataNode读取block的时候，它会计算checksum（校验和）2.如果计算后的checksum与block创建时（第一次上传会计算checksum值）值不一样，说明block已经损坏3.Client读取其他DataNode上的block4.DataNode在其文件创建后周期验证checksum————————————————版权声明：本文为CSDN博主「橙汁糖tzc」的...

2019-11-07 21:44:03 767 1

原创掉线时限参数设置

DataNode进程死亡或者网络故障造成DataNode无法与namenode通信，namenode不会立即把该节点判定为死亡，要经过一段时间，这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout，则超时时长的计算公式为：timeout = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs....

2019-11-07 21:42:41 701 2

原创 HDFS中DataNode的目录结构

具体解释：（1）storageID：存储id号（2）clusterID集群id，全局唯一（3）cTime属性标记了datanode存储系统的创建时间，对于刚刚格式化的存储系统，这个属性为0；但是在文件系统升级之后，该值会更新到新的时间戳。（4）datanodeUuid：datanode的唯一识别码（5）storageType：存储类型（6）layoutVersion是一个负整数。通常只...

2019-11-07 21:41:29 1070 2

原创一次写入，多次读出

HDFS是设计成适应一次写入，多次读出的场景，且不支持文件的修改。正因为如此，HDFS适合用来做大数据分析的底层存储服务，并不适合用来做.网盘等应用，因为，修改不方便，延迟大，网络开销大，成本太高。...

2019-11-07 21:37:35 1874 1

原创将压缩文件解压到指定文件夹，报此文件夹在归档中找不到

错误原因：少了一个-C命令正确的命令：Tar -zxvf jdk-8u144-Linux-x64.tar.gz -C /export/servers————————————————版权声明：本文为CSDN博主「bug制造机」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/qq_43055485/a...

2019-11-07 21:36:57 988 1

原创 Hadoop的优缺点总结

优点：1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。2）高扩展性：能在廉价机器组成的集群间分配任务数据，可方便的扩展数以干计的节点。3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。4）高容错性：能够自动将失败的任务重新分配缺点：下面三点是Hadoop1.0版本的缺点：1）不...

2019-11-07 21:35:54 2372 1

原创在做有关远程连接时遇到的错误：WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!

$ ssh root@47.98.233.15@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@IT ...

2019-11-07 21:34:10 347 1

原创 linux 入门

linux第一步: 了解linux系统分区的原理1.一个硬盘可以分成多个分区2.用户不能直接操作硬件, 需要让硬件和系统的目录建立映射关系(挂载) 才可以操作, 称为挂载3.查看系统分区挂载情况: lsblk -f第二步: 查看系统分区情况lsblk -f第三步: 虚拟机增加硬盘选中目标虚拟机右键设置选中硬盘点击添加按钮...

2019-10-31 16:14:13 624 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除