自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 大数据学习之scala笔记

Scala基础1.Scala基础数据类型Scala中所有的数据都是对象,也就是说scala没有java中的原生类型。在scala是可以对数字等基础类型调用方法的。​ 举例:数字 1是一个对象,就有方法(函数)​ scala> 1.toString​ res0: String = 1​​ ...

2019-07-16 20:03:50 527

原创 大数据--python学习

1.列表和元组之间的区别是?list是处理一组有序项目的数据结构,即你可以在一个列表中存储一个序列的项目。一旦你创建了一个列表,你就可以添加,删除,或者是搜索列表中的项目。由于可以增加或删除项目,所以列表是可变的数据类型,即这种类型是可以被改变的,并且列表是可以嵌套的。元组和列表十分相似,不过元组是不可变的。即你不能修改元组。元组通过圆括号中用逗号分隔的项目定义。元组通常用在使语句或用户定义的...

2019-07-15 20:12:12 279

原创 大数据学习第32天

python介绍一种面向对象,面向函数的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。Python是纯粹的自由软件, 源代码和解释器CPython遵循 GPL(GNU General Public License)协议[2]. Python语法简洁清晰,特色之一是强制用空白符(white space)作为语句缩进。Pytho...

2019-07-12 20:48:35 423

原创 大数据学习第21天:

Protobuf是什么?Protobuf是一种平台无关、语言无关、可扩展且轻便高效的序列化数据结构的协议,可以用于网络通信和数据存储。(类似json)​ Protobuf和Xml、Json序列化的方式不同,采用了二进制字节的序列化方式,用字段索引和字段类型通过算法计算得到字段之前的关系映射,从而达到更高的时间效率和空间效率,特别适合对数据大小和传输速率比较敏感的场合使用。Protobu...

2019-07-02 20:54:32 330

原创 大数据学习第二十天

如何理解HBase关于HBase比较官方的解释就是:HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,它的目标是存储并处理大型的数据,HBase技术可在廉价的PC Server上搭建大规模结构化存储集群。高可靠性:因为HBase的存储基于HDFS,有数据备份高性能:依托于Hadoop分布式平台,实现分布式计算,速度快面向列:HBase是一个Nosql型数据库,通过列式存储...

2019-07-01 21:07:28 262

原创 大数据学习第19天

大数据学习第19天:熟悉hive参数的使用hive当中的参数、变量,都是以命名空间开头通过${}方式进行引用,其中system、env下的变量必须以前缀开头hive 参数设置方式1、修改配置文件 ${HIVE_HOME}/conf/hive-site.xml2、启动hive cli时,通过–hiveconf key=value的方式进行设置例:hive --hiveconf hi...

2019-06-28 20:13:01 313

原创 大数据学习第18天:

大数据学习第18天:了解hive是什么**背景说到这个问题,还得先说个小故事,在很久很久以前…有一个叫facebook的贼有名的公司,他们内部搭建了数据仓库(你可以理解成把一大堆数据放到一个地方,然后做报表给老板看!),是基于mysql的。后来随着数据量的不断增加,这种传统的数据库扛不住了…于是经过一系列的折腾换到了hadoop上(hadoop是个大数据体系,用的是里面的hdfs,做存储的...

2019-06-28 08:35:04 339

原创 大数据学习第17天

1、storm事务性topology的提出对于容错机制,Storm通过一个系统级别的组件acker,结合xor校验机制判断一个msg是否发送成功,进而spout可以重发该msg,保证一个msg在出错的情况下至少被重发一次。但是在一些事务性要求比较高的场景中,需要保障一次只有一次的语义,比如需要精确统计tuple的数量等等。Storm 0.7.0引入了Transactional Topology,...

2019-06-27 09:04:05 125

原创 大数据学习第16天:

Storm的实时性可能主要体现在:1.相比Hadoop,Storm是为实时处理而设计的;2.Storm的Topology启动后,一直处理就绪状态,等待数据输入,一旦有数据会立即处理;这一点不同于Hadoop,Hadoop每处理一个Job都需要重新提交,而且对于实时到来的数据也无法立即处理。“Storm中流动的是数据,Hadoop中流动的是代码”,这个说法很精辟。3.Storm在处理过程中基于...

2019-06-25 20:37:44 138

原创 大数据学习第15天

Storm 流计算编程模型(一)基础介绍随着互联网的更进一步发展,从Portal信息浏览型到Search信息搜索型到SNS关系交互传递型,以及电子商务、互联网旅游生活产品等将生活中的流通环节在线化。对效率的要求让大家对于实时性的要求进一步提升,而信息的交互和沟通正在从点对点往信息链甚至信息网的方向发展,这样必然带来数据在各个维度的交叉关联,数据爆炸已不可避免。因此流式处理加NoSQL产品应运而...

2019-06-24 19:39:44 204

原创 大数据学习第14天

倒排索引概述编辑在关系数据库系统里,索引是检索数据最有效率的方式,。但对于搜索引擎,它并不能满足其特殊要求:1)海量数据:搜索引擎面对的是海量数据,像Google,百度这样大型的商业搜索引擎索引都是亿级甚至百亿级的网页数量 ,面对如此海量数据 ,使得数据库系统很难有效的管理。2)数据操作简单:搜索引擎使用的数据操作简单 ,一般而言 ,只需要增、 删、 改、 查几个功能 ,而且数据都有特定的...

2019-06-21 20:06:05 531

原创 大数据学习第十三天:

ZooKeeper是什么ZooKeeper(ZK)是一个分布式开源协调服务框架,是Google的Chubby一个开源的实现,是hadoop的一个子项目主要用来解决分布式系统的一致性问题,封装好了复杂易出错的关键服务,通过简单的接口为外部提供高性能、稳定的服务实际应用场景包括:统一命名服务、分布式配置管理、集群管理、分布式锁、分布式队列 ……结合zookeeper详细说明CAP定理CAP理...

2019-06-20 19:52:36 165

原创 哨兵解决的问题与原理:

哨兵解决的问题:Redis的主从模式可以将主节点的数据改变同步给从节点,从节点就可以起到两个作用:(1)作为主节点的一个备份。一旦主节点出现了故障,不可达,从节点可以作为后备,顶上来,保证数据尽量不丢失。(2)从节点可以扩展主节点的读能力。如果主节点撑不住大量并发的读操作,此时可以分担主节点的读能力。主从复制也随之带来了一下几个问题:(1)一旦主节点出现了故障,需要手动的将一个从节点晋升...

2019-06-20 19:37:37 827

原创 大数据学习第12天:

什么是持久化:​ 将数据从掉电易失的内存存放到能够永久存储的设备上Redis提供了几种数据持久化选项:根据指定的时间间隔,RDB(Redis DataBase,Redis数据库)持久化会为你的数据集创建时间点快照。RDB​ 在默认情况下,Redis 将数据库快照保存在名字为 dump.rdb的二进制文件中方式:产生一个RDB:​ ...

2019-06-19 20:46:28 428

原创 大数据学习第11天:

大数据学习第11天:好友推荐案例:qq好友推荐 Hadoop好友world,hello好友是world…依次类推。 那么hadoop和hello有共同的好友world,所以hadoop和hello可能具有好友关系代码如下package com.sxt.hadoop.mr.fof;import java.io.IOException;import org.apache.hadoo...

2019-06-18 21:12:03 121

原创 大数据学习第9天:

大数据学习第9天:Yarn分布式集群环境部署client发出请求到resourceManager,resourceManager启动Appication master为任务分配相关的资源,分配完成后返回信息到resource Manager,再由resourceManager将任务分发到不同的NodeManager。NodeManager启动Container执行需要的MapReduce工作。...

2019-06-14 20:49:20 235

原创 大数据学习第8天:

大数据学习第8天:学习主题:mapreduce的计算原理1学习目标:什么是分布式计算分布式计算的定义分布式计算是一门计算机科学,主要研究对象是分布式系统。分布式系统是由若干通过网络互联的计算机组成的软硬件系统[1],且这些计算机互相配合以完成一个共同的目标(往往这个共同的目标称为“项目”);分布式计算指在分布式系统上执行的计算。分布式计算是将一个大型计算任务分成很多部分分别交给其他的...

2019-06-13 21:10:24 129

原创 大数据学习第7天:

大数据学习第7天:学习主题:HDFS命令操作和高可用学习目标:hdfs HA的原理:•HDFS 2.x–解决HDFS 1.0中单点故障和内存受限问题。–解决单点故障•HDFS HA:通过主备NameNode解决•如果主NameNode发生故障,则切换到备NameNode上–解决内存受限问题•HDFS Federation(联邦)•水平扩展,支持多个NameNode;•(2...

2019-06-13 11:37:06 296

原创 大数据第六天:

大数据第六天:学习主题:HDFS基础和原理学习目标:**hadoop:**包含分布式文件系统和分布式计算的一个框架。 HDFS,mapreduce不可替代存放海量的数据。数据 --》----》文件—》存放HDFS—》数据文件(元数据,内容数据)—》元数据在NN,内容数据形成block在DN。非常兼容各种分布式计算掌握HDFS的架构:三种节点:NN,SNN,DN。每个节点的...

2019-06-11 19:52:20 163

原创 大数据第五天:

大数据第五天:学习目标:掌握nginx集群Nginx的功能特性基本Http服务,可以作为Http代理服务器和反向代理服务器,支持通过缓存加速访问,可以完成简单的负载均衡和容错,支持包过滤功能,支持SSL 高级Http服务,可以进行自定义配置,支持虚拟主机,支持URL重定向,支持网络监控,支持流媒体传输等邮件代理服务器,支持IMAP/POP3代理服务功能,支持内部SMTP代理服务功能ngi...

2019-06-10 21:05:37 178

原创 大数据学习第四天:

大数据学习第四天:学习主题:shell编程shell :弱类型、 解释型语言解释器:shell ,(bash,ksh,zsh)脚本的执行:当前的shell下启动一个子shell去执行(翻译)脚本shell 是一个交互性命令解释器。shell独立于操作系统,这种设计让用户可以灵活选择适合自己的shell。shell让你在命令行键入命令,经过shell解释后传送给操作系统(内核)执行。 ...

2019-06-06 15:27:25 566

转载 Shell 的source命令

exec和source都属于bash内部命令(builtins commands),在bash下输入man exec或man source可以查看所有的内部命令信息。bash shell的命令分为两类:外部命令和内部命令。外部命令是通过系统调用或独立的程序实现的,如sed、awk等等。内部命令是由特殊的文件格式(.def)所实现,如cd、history、exec等等。在说明exe和source...

2019-06-06 15:23:05 1562

原创 大数据学习第三天:

大数据学习第三天:掌握linux下源码安装软件源码的安装一般由3个步骤组成:配置(configure)编译(make)安装(make install)。configure文件是一个可执行的脚本文件,它有很多选项,在待安装的源码目录下使用命令./configure –help可以输出详细的选项列表。其中--prefix选项是配置安装目录,如果不配置该选项,安装后可执行文件默认放在/...

2019-06-05 19:48:41 189

原创 大数据学习第二天:

大数据学习第二天:linux中安装jdk:首先上传jdk安装包到当前root用户目录下这样做的好处是属于私有 root用户 张三李四不可用,~家目录,拥有最高权限执行 [root@dsj002 ~]# rpm -ivh jdk-8u171-linux-x64.rpm安装之后到 /usr/java/jdk1.8.0_171-amd64 目录查看配置环境变量: (还可以 /e...

2019-06-04 17:27:46 114

原创 大数据第一天学习

大数据学习第一天:1.安装大数据环境1.虚拟机、linux的安装CentOS Linux 6.8正式发布:新版内核+大量更新以下为更新内容:• 全新Linux 2.6.32内核• XFS文件系统内可存储300TB数据• 大量的应用更新,包括LibreOffice 4.3.7办公套件、 Squid 3.4缓存和转发网络代理• Git、YUM、Postfix、OpenLDAP、stun...

2019-06-03 21:08:06 212

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除