- 博客(32)
- 收藏
- 关注
原创 【Hadoop】MapReduce (五)
默认情况下,MapReduce中,只有一个1个分区,所以也只有1个ReduceTask。在AVRO的基础上,MapReduce进行了封装,从而简化了序列化操作 - 让需要被序列化的对象对应的类实现接口。可以传递结果的运算,可以使用Combiner,例如求和、求积、去重、取最值等;在MapReduce中,各个节点之间基本上都是通过RPC的方式来进行调用,也因此要求传输的数据必须被序列化。由于AVRO的限制,所以要求被序列化的类中必须有无参构造,同时。的前提下,减少ReduceTask的计算条数。
2024-04-30 08:02:20 407
原创 【Kafka】Kafka与flume整合(四)
/指定我们的channel为memory,即表示所有的数据都装进memory当中 a1.channels.c1.type = memory。图-1显示的是flume采集完毕数据之后,进行的离线处理和实时处理两条业务线,现在再来学习flume和kafka的整合处理。//指定我们的source收集到的数据发送到哪个管道 a1.sources.r1.channels = c1。//指定我们的sink为kafka sink,并指定我们的sink从哪个channel当中读取数据。1)消费者监听读取的数据。
2024-04-30 07:58:55 317
原创 【Hadoop】HDFS(四)
MapReduce是Doug根据的Google的<The Google MapReduce>来仿照实现的MapReduce将整个计算过程拆分为了两个大阶段:Map(映射)阶段和Reduce(规约)阶段。
2024-04-29 10:28:51 763
原创 【Kafka】Kafka高性能之道(六)
4)充分利用所有空闲内存(非JVM内存):应用层cache也会有对应的page cache与之对应,直接使用pagecache可增大可用cache,如使用heap内的cache,会增加GC负担。如图-4所示,随着message size的增大,生产者对应的每秒生成的记录数在成下降趋势,生产的数据体积成上升趋势。如图-3所示,分区个数和生产的吞吐量,在一定范围内,先增长,当达到某一个值之后趋于稳定,在上下浮动。如图-5所示,副本越大,自然需要同步数据的量就越多,自然kafka的生成的吞吐量就越低。
2024-04-29 10:28:24 599
原创 【Mysql】DQL数据查询语言、用来查询数据库中表的记录
如果查询语句中没有设置条件,就会查询所有的行信息,在实际应用中,一定要指定查询条件,对记录进行过滤。查询不会对数据库中的数据进行修改.只是一种显示数据的方式 SELECT。•需求2: 查询emp表中的所有记录,仅显示id和name字段。•需求3: 将所有的员工信息查询出来,并将列名改为中文。•需求5: 将所有员工的工资 +1000 元进行显示。•需求1: 查询emp中的 所有数据。运算查询 (查询结果参与运算)•需求4:查询一共有几个部门。别名查询,使用关键字 as。•emp员工表字段说明。
2024-04-28 08:51:51 302
原创 【Mysql】DML数据操作语言、用来对数据库中表的记录进行更新
2)truncate table 表名: 推荐. 先删除整张表, 然后再重新创建一张一模一样的表. 效率高。•需求3:将sid为 2 的学员,年龄改为 20,地址改为 北京。•方式1: 插入全部字段, 将所有字段名都写出来。2)值的数据大小,必须在字段指定的长度范围内。•需求2:将sid 为2的学生,性别改为男。•需求1:删除student表中的所有数据。•需求2:删除 sid 为 1 的数据。•方式2: 插入全部字段,不写字段名。•需求1:将所有的性别改为女。•方式3:插入指定字段的值。
2024-04-28 08:51:30 360
原创 【Mysql】mysql本地环境变量的配置
1)新建MYSQL_HOME变量,并配置: C:\Program Files\MySQL\MySQL Server 5.7。配置path环境变量,也可不新建MYSQL_HOME变量,而是直接将MySQL安装目录下的bin配置到path变量下。MySQL默认安装在C:\Program Files下。即:C:\Program Files\MySQL\MySQL Server 5.7\bin。2)编辑path系统变量,将 %MYSQL_HOME%\bin 添加到path变量后。
2024-04-26 16:33:14 280
原创 【Mysql】mysql的DDL数据定义语言-定义数据库对象:数据库,表,列等
•需求5: 对分类表中的 desc字段进行更换, 更换为 description varchar(30)•需求3: 为分类表添加一个新的字段为 分类描述 cdesc varchar(20)•char类型是固定长度的: 根据定义的字符串长度分配足够的空间。•char类型适合存储 固定长度的字符串,比如 密码 ,性别一类。•需求4:对分类表的描述字段进行修改,修改为varchar(50)•varchar类型是可变长度的: 只使用字符串长度所需的空间。•需求3: 快速创建一个表结构相同的表(复制表结构)
2024-04-26 16:32:56 437
原创 【Spark】简介概述(一)
Spark特点1)Speed:相比于MR,官方说,基于内存计算spark要快mr100倍,基于磁盘计算spark要快mr10倍。如图-1所示。图-1 Spark和Hadoop运行速度比较2)Ease of Use:Spark提供超过80多个高阶算子函数,来支持对数据集的各种各样的计算,使用的时候,可以使用java、scala、python、R,非常灵活易用。3)Generality:通用性如图-2所示。图-2 Spark通用性特点。
2024-04-25 08:57:54 1029
原创 【Kafka】编程API、生产与消费API操作(三)
2)如果进程本身具有高可用性,并且如果失败则将重新启动(可能使用YARN,Mesos或AWS工具等集群管理框架,或作为流处理框架的一部分)。在这种情况下,Kafka不需要检测故障并重新分配分区,因为消耗过程将在另一台机器上重新启动。1)如果进程正在维护与该分区关联的某种本地状态(如本地磁盘上的键值存储),那么它应该只获取它在磁盘上维护的分区的记录。指定项目存储位置和maven坐标,如图-1所示。图-1 创建maven项目。
2024-04-25 08:57:06 648
原创 【Kafka】安装配置操作(二)
消费者与分区之间的关系kafka消费者在消费数据的时候,都是分组别的。不同组的消费不受影响,相同组内的消费,需要注意,如果partition有3个,消费者有3个,那么便是每一个消费者消费其中一个partition对应的数据;如果有2个消费者,此时一个消费者消费其中一个partition数据,另一个消费者消费2个partition的数据。如果有超过3个的消费者,同一时间只能最多有3个消费者能消费得到数据,如图-18所示。图-18 kafka消费数据的特点。
2024-04-24 11:41:34 1370
原创 【Kafka】理论简介、消息队列(一)
图-1 消息队列的使用Kafka概述Kafka是分布式的发布—订阅消息系统。它最初由LinkedIn(领英)公司发布,使用Scala语言编写,于2010年12月份开源,成为Apache的顶级项目。Kafka是一个高吞吐量的、持久性的、分布式发布订阅消息系统。它主要用于处理活跃live的数据(登录、浏览、点击、分享、喜欢等用户行为产生的数据)。如图-4所示,很好的显示了Kafka的应用与组成。图-4 kafka应用与组成特点1)高吞吐量:可以满足每秒百万级别消息的生产和消费——生产消费。
2024-04-24 11:40:52 572 1
原创 【Flume】简介、安装和入门案例(一)
Flume本身是由Cloudera公司开发的后来贡献给了Apache的一套针对日志数据进行收集(collecting)、汇聚(aggregating)和传输(moving)的机制Flume本身提供了简单且灵活的结构来完成日志数据的传输Flume-ogFlume-ng。
2024-04-23 09:00:35 888
原创 【Hadoop】分布式安装、HDFS (二)
HDFS(Hadoop Distributed File System)是Hadoop提供的一套用于进行分布式存储的文件系统HDFS是仿照了Google的GFS来实现的HDFS典型的主从(Master/Slave,简称为M/S)结构。主进程是NameNode,从进程是DataNodeHDFS会对上传的每一个文件进行切块处理,切出来的每一个数据块称之为是一个BlockHDFS会对存储的每一个Block进行备份,称之为副本(replication/replicas)。默认情况下,副本数量为3。
2024-04-22 08:54:59 681
原创 【大数据概述】Hadoop(一)
Hadoop原本是由Yahoo!公司开发的后来贡献给了Apache的一套开源的、可靠的、可扩展/可伸缩的、分布式架构Hadoop之父:Doug.Cutting(道格.卡汀/卡丁)由于Hadoop的版本混乱,所以在选择Hadoop版本的时候需要注意Hadoop的兼容性问题Hadoop提供了简单的编程模型在集群中处理大量的数据集Hadoop能够从一台主机扩展到上千台主机,每一台主机都能够进行本地存储和计算Hadoop本身提供了探测和处理异常的机制。
2024-04-22 08:54:36 1022
原创 大数据——Zookeeper ZBA协议(四)
对于分布式框架而言,基本上都会遵循CAP三大理论CAP(CAP理论是从客户端角度出发的!!!C(Consistency):一致性。在一段时间内,访问这个集群获取到的数据是相同的。注意,此时,在一个时间段内,不要求每一台服务器的数据都一样,只要保证客户端获取到的数据一样就行A(Availability):可用性。当客户端对集群中的节点发起请求的时候,节点能够在合理的时间内(一般理解为立刻)进行响应 - 时效性。注意,此处的可用性和服务器的高可用不是一回事儿!!!
2024-04-20 09:02:47 943 4
原创 大数据——Zookeeper ZAB协议(三)
在Zookeeper中,计算过半是计算的有决策权(选举/原子广播)的节点数量,observer没有决策权,所以不影响过半。例如:一个集群由21个节点组成,1个leader+6个follower+14个observer,即使observer全部宕机,Zookeeper集群也正常提供服务;在集群规模庞大或者网络不稳定的时候,选举或者原子广播的效率都会比较低,所以在实际过程中,会尽量减少参与选举或者原子广播的节点数量,因此在实际过程中,会将一个集群的90%~97%的节点设置为observer。
2024-04-20 09:00:19 992 1
原创 大数据——Scala 模式匹配
当编译器对当前代码第一次编译失败的时候,会在当前的环境中查找能够让代码编译通过的方式,用于将当前的类型进行转换,进行二次编译,这个过程就称之为隐式转换隐式转换包含隐式函数、隐式参数和隐式类Scala运行的时候,自动加载Predef类,Predef类中定义了大量的隐式转换。
2024-04-19 16:09:11 728 1
原创 大数据——Zookeeper 安装(集群)(二)
当Zookeeper集群启动的时候,此时所有的节点(在集群中,节点指的就是服务器)都会进入选举状态,并且此时所有的节点都会推荐自己成为leader当一个节点收到别人的选举信息之后,就会进行比较。经过多轮比较之后,最后胜出的节点会成为leader。
2024-04-19 09:05:32 662 3
原创 大数据——Zookeeper安装、启动、操作命令(一)
在大数据中,几乎所有的框架,它的安装都提供了三种模式单机模式:在一台服务器上安装,往往能够启动这个框架的部分服务伪分布式:在一台服务器上安装,但是利用多个线程模式分布式环境,能够启动这个框架的大部分甚至于服务分布式:在集群上安装,能够启动这个框架的所有服务现阶段,先安装单机模式,搞定所有的概念之后,再到集群中安装。
2024-04-19 09:03:41 1141 1
原创 Linux(三)
默认情况下,虚拟机和笔记本一样,采用的都是动态IP - 每次联网都会在当前网段内随机分配一个IP实际过程中,虚拟机一般需要自己固定静态IP步骤查看网络编辑器中VMnet8对应的网段编辑文件修改属性在文件末尾添加重启网络查看ifconfig测试能否连接外网。
2024-04-18 18:48:29 865 1
原创 Linux(二)
Shell是一个命令解释器,接收用户/程序的操作/指令,然后将指令解析之后交给操作系统的内核来执行Shell本身也可以看作是一门编程语言,相对易于书写,灵活性很强Linux中提供了Shell解析器sh是bash的软链接,所以执行sh和使用bash的效果是相同的Centos中默认使用的是/bin/bash。
2024-04-18 18:33:49 875 1
原创 Linux(一)
编码:将字符按照指定规则映射成数字,这个过程就叫编码,记录映射过程的表格称之为编码表。编码:将字符按照指定规则映射成数字,这个过程就叫编码,记录映射过程的表格称之为编码表。监控指定文件(a.txt),如果文件中追加了新数据,能自动发现并打印这个数据。一个文件的时候,默认进入一般模式,在这种模式下,无法对数据进行修改或者插入。是Linux提供的用于输出的命令,类似于Java中的print。在Linux中,一个文件能否被看到,由它的父目录的权限决定。:查看文件头部的内容,默认是10行数据。
2024-04-18 17:45:24 1326 1
原创 大数据——Phoenix,Scala概述
Phoenix将类SQL在底层转化为HBase API操作来执行,所以Phoenix中的每一个字段对应了HBase的命令在Phoenix中,建表的时候需要指定一个或者多个字段作为主键,主键被映射成HBase的行键Phoenix在建表的时候,如果没有指定列族,那么这些列会默认被放入0列族注意:Phoenix会自动的将表明、列名等转化为大写形式,如果要保持小写形式,那么需要使用双引号来标记在HBase中,查询数据的时候,需要指定行键,通过行键来锁定数据。
2024-04-18 08:56:21 1078
原创 大数据——Scala 集合(二)
Scala中字符串同样分为可变字符串和不可变字符串,不可变字符串使用String来定义,可变字符串使用的是来定义。
2024-04-18 08:51:45 542
原创 大数据——Scala 集合
不可变数组定义好之后,长度不能发生变化,元素也不能增删;如果增删元素,那么会产生一个新的数组定义方式应用一应用二应用三练习:猴子报数。15只猴子围成一圈报数,报到数字7的猴子被淘汰,下一只猴子从1重新报数,最后剩余的是哪只猴子?可变数组()可变数组,类似于Java中的,长度可以发生变化,并且可以对数组中的元素来进行增删定义格式基本操作转换多维数组定义格式如果每一个一维数组等大,那么推荐使用第三种方式;如果包含的一维数组不等大,使用方式一;如果已
2024-04-17 19:27:59 1064 1
原创 大数据——Scala函数
将一段逻辑进行封装便于进行重复使用,被封装的这段逻辑就是函数。在Scala中,必须通过def来定义函数基本语法def 函数名(参数列表) : 返回值类型 = {函数体return 返回值案例// 案例:定义函数计算两个整数的和// 标准写法// 因为在Scala中,所有的结构都必须有返回值// 所以在函数中,如果不指定,默认会将最后一行的计算结果作为返回值// 也因此可以省略return不写a + b// 如果函数体只有一句话,那么此时也可以省略{}不写。
2024-04-17 19:01:12 795
原创 大数据——Scala面向对象
定义类表示矩形(Rectangle),提供对外获取周长(girth)和面积(area)的函数,并且为这个矩形类提供一个子类表示正方形(Square)
2024-04-17 18:56:30 917
开题报告springboot019高校心理教育辅导设计与实现开题报告
2024-04-20
MapReduce详解包括配置文件
2024-04-18
Hadoop简介以及配置文件
2024-04-18
HDFS详解和配置文件
2024-04-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人