2018年11月_道法—自然

原创 MapReduce中各个阶段的分析

MapReduce中各个阶段的分析：在MapReduce的各个阶段：在文件被读入的时候调用的是Inputformat方法读入的。inputformat——>recordreader——>read（一行）。在这里读入一行，返回的是(k,v）的形式，key是行号的偏移量，value的值是这一行的内容。在上述的过程中，之后是调用map方法，将以上内容转换成正真的（key，v...

2018-11-30 23:56:16 14111 10

原创 Google三大理论（论文）

Google引爆大数据时代的三篇论文谈到Hadoop的起源，就不得不提Google的三驾马车：Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码，但是他发布了这三个产品的详细设计论文，奠定了风靡全球的大数据算法的基础！一，GFS—-20032003年，Google发布Google File System论文，这是一个可扩展的分布式文件系统...

2018-11-30 23:55:49 1569

原创 MapReduce写代码的流程,以及需要继承的超类

package tq;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.ScanPerformanceEvaluation.MyMapper;import org....

2018-11-30 23:55:33 1697

原创 MapReduce中计算Wordcount中map端及reduce端的设置

map端的设置： package wordcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hado...

2018-11-30 23:55:18 234

原创 mapreducde中的超类

package com.sxt.hadoop.mr;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apa...

2018-11-30 23:52:36 203

原创明日学习

MapReduce中的超类MapReduce的计算流程，几个partition，merge，sort基于yarn的模式SQL 语句

2018-11-30 00:35:20 229

原创 Kafka 源代码分析之LogSegment

这里分析kafka LogSegment源代码通过一步步分析LogManager,Log源代码之后就会发现,最终的log操作都在LogSegment上实现.LogSegment负责分片的读写恢复刷新删除等动作都在这里实现.LogSegment代码同样在源代码目录log下.LogSegment是一个日志分片的操作最小单元.直接作用与messages之上.负责实体消息的读写追加等等.Log...

2018-11-30 00:29:41 214

原创 kafka中配置参数的说明

每个kafka broker中配置文件server.properties默认必须配置的属性如下：broker.id=0 num.network.threads=2 num.io.threads=8 socket.send.buffer.bytes=1048576 socket.receive.buffer.bytes=1048576 socket.request....

2018-11-30 00:23:01 698

Kafka架构是由producer（消息生产者）、consumer（消息消费者）、borker(kafka集群的server，负责处理消息读、写请求，存储消息，在kafka cluster这一层这里，其实里面是有很多个broker)、topic（消息队列/分类相当于队列，里面有生产者和消费者模型）、zookeeper(元数据信息存在zookeeper中，包括：存储消费偏移量，topic话题信息，p...

2018-11-30 00:12:35 744

原创 kafka 的学习

kafka是什么？使用场景？ kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式，先进先出（FIFO）保证顺序，自己不丢数据，默认每隔7天清理数据。消息列队常见场景：系统之间解耦合、峰值压力缓冲、异步通信。kafka生产消息、存储消息、消费消息Kafka架构是由producer（消息生产者）、consumer（消息消费者）、borker(kafka集群的server，负...

2018-11-29 23:59:38 215

原创 kafka的存储机制与查询机制

Kafka中的Message是以topic为基本单位组织的，不同的topic之间是相互独立的。每个topic又可以分成几个不同的partition(每个topic有几个partition是在创建topic时指定的)，每个partition存储一部分Message。借用官方的一张图，可以直观地看到topic和partition的关系。partition是以文件的形式存储在文件系统中，比如，创建...

2018-11-29 21:19:58 452

原创 kafka怎么做到不丢失数据，不重复数据，以及kafka中的数据是存储在什么地方的？

昨天面试中被问到kafka怎么做到对于数据的不丢失，不重复。首先怎么做到不重复消费呢？在kafka的消费中，我们一般使用zookeeper充当kafka的消费者，去消费kafka中的数据。那么怎么做到不重复消费呢？假如消费了一段时间之后，kafka挂掉了，这时候需要将sparkstreaming拉起来，然后继续进行消费。那么这时候是不是又进行从头开始消费了呢？不是的，因为kafka中有一个...

2018-11-29 20:36:23 5526 1

原创思特奇笔试题

2018-11-28 23:06:45 3720 4

原创中科京安面试笔试题

面试中：1、ES数据库中，需要查询中分字符，是怎么切分的，怎么查找的2、 sparkstreaming消费kafka中的数据，两个消费者同时消费一个partition行中的数据的情况3、sparkstreaming消费数据，可不可以消费文件数据，或者数据库中的数据。...

2018-11-28 23:03:06 656

原创百度面试总结

1、MapReduce的流程几个shuffle，几个partition，几次落地磁盘，在combiner里边都做了什么事情在切分的时候，1029M会切分成几个切片2、怎么能够确保消费kafka中的数据不重复，也不丢失不重复可以通过设置zookeeper保存offset来设定如果sparkstreaming消费kafka中的数据，消费了一部分之后发现数据处理的有问题，需要重新做处...

2018-11-28 22:58:59 353

原创猎豹移动面试题

1、问项目，问的比较细。 2、讲述几个算子，transformation算子，action算子3、写二分查找4、中序遍历二叉树5、求PV,UV6、讲几个算子7、求网站的留存，id action time1 1 11.002 0 11.00业务要求是七天之前登录这个网站的有多...

2018-11-28 21:51:25 1260

原创 Redis 中缓存雪崩优化

redis挂了，客户端直接请求到数据库里面。数据库负载非常高。甚至数据库拖挂了。优化方法： 1、保持缓存层服务器的高可用。 –监控、集群、哨兵。当一个集群里面有一台服务器有问题，让哨兵踢出去。 2、依赖隔离组件为后端限流并降级。比如推荐服务中，如果个性化推荐服务不可用，可以降级为热点数据。 3、提前演练。演练缓存层crash后，应用以及后端的负载情况以及可能出现的问题。 ...

2018-11-28 00:04:43 195

原创关于kafka的一点理解

在sparkstreaming 中消费kafka中的数据，用zookeeper去记录消费者偏移量，这个是kafka 0.9以前的，0.9以后，kafka中的broker会自己记录消费者偏移量的。首先我要纠正一下，Kafka只是缓存中间件，它本身不消费数据，说Kafka消费不过来数据，本身在概念上就错了，如果生产者生产的数据Kafka处理不了，首先想到的应该是增加topic的分区数，增加并发写...

2018-11-27 23:38:07 198

原创 11.27号面试总结

1、在ES数据库中做查询，如果字段是中文的，怎么分词，怎么查询，以及怎么匹配？2、我们一般做数据处理，数据来源于kafka，sparkstreaming去消费kafka中的数据，那如果消费的是文件，或者数据库中的数据，这种情况怎么消费，怎么处理？能否举个例子，数据量多大，花了多长时间？3、spark优化只有sparkstreaming有优化，sparkSQL没有优化。4、面试被问到做数...

2018-11-27 23:30:05 257 1

原创关于kafka的一点理解

今天面试问到同一个消费者组中的不同消费者消费同一个kafka中的数据，怎么消费的。我的理解是这种情况是不行的，为什么，因为这样消费会造成消费重复。但是他举得例子是就如同买报纸，谁先到谁先买。我后来问别人，这种情况确实不行。但是不同消费者组内的消费者可以消费同一个partition中或者同一个topic中的消息，各人消费各人的，互不影响。同一个消费者组内的只能称为消费线程，消费线程和pa...

2018-11-27 23:13:35 112

原创 kafka一直重复消费消息

大概意思是1、kafka conusmer会拉取一批消息，然后进行处理，但在代码中sleep了5000MS，consumer在session.timeout.ms（15000MS）时间之内没有消费完成consumer coordinator会由于没有接受到心跳而挂掉2coordinator挂掉了，然后自动提交offset失败，然后重新分配partition给客户端3、由于自动提交off...

2018-11-27 23:04:12 2818

原创面试总结

问大家两个问题:1.flume收集数据打到kafka中，数据量太大了，kafka消费不了，这种情况怎么办。-------增加消费组的消费者个数，提高并行度补充:经过了压缩，高效的序列化以后，io和cpu都打满的情况下，只能增加机器。2.kafka消费数据，用sparkstreaming来消费，怎么能够做到不同的消费者看不到其他的数据，做到权限控制。-----你是不同的消费组还是不同的消费...

2018-11-26 23:40:33 197

原创 linux系统主流的几个版本有什么区别？

1、Arch Linux也许 Arch 最主要的特点之一就是，它是一个独立的开放源代码的发行版（这意味着它不基于任何其他的发行版），由于 Arch 采用滚动发布模式，因此你只要使用 pacman 执行定期的系统更新就可以获得最新的软件。2、 CentOS虽然社区企业操作系统（Community ENTerprise Operating System）是用于 Linux 服务器的最有名、最常用的...

2018-11-26 23:19:55 13904 2

原创结构化数据、非结构化数据、数据清洗等概念

（1）结构化数据，简单来说就是数据库。结合到典型场景中更容易理解，比如企业ERP、财务系统；医疗HIS数据库；教育一卡通；政府行政审批；其他核心数据库等。这些应用需要哪些存储方案呢？基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。（2）非结构化数据库是指其字段长度可变，并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库，用它不仅可以处理结构化数据（如数字、符号...

2018-11-26 23:08:08 6790 1

原创面试中问到公司硬件系统问题

型号 CPU 内存硬盘 read显卡 NF5270M4 2*E5-2620V4 64G 3*1.8TSAS10K 0820RAID 1000M*2 双电导轨价格是38400 NF5270M4 2*E5-2640V4 64G 3*1.8TSAS10K 08...

2018-11-26 22:41:48 354

原创 Flume开发中常用组件source,channel,sink等配置

实际开发中Flume中常用的source源，sink，channel，intercepertor等介绍，而实际上关于agent代理中设置选项有很多，具体要到官网去查看。组件使用介绍 source 数据源 Avro ...

2018-11-26 22:25:31 465

原创面试中遇到的问题

1、我们经常在使用flume的过程后中，会用flume去收集数据，然后打到kafka中去。但是有一个问题，当flume中收集的数据量太大的时候，打到kafka中，kafka一时半会消费不了，就会造成数据堆积，怎么截距这种问题呢？解决方案：可以通过设定参数这种方式，但是在这里这种方式显然已经不可行了，数据量太大了。这种情况下可以通过给flume设定拦截器的方式，来解决这种问题。 2、kafka...

2018-11-26 22:06:20 170

原创 HBASE中rowkey的设计原则

Rowkey 设计三原则 1、 rowkey 长度原则　　Rowkey 是一个二进制码流，Rowkey 的长度被很多开发者建议说设计在 10~100 个字节，不过建议是越短越好，不要超过 16 个字节。　　原因如下：　　　　1、数据的持久化文件 HFile 中是按照 KeyValue 存储的，如果 Rowkey 过长比如 100 个字节，1000 万列数据光 Rowkey ...

2018-11-25 23:18:31 325

原创 HBASE学习要点

几个需要刷新的数据库：在MySQL中，如果是Linux系统的模式，就涉及到刷新操作在Redis内存数据库中，如果删除数据，也是需要进行刷新操作的在HBASE数据库中，如果是创建表，并且添加数据，也是需要进行刷新的，只有进行刷新操作之后，数据才会被刷新到磁盘上。HBASE中涉及到zookeeper，因此在创建于配置中，就涉及到zookeeper的配置在HBASe中想查看整个表的数...

2018-11-25 23:11:54 118

原创 HBASE中的列及列族

在hive中，数据的存储是按照列的形式存储的。hive中的列分为列族和列的限定符。在hive中，列族必须作为表的模式预先给出。列名可以以列族作为前缀，每个列族可以有多个成员。新的成员可以随后按照需要动态加入。HBASE中的单元格： HBASE中的单元格是由行，列族，列的限定符，值和代表值版本的时间戳组成的。cell中的数据是没有类型的，全部是按照字节码的形式存储的。时间戳：...

2018-11-25 21:27:29 30646 2

原创 hive的严格模式

hive严格模式 hive提供了一个严格模式，可以防止用户执行那些可能产生意想不到的不好的效果的查询。即某些查询在严格模式下无法执行。通过设置hive.mapred.mode的值为strict，可以禁止3中类型的查询。1）带有分区的表的查询如果在一个分区表执行hive，除非where语句中包含分区字段过滤条件来显示数据范围，否则不允许执行。换句话说，...

2018-11-25 20:53:12 372

原创 hive的严格模式

在hive里面可以通过严格模式防止用户执行那些可能产生意想不到的不好的效果的查询,从而保护hive的集群。用户可以通过 set hive.mapred.mode=strict 来设置严格模式，改成unstrict则为飞严格模式。在严格模式下，用户在运行如下query的时候会报错。1. 分区表的查询没有使用分区字段来限制。select * from mart_catering...

2018-11-25 20:52:45 431

原创 hive中动态分区与静态分区

from part0insert into table part1 partition (sex) select *;hive中的分区有两种：动态分区和静态分区一、静态分区：静态分区 1、创建分区表hive (default)> create table order_mulit_partition( > order_number...

2018-11-25 20:38:13 2849

原创 udf,udaf,udtf之间的区别

1、UDF：用户定义（普通）函数，只对单行数值产生作用；继承UDF类，添加方法 evaluate() /** * @function 自定义UDF统计最小值 * @author John * */ public class Min extends UDF { public Double evaluate(Dou...

2018-11-25 17:57:25 25423

原创 hive中建表语句

hive中一共有以下几种建表方式：create table person(id int,name string,hobbies array<string>,address map<string,string>)row format delimitedfields terminated by ',';collection items terminate...

2018-11-25 17:52:21 1138

原创 Redis数据库和MySQL数据库的区别

Redis是一个内存数据库，每次删除或者其他操作，都需要进行flush操作MySQL数据库在Linux系统中，也是需要进行flush操作的。在hive中，需要将MySQL的jar包导入，然后要用高版本的jar包去替换低版本的jline包的。hive客户端：主要配置以下文件：1、将hive文件包上传分发，安装2、配置/ETC/PROFILE3、修改hive-site.xm...

2018-11-25 14:55:47 5043 1

原创 MapReduce总结

MapReduce：在数据被切分以后，进入map阶段，会向环形缓冲区中写入数据。环形缓冲区的大小默认是100m，split的大小默认是128M。在环形缓冲区中一边写入数据，一边写入这些数据的索引。当达到80%以后，这部分会被锁定，往剩下的20%中写入数据，一边写入索引，一边写入数据。这样值循环。假如缓冲区都写满了，数据还没有溢写到磁盘，那么map就会阻塞，不再往里边写数据了。map端溢写的时...

2018-11-25 12:17:17 292

原创 MapReduce的工作原理

前言：前段时间我们云计算团队一起学习了hadoop相关的知识，大家都积极地做了、学了很多东西，收获颇丰。可是开学后，大家都忙各自的事情，云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下，我们云计算团队重振旗鼓了，希望大伙仍高举“云在手，跟我走”的口号战斗下去。这篇博文就算是我们团队“重启云计算”的见证吧，也希望有更多优秀的文章出炉。汤帅，亮仔，谢总•••搞起来啊！呵呵，下面我们进入正题...

2018-11-24 23:58:29 188

原创 hdfs读取数据的流程

客户端通过调用FileSystem对象的open()来读取希望打开的文件。对于HDFS来说，这个对象是分布式文件系统的一个实例。 DistributedFileSystem通过RPC来调用namenode，以确定文件的开头部分的块位置。对于每一块，namenode返回具有该块副本的datanode地址。此外，这些datanode根据他们与client的距离来排序（根据网络集群的拓扑）。如果该cl...

2018-11-24 23:04:06 1162

空空如也

空空如也