大数据求索
文章平均质量分 78
大数据基础学习,用于记录和分享学历历程
腾云丶
这个作者很懒,什么都没留下…
展开
-
大数据求索(15): Redis的复制原理详解
大数据求索(15): Redis的复制原理一、Redis中的复制基于Redis的复制,可以非常容易的配置和实现主从复制:从节点成为主节点的精确副本。Redis能够实现在连接断开时,从节点自动尝试连接主节点,并进行部分同步,使和主节点数据保持一致。在主从复制模式下,Master以写为主,Slave以读为主。Redis中的复制的正常运行主要依赖下面三种机制:当一个 master 实例和一个 ...原创 2019-01-06 14:02:12 · 366 阅读 · 2 评论 -
大数据求索(14): Redis的持久化详解
大数据求索(14): Redis的持久化详解一、Redis的持久化Redis提供了两种不同的持久化方式:RDB(Redis DataBase)持久化,以指定的时间间隔对数据集进行时间点快照的保存AOF(Append only File)持久化,以日志的形式,记录服务器收到的每个写操作,不保留读操作。在服务器重启的时候,会重新顺序执行一遍写操作,以恢复数据。这两种方式可以单独开启,也可...原创 2018-12-25 15:47:10 · 171 阅读 · 0 评论 -
大数据求索(13): Redis数据类型详解
大数据求索(13): Redis数据类型详解一、Redis五大数据类型Redis总共有五大数据类型,分别包括以下内容:String(字符串)Hash(哈希)List(列表)Set(集合)ZSet(有序集合)丰富的数据类型使得Redis能够在非常多的场景下发挥巨大的作用,下面对这五种数据类型分别作详细介绍。二、String2.1 重要概念String是redis最基本的类型...原创 2018-12-25 12:48:23 · 418 阅读 · 0 评论 -
大数据求索(12): 从传统ACID到分布式系统中的CAP和BASE
大数据求索(12): 从ACID到CAP和BASE一、关于ACID关系型数据库最强大的功能之一就是事务,能够保证数据的强一致性。事务有如下几个特性:1.1 A(Atomicity) 原子性原子性很容易理解,也就是说**事务里的所有操作要么全部做完,要么都不做,事务成功的条件是事务里的所有操作都成功,只要有一个操作失败,整个事务就失败,需要回滚。**比如银行转账,从A账户转100元至B账户,...原创 2018-12-24 21:55:56 · 310 阅读 · 0 评论 -
大数据求索(11): 为什么选择NoSQL
大数据求索(11): 为什么选择NoSQL一、背景1.1 单机MySQL起初互联网网站访问量一般都不打,用单个数据库可以轻松应付。此外,刚开始的网站大多数是静态网页,动态交互类型的网站不多。在此种架构模式下,数据存储的瓶颈是什么呢?数据量的总大小,一个机器放不下时数据的索引(B+Tree)一个机器的内存放不下时访问量(读写混合)一个实例不能承受时这种情况下,就需要进行改进。...原创 2018-12-24 16:29:09 · 716 阅读 · 0 评论 -
大数据求索(10): 解决ElasticSearch中文搜索无结果------ik分词器的安装与使用
大数据求索(10): 解决ElasticSearch中文搜索无结果-----IK中文分词器的安装与使用问题所在在中文情况下,ES默认分词器会将汉字切分为一个一个的汉字,所以当搜索词语的时候,会发现无法找到结果。解决办法有很多其他的分词器插件可以替代,这里使用最常用的IK分词器。IK分词器安装注意:ik分词器必须和ES版本严格对应,否则可能会产生意料之外的错误。Github地址:...原创 2018-12-22 16:46:15 · 2915 阅读 · 0 评论 -
大数据求索(9): log4j + flume + kafka + spark streaming实时日志流处理实战
大数据求索(9): log4j + flume + kafka + spark streaming实时日志流处理实战一、实时流处理1.1 实时计算跟实时系统类似(能在严格的时间限制内响应请求的系统),例如在股票交易中,市场数据瞬息万变,决策通常需要秒级甚至毫秒级。通俗来说,就是一个任务需要在非常短的单位时间内计算出来,这个计算通常是多次的。1.2 流式计算通常指源源不断的数据流过系统,系...原创 2018-12-16 18:39:00 · 644 阅读 · 0 评论 -
大数据求索(8):Spark Streaming简易入门一
大数据求索(8):Spark Streaming简易入门一一、Spark Streaming简单介绍Spark Streaming是基于Spark Core上的一个应用程序,可伸缩,高吞吐,容错(这里主要是借助Spark Core的容错方式)处理在线数据流,数据可以有不同的来源,以及同时处理不同来源的数据。Spark Streaming处理的数据可以结合ML和Graph。Spark Stre...原创 2018-12-09 20:46:44 · 421 阅读 · 0 评论 -
# 大数据求索(7): Kafka的重要原理和概念二与实战
大数据求索(7): Kafka的重要原理和概念二大数据最好的学习资料是官方文档。Kafka官方文档地址:http://kafka.apache.org/四、Kafka高效性相关设计4.1 消息的持久化Kafka高度依赖文件系统来存储和缓存消息,一般的人认为磁盘是缓慢的,这导致人们对持久化结构具有竞争性持怀疑态度。其实,磁盘远比你想象的要快或者慢,这决定于我们如何使用磁盘。一个和磁盘...原创 2018-12-09 18:54:04 · 725 阅读 · 0 评论 -
大数据求索(7): Kafka的重要原理和概念一
大数据求索(7): Kafka的重要原理和概念一大数据最好的学习资料是官方文档。Kafka官方文档地址:http://kafka.apache.org/一、Kakfa简介Apache kafka 是一个分布式的基于push-subscribe的消息系统,它具备快速、可扩展、可持久化的特点。它现在是Apache旗下的一个开源系统,作为hadoop生态系统的一部分,被各种商业公司广泛应用。...原创 2018-12-09 16:47:28 · 2189 阅读 · 0 评论 -
大数据求索(6): 使用Flume进行数据采集单机监控端口、监控文件、跨节点等多种方式
大数据求索(6): 使用Flume进行数据采集大数据最好的学习资料是官方文档。Flume官方文档地址http://flume.apache.org/Flume简单介绍Flume是一种分布式的、可靠的且可用的服务,用于高效收集、聚合和移动大量日志数据。它具有基于流式数据的简单灵活架构。它具有可靠性机制和许多故障转移和恢复机制,具有强大的容错能力。它使用简单的可扩展数据模型,允许在线分析应...原创 2018-12-09 11:39:10 · 1067 阅读 · 0 评论 -
大数据求索(5):Windows下使用IDEA开发Kafka程序和服务器通信失败问题
问题描述在windows下使用IDEA开发完生产者程序以后,在服务器端开启消费者进程,发现发送失败,无法进行通信,报错如下:kafka .FailedToSendMessageException: Failed to send messages after 3 tries大概意思便是尝试3次发送消息都失败了,那么是什么原因呢?排查很久,代码没有问题,问题应该是出在找不到服务器上。解决办...原创 2018-12-06 13:59:05 · 321 阅读 · 0 评论 -
大数据求索(4):配置Spark History Server
大数据求索(4):配置Spark History Server修改配置文件修改conf/spark-default.confcp spark-default.conf.template spark-default.confvim spark-default.conf属性说明(1) spark.eventLog.enabled。是否记录Spark事件,用于应用程序在完成后的筹...原创 2018-12-03 21:37:27 · 171 阅读 · 0 评论 -
大数据求索(4):Hive安装和使用
Hive安装和使用Hive环境搭建Hive下载wget https://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gz解压tar -zxvf hive-1.1.00cdh5.7.0.tar.gz -C ~/APP/Hadoop环境配置系统环境变量配置(vim ~/.bash_profile)expor...原创 2018-10-05 22:11:07 · 1220 阅读 · 0 评论 -
大数据求索(3):实战MapReduce
MapReduce 概述主要用于离线、海量数据运算WordCount编写下面这张经典图很好地说明了如何编写一个WordCount,也清楚说明了MapReduce的流程对于输入的一个文本(可以存放在HDFS上,可以非常非常大),先对文件进行拆分,假设这里一行一份,对于每一行,按空格进行切分,然后给每个单词赋初值为1,这里同一个map里有相同的单词,也是不会覆盖的,会保留两个(word, 1...原创 2018-10-02 21:53:56 · 1273 阅读 · 0 评论 -
大数据求索(2):yarn的配置与使用
yarn的架构1) Resourcemanager: RM整个集群同一时间提供服务的RM只有一个,负责集群资源的统一管理和调度处理来自客户端的请求,比如提交一个job,杀死一个job等监控NM,一旦某个NM挂了,那么该NM上运行的任务需要告诉AM来如何进行调度NodeManager:NM整个集群中可以有多个,负责结点自己本身的资源管理和使用定时向RM汇报结点自身的资源使用...原创 2018-10-02 20:29:55 · 1588 阅读 · 0 评论 -
大数据求索(1):HDFS安装指南
title: 大数据求索(1):HDFS安装指南date: 2018-09-28 15:41:07tags:大数据HDFS大数据求索(1):HDFS安装指南背景HDFS是分布式文件系统,是Hadoop的基础,本章主要介绍如何安装HDFS。环境参数centos 6.5hadoop2.6.0-cdh5.7.0jdk8伪分布式安装一、JDK安装下载 wget...原创 2018-09-28 18:01:26 · 1299 阅读 · 1 评论