十光年-CSDN博客

转载 Flume+Spark+Hive+Spark SQL离线分析系统

目录(?)[+]前段时间把Scala和Spark一起学习了，所以借此机会在这里做个总结，顺便和大家一起分享一下目前最火的分布式计算技术Spark！当然Spark不光是可以做离线计算，还提供了许多功能强大的组件，比如说，Spark Streaming 组件做实时计算，和Kafka等消息系统也有很好的兼容性；Spark Sql，可以让用户通过标准SQL语句操作从不同的数据源

2017-02-09 17:46:34 1443

转载 SparkStreaming自适应上游kafka topic partition数目变化

背景Spark Streaming 作业在运行过程中，上游 topic 增加 partition 数目从 A 增加到 B，会造成作业丢失数据，因为该作业只从 topic 中读取了原来的 A 个 partition 的数据，新增的 B-A 个 partition 的数据会被忽略掉。思考过程为了作业能够长时间的运行，一开始遇到这种情况的时候，想到两种方案：感知上游 to

2017-02-09 17:41:21 1494

转载 Kafka三款监控工具比较

文章来源：http://hadoop1989.com/2015/09/22/Kafka-Monitor_Compare/在之前的博客中，介绍了Kafka Web Console这个监控工具，在生产环境中使用，运行一段时间后，发现该工具会和Kafka生产者、消费者、ZooKeeper建立大量连接，从而导致网络阻塞。并且这个Bug也在其他使用者中出现过，看来使用开源工具要慎重！该Bug暂未得到

2017-02-09 17:14:54 8591 1

转载 Flume+Kafka+Storm+Redis实时分析系统基本架构

今天作者要在这里通过一个简单的电商网站订单实时分析系统和大家一起梳理一下大数据环境下的实时分析系统的架构模型。当然这个架构模型只是实时分析技术的一个简单的入门级架构，实际生产环境中的大数据实时分析技术还涉及到很多细节的处理, 比如使用Storm的ACK机制保证数据都能被正确处理, 集群的高可用架构, 消费数据时如何处理重复数据或者丢失数据等问题，根据不同的业务场景，对数据的可靠性要求以及系统的复

2017-02-09 17:08:45 1276

转载 Spark性能优化指南——基础篇

Spark性能优化指南——基础篇文章来源：http://tech.meituan.com/spark-tuning-basic.html李雪蕤 ·2016-04-29 14:00前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应

2017-02-09 09:26:58 319

转载基于Spark的公安大数据实时运维技术实践

文章来源：https://www.iteblog.com/archives/1956.html公安行业存在数以万计的前后端设备，前端设备包括相机、检测器及感应器，后端设备包括各级中心机房中的服务器、应用服务器、网络设备及机房动力系统，数量巨大、种类繁多的设备给公安内部运维管理带来了巨大挑战。传统通过ICMP/SNMP、Trap/Syslog等工具对设备进行诊断分析的方式已不能满

2017-02-09 08:36:52 1072

转载彻底删除kafka的topic方法

1、删除kafka存储目录（server.properties文件log.dirs配置，默认为"/tmp/kafka-logs"）相关topic目录2、Kafka 删除topic的命令是：kafka/bin/kafka-topics.sh --delete --zookeeper Zookeeper地址 --topic 主题名称如果kafaka启动时加载的配置文件中server.p

2017-02-07 22:22:57 21857

原创带有状态的SparkStreaming单词计数程序

在另外一篇《SparkStreaming的入门级程序：WordCount》文章中，只是统计每一个批次的数据，是不带状态的单词计数程序，使用的是reduceByKey()方法，它只能统计当前批次的单词个数，而不会累加上一个批次的单词个数；而带有状态的单词计数程序会累加上个批次的单词个数，它使用的则是updateStateByKey()方法。在pom.xml文件中引入一下依赖：

2017-02-07 18:15:21 1167

转载 spark性能优化：数据倾斜调优

Spark数据倾斜调优文章来源：http://blog.csdn.net/LW_GHY/article/details/51419877调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜

2017-02-07 17:57:38 300

原创 NTP时间同步

Linux时间同步设置时区cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime联网情况：ntpdate us.pool.ntp.org修改时间date -s 11:21:00查看NTP状态service ntpd statusyum install -y ntpdchkconfig ntp

2017-02-07 08:37:23 475

原创跟天齐老师学Spark（8）--Spark RDD综合练习

综合练习:通过基站信息计算家庭地址和工作地址需求：根据手机信号来计算其所在的位置手机一开机，就会和附近的基站建立连接，建立连接和断开连接都会被记录到服务器上的日志，所以即使没手机有开启网络或者GPS,也可以定位手机所在的位置。基站都有一定的辐射范围，并且根据信号强度有不同的信号级别，比如2G、3G和4G信号。我们虽然不知道手机用户所在的具体位置，但是我们知道基站的位置，

2017-02-06 23:09:50 2499

原创跟天齐老师学Spark（7）--关于Spark的RDD

关于spark的RDD：关于RDD，可以查看官方文档，可以看作者的论文，也可以看spark源码中关于RDD的注释。按Ctrl+N快捷键，搜索RDD，进入源码，如果没有关联源码，在IDEA中右上角会有一个提示："Attach Sources".在IDEA中关联spark的源码，首先解压下载好的spark源码包（spark-1.6.2.tgz），然后在IDEA中选择右上角的Atta

2017-02-06 23:06:19 468

原创跟天齐老师学Spark（6）--Spark的常用算子介绍

spark的常用算子介绍：Resilient（弹性且可复原） Distributed（分布式） Datasets（数据集） (RDDs)我们以前学的scala的原生方法都是数组或者集合上定义的，它只能操作单机。而spark中的方法都是定义在RDD上的，它们操作的是集群。spark的方法有两类操作：一种是：Transformations，它是lazy的，不会触发任务的执行

2017-02-06 23:04:38 1149

原创跟天齐老师学Spark（5）--使用IDEA开发Spark程序

使用IDEA开发spark程序:补全的快捷键："Ctrl+Alt+v"下面是提交spark程序到spark集群上运行的命令：spark/bin/spark-submit \--master spark://hadoop01:7077,spark://hadoop02:7077 \--executor-memory 512m --total-executor-cores 7

2017-02-06 23:00:50 764

原创跟天齐老师学Spark（4）--Spark整合hdfs

spark整合hdfs：需求：从hdfs中读取数据，用spark计算，再写到hdfs中。启动zookeeper；启动hadoop的hdfs；然后启动spark（我们这里就不启动高可用集群了，这里只启动一个Master）；向spark集群提交任务；spark-shell中写的程序仅仅是做实验；实际开发中，是先在IDE中开发spark程序，然后打包，提交到集群。然后用

2017-02-06 23:00:02 710

原创跟天齐老师学Spark（3）--搭建Spark环境

搭建spark环境（伪分布式，在虚拟机上用一台机器来编写一个spark程序）：Spark解压就能用。首先spark环境，首先要按照jdk，但可以不用按照scala环境。下载的spark最好是和hadoop版本匹配的spark版本，比如：spark-1.6.2-bin-hadoop2.6.tgz;需要自己使用maven来编译（后面会讲）。使用bin目录下的spark-sh

2017-02-06 22:53:35 688

原创跟天齐老师学Spark（2）--spark基础概念

spark基础概念：2014年才成为Apache的顶级项目，距今才两年。但是发展迅速。spark是基于内存的计算，现在搞spark的，现在内存都不是问题，腾讯现在的集群达到上万台，每台机器都是100多G的内存。内存不够还可以落磁盘。spark的优点：中间结果可以在内存中，而MapReduce中间结果落磁盘。spark是hadoop的一个替代方案，但是它只能替代MapReduce

2017-02-06 22:52:50 421

原创跟天齐老师学Spark（1）--Spark简介

spark官网：http://spark.apache.orgSpark其实是一个大数据计算引擎，只能解决计算的问题，它需要依赖数据的存储系统；Spark不会取代Hadoop，因为Hadoop不仅是解决了计算的问题，它还解决了存储的问题；spark是apache旗下的一个开源框架。它的logo：快如闪电的一个集群。用来做大规模的数据计算处理。在2016年7月出来spark-

2017-02-06 22:51:10 379

项目概述.mp4;微架构概念.mp4;微架构及选型.mp4;目录文件介绍.mp4;项目运行.mp4;构建发布到Linux.mp4;开发环境运行.mp4;服务网关介绍.mp4;使用服务网关.mp4;网关路由规则.mp4;网关路由配置.mp4;网关限流配置.mp4;网关熔断降级.mp4;网关跨域配置.mp4;网关黑名单配置.mp4;网关白名单配置.mp4;网关全局过滤器.mp4;网关实现Sentinel限流.mp4;Sentinel分组限流.mp4;Sentinel自定义异常.mp4;网关模块详解.mp4;认证中心介绍.mp4;登录认证实现.mp4;刷新令牌实现.mp4;系统退出实现.mp4;注册中心介绍.mp4;Nacos下载方式.mp4;注册中心使用.mp4;注册中心示例.mp4;配置中心介绍.mp4;配置中心使用.mp4;配置动态刷新.mp4;配置mysql支持.mp4;配置集群部署.mp4;控制台使用.mp4;Nacos项目相关使用.mp4;服务调用介绍.mp4;服务调用使用.mp4;开启Gzip压缩.mp4;连接池配置.mp4;请求日志配置.mp4;.........(省略)

2022-09-27

房屋出租合同范本.docx

房屋出租合同范本出租方：______(以下简称甲方) 承租方：______(以下简称乙方) 身份证：_________________ 身份证：_________________ 根据甲、乙双方在自愿、平等、互利的基础上，经协商一致，为明确双方之间的权利义务关系，就甲方将其合法拥有的房屋出租给乙方使用，乙方承租甲方房屋事宜，订立本合同。一、房屋地址：_______________________.用于普通住房。二、租赁期限及约定 1、该房屋租赁期共一年。自_____年_____月_____日起至_____年_____月_____日止。 2、房屋租金：每月_____元。按月付款，每月提前五天付款。另付押金_____元，共计______元。 (大写：_____万_____仟_____佰_____拾_____元整) 房屋终止，甲方验收无误后，将押金退还乙方，不计利息。 3、乙方向甲方承诺，租赁该房屋仅作为普通住房使用。。。。。。

2022-11-27

加兰新版移动端UI设计.zip

一套完整的电商App手机端UI设计图，包括首页，登录注册，商品管理，订单管理，用户中心等等；

2019-11-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

十光年的博客