自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Spark Streaming 性能调优

设置合理的CPU很多情况下Streaming程序需要的内存不是很多,但是需要的CPU要很多。在Streaming程序中,CPU资源的使用可以分为两大类:(1)、用于接收数据;(2)、用于处理数据。我们需要设置足够的CPU资源,使得有足够的CPU资源用于接收和处理数据,这样才能及时高效地处理数据。A.关于接受数据的调优说明a.通过网络接收数据时(比如Kafka、Flume、ZMQ、Ro...

2019-10-09 23:22:18 206

原创 sparkstreaming概要(一)

1.SparkStreaming,是Spark生态栈中的一个能够用于进行实时计算的模块。实时计算的典型代表框架就是apache storm,准实时计算的典型代表框架就是SparkStreaming,现在由有开始流行Flink(时间延迟介于storm和sparkStreaming之间)Spark Streaming是Spark Core API的一种扩展,它可以用于进行大规模、高吞吐量、容错的...

2019-10-09 23:18:24 176

原创 Hive基础知识记要 (四)之hive优化

hive的优化1.排序:order by 全局排序 默认hive中 1reducetasksort by 局部排序 每一个reducetask内部做排序set reducetasks=3字段.hash % 3 随机1 zs f 23 cs reducetask01 zs f 23 cs reducetask11 zs ...

2019-10-08 11:11:32 478

原创 Hive基础知识记要 (三)

关于内置函数的核心使用策略:1、查看有那些内置函数show functions;2、查看某个函数的具体使用手册 desc function extended substring;3、编写测试用例 select xxxx();特殊的常用的内置函数:substring instr concat split length size array_containsmax min di...

2019-10-08 11:09:42 262

原创 Hive基础知识记要 (二)

利奇马 台风周二 ddl dml 补充:select周五 hive 调优 常见的面试题 建表设计 哲学第一部分:大数据: 处理: 存储 计算 系统 文件系统 计算系统 操作系统 数据库系统单机的:都是直接只依赖于一台物理机win7 NTFS 各种应用程序qq,eclipse win7的内核 mysql分布式的:都是一堆物理机组成的一个逻辑整体h...

2019-10-08 01:08:57 178

原创 Hive基础知识记要 (一)

1.hive是什么翻译器:提供sql(hql)编程 最终底层将sql语句转换为mr任务的,hive表中数据存储在hdfs的数据仓库facebookhive是hadoop的另一种形式的客户端 sqlhive的数据存储:hive存储数据的库 表之分1)表中的数据 这个数据底层存储hdfs的文件1303 3001 谢雨泽 95 96 981303 3002 陈倍光 95 96...

2019-10-08 00:21:08 560

原创 zookeeper 基础知识记要

zookeeper 就是做分布式一致性1.产生背景任务 100个节点 集群分布式情景下 如何实现数据一致性?一致性:强一致性:写入什么 就读到什么例如:从任意一个节点写入数据 其他节点读取到写入后的数据集群中只有一个节点 一致性最强的 集群中节点个数越多 强一致性越难保证弱一致性:写入什么 尽量保证读到什么不保证最终读取的结果一定对的最终一致性:弱...

2019-10-07 14:31:38 505

原创 yarn(资源调度)基础知识点记要

(Yet Another Resource Negotiator,另一种资源协调者)1.产生背景hadoop1hdfs 分布式存储mapreduce 分布式计算 编程套路+计算流程运行计算任务的时候jobtracker 计算老大 主节点 单点故障1)既要负责整个集群的资源调度一个集群中 执行多个mr任务2)还要负责任务启动 以及进度跟踪启动mapreduce任...

2019-10-05 00:53:59 273

原创 MapReduce知识点记要

前言思考题:1.一个超级大的文件 里面存储url 一行一个 求出现次数最多的url小文件:每一个url出现的次数1.定义一个流 输入流 读取文件2.定义一个容器 map《url,次数》3.读取 放在 map集合中 计数key是否存在存在value+1不存在key,1出现次数最多的<a,3 b,4 c,10>大文件:将文件进行切...

2019-10-05 00:20:52 668

原创 HDFS分布式存储文件 核心设计

1.心跳机制 master和slave之间通过ipc服务通信,通信有固定是时间周期(默认3秒),称之为心跳。​ dfs.heartbeat.interval:配置心跳时间​ slave超时时间的计算:(默认2倍检查时间+10倍心跳间隔)timeout = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.hear...

2019-10-04 17:34:04 144

原创 HDFS分布式存储文件基础知识点记要

大数据的四个特性数据量大种类多速度快: 产生数据的速度快,要求时延小价值高: 整体价值,单条记录没有价值2.什么是hadoop大数据存储和计算的一整套解决方案,软件平台3.hadoop的核心组件Common(基础设施)HDFS: 分布式的文件系统(海量数据的存储)MapReduce: 分布式的计算框架(海量数据离线运算)Yarn: 分布式资源调度系统(2.x)...

2019-10-04 16:41:42 212

翻译 计算机网络通信协议相关笔记

1.协议的三要素是:语法、语义、顺序2.DNS:域名系统(英文:Domain Name System)作用:将域名和IP地址相互映射的一个分布式数据库。3.HTTPDNS:自己搭建基于HTTP协议的DNS集群。客户需要DNS解析时直接请求集群得到就近地址。手机中安装HTTPDNS的客户端SDK,维护解析列表(类似hosts文件)4.HTTP:HyperText Transfer Prot...

2019-09-08 16:45:16 335

转载 scala简介 (一)

1.Scala 是 Scalable Language 的简写,是一门多范式的编程语言。(注:多范式,就是多种编程方法的意思。有哪些编程方法呢?目前说来,有面向过程,面向对象,泛型,函数式四种程序设计方法。)2.联邦理工学院洛桑(EPFL)的Martin Odersky于2001年基于Funnel的工作开始设计Scala。(注:Martin是EPFL(瑞士领先的技术大学)编程研究组的教授。他...

2019-09-05 22:47:51 273

原创 scala中 class和object的区别?

1. object对象此对象含义,不是类的实例的意思,就是object的直译。object是scala中一种和class平级的语法结构。为啥要有object?scala运行最后要到jvm运行,jvm运行需要main函数,java中的main数,必须是public的,必须是static的,必须是void的!请问static在scala中能否做到?scala中没有静态这个概念!所以于是乎,sca...

2019-09-05 19:53:47 6797

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除