![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 79
中琦2513
天道酬勤
展开
-
大数据中台
数据中台的由来数据中台最早是阿里提出的,但真正火起来是2018 年,我们能感受到行业文章谈论数据中台的越来越多。大量的互联网、非互联网公司都开始建设数据中台。为什么很多公司开始建设数据中台?尽管数据中台的文章很多,但是一千人眼里有一千个数据中台,到底什么是数据中台?数据中台包含什么?当企业需要数据化转型、精细化运营,进而产生大规模数据应用需求的时候,就需要建设数据中台。数据中台是高质量、高效赋能数据前台的一系列数据系统和数据服务的组合。数据中台包含数仓体系、数据服务集和BI 平台。1、是...原创 2020-08-28 11:17:11 · 7397 阅读 · 4 评论 -
Hive的SQL编译源码详解
看图完事:原创 2020-07-06 11:36:29 · 2736 阅读 · 1 评论 -
如何精进大数据技术
前几天跟前58的技术委员会主席孙玄聊天,聊天过程中得知他想搞大数据课程,于是我们有了如下对话。问:根据你的观察,现在企业里面很多想搞大数据的工程师普遍有什么特点?孙老板:很多同学的大数据知识是东拼西凑的,看B站上的视频学了一点,项目当中用过一点,没有系统化,而且不深入,这些同学其实是做不了真正的大数据工程师的工作的。问:那你觉得如上的同学如果想要突破,有什么方式吗?孙老板:根据...原创 2020-03-27 12:05:33 · 2758 阅读 · 0 评论 -
HDFS的垃圾回收站
HDFS的垃圾回收站首先需要明白一点,现在linux系统好像没有回收站的说法了,所以在删除别人的文件或文件夹之前一定要慎重,毕竟rm命令是高危命令,删除了就没有了,所以对于高危命令,我们要保持敬畏之心.hdfs在部署的时候默认垃圾回收站是禁用的,因此hdfs是可以开启垃圾回收站的。先看看官网对回收站的解释:第一个参数:fs.trash.interval=0 表示禁用Number of...原创 2018-10-14 18:39:07 · 29708 阅读 · 0 评论 -
光环大数据python爬虫
一、全面的爬虫工程师的技能单 1、python编程语言基础 2、HTTP协议(处理响应, ) 3、html,css,javascript基本web技能 4、mysql/mongodb/redis等存储系统 5、urllib/requests/scrapy/pyspider 用来模拟浏览器发起HTTP请求的组件 6、抓包工具和网页分析工具(正则,b...原创 2018-08-24 14:11:38 · 31556 阅读 · 0 评论 -
Spark的WordCount到底产生了多少个RDD
Spark的WordCount到底产生了多少个RDD不少的同学在面试中会被问到:这样的一句标准的sparkcore的wordcount的代码到底能要产生几个RDD呢。相信大家对于一个标准的WordCount的代码一定不陌生:sc.textFile("hdfs://myha01/wc/input/words.txt") .flatMap(_.split(" ")) .map((_,...原创 2018-09-05 08:43:23 · 36287 阅读 · 2 评论 -
SparkStreaming整合Kafka-0.8的官方文档要点翻译
Spark Streaming + Kafka Integration Guide (Kafka broker version 0.8.2.1 or higher)Note: Kafka 0.8 support is deprecated as of Spark 2.3.0. Here we explain how to configure Spark Streaming to rece...翻译 2018-08-02 12:01:22 · 38042 阅读 · 0 评论 -
MapReduce编程模型
原创 2018-06-29 07:09:53 · 37767 阅读 · 0 评论 -
Hadoop发展编年史
2002年10月,Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。2003年10月,Google发表Google File System论文。2004年7月,Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能,即后来HDFS的前身。2004年10月,Google发表了MapReduce论文。2005年2月,Mike C...原创 2018-05-06 16:38:03 · 41926 阅读 · 0 评论 -
海量数据面试题
海量数据面试题1、给个超过100G的logfile, log中存着IP地址, 设计算法找到出现次数最多的IP地址? 第一题:首先我们的思路就是利用哈希进行文件的切分,我们把100G大小的logfile分为1000份,那么下来差不多没一个文件就是100M左右,然后再利用哈希函数除留余数的方法分配到对应的编号文件中,然后得出每个文件中出现次数最多的IP,然后堆排序取得这1000个ip中出现次数最多的。...原创 2018-04-24 09:01:49 · 42463 阅读 · 0 评论 -
Java工程师成神之路(2018修订版)
主要版本更新时间备注v1.02015-08-01首次发布v1.12018-03-18增加新技术知识、完善知识体系一、基础篇JVMJVM内存结构堆、栈、方法区、直接内存、堆和栈区别Java内存模型内存可见性、重排序、顺序一致性、volatile、锁、final垃圾回收内存分配策略、垃圾收集器(G1)、GC算法、GC参数、对象存活的判定 JVM参数及调优Java对象模型oop-klass、对象头Hot...原创 2018-03-19 18:29:58 · 45880 阅读 · 0 评论 -
Kafka-0.10源码解读
前言其实干程序员这么些年来,一直有一个愿望想写本书,但是一直没实现,一开始是想着是因为自己没时间,后来想想也不是说没时间,可能还是感觉水平有限。为了给写书做准备,最近打算写一个专栏,专栏的要求就稍微低一些,能坚持写完的概率也就会大一些。所以最近挑了从Kafka的源码角度去写一个专栏。选择写Kafka源码剖析的理由1、Kafka是大数据里面难度较大,而且使用广泛的一个技术,倒不是说...原创 2019-08-05 13:22:49 · 3897 阅读 · 2 评论 -
数据分区详解
数据分区详解数据分区的五种常用方式:1、随机分区优点:数据分布均匀缺点:具有相同特点的数据不会保证被分配到相同的分区2、Hash分区优点:具有相同特点的数据保证被分配到相同的分区特点:会产生数据倾斜3、范围分区缺点:提高查询速度,相邻的数据都在相同的分区缺...原创 2019-06-27 14:37:22 · 9678 阅读 · 0 评论 -
Hive--笔试题01--窗口分析函数实现
有以下一份数据:A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-03,11...原创 2019-06-25 12:52:07 · 11176 阅读 · 3 评论 -
Hive--笔试题01--自连接实现
有以下一份数据:A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-03,23B,2015-03,10B,2015-03,11...原创 2019-06-25 12:47:28 · 13531 阅读 · 8 评论 -
Hive经典最全笔试题系列
现在的大数据开发,越来越趋向于编写SQL代替程序开发,比如MapReduce的Hive客户端,Kafka,Spark,Flink等都是支持SQL操作的。所以学好SQL是重中之重。是每个大数据程序开发工作者的必备技能。本人收集了大量的Hive或者说是SQL的笔试题之类:准备给各位准备一个Hive或者SQL的笔试题专题:这是列表:1、Hive--笔试题01--自连接实现2、Hiv...原创 2019-06-25 12:32:33 · 16555 阅读 · 3 评论 -
利用zookeeper模拟实现HA高可用
利用zookeeper模拟实现HA高可用1、需求在分布式场景中,对于主从架构来说,最大的问题就是单点故障。当学过zookeeper之后,我们都知道,可以利用zookeeper集群来帮助实现Hadoop的HA,那到底Hadoop的HA是如何实现的呢?2、实现思路zookeeper给我们提供了两个非常重要的组件:1、...原创 2019-06-19 19:16:26 · 12501 阅读 · 1 评论 -
Hadoop-3.x新特性
相对于之前主要生产发布版本Hadoop 2,Apache Hadoop 3整合许多重要的增强功能。 Hadoop 3是一个可用版本,提供了稳定性和高质量的API,可以用于实际的产品开发。下面简要介绍一下Hadoop3的主要变化。1、最低Java版本要求从Java7变为Java8所有Hadoop的jar都是基于Java 8运行是版本进行编译执行的,仍在使用Java 7或更低Java版本...原创 2019-04-12 10:18:35 · 15818 阅读 · 0 评论 -
Spark面试精选题(06)
1、Operation category READ is not supported in state standby是什么原因导致的org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state st...原创 2019-04-11 10:22:34 · 17366 阅读 · 0 评论 -
Flink Window机制详解
Flink 认为 Batch 是 Streaming 的一个特例,所以 Flink 底层引擎是一个流式引擎,在上面实现了流处理和批处理。而窗口(window)就是从 Streaming 到 Batch 的一个桥梁。Flink 提供了非常完善的窗口机制,这是我认为的 Flink 最大的亮点之一(其他的亮点包括消息乱序处理,和 checkpoint 机制)。本文我们将介绍流式处理中的窗口概念,介绍 F...原创 2019-03-19 11:41:27 · 17739 阅读 · 0 评论 -
谷歌三篇论文(GFS,MapReduce,BigTable)
Google引爆大数据时代的三篇论文谈到Hadoop的起源,就不得不提Google的三驾马车:Google FS、MapReduce、BigTable。虽然Google没有公布这三个产品的源码,但是他发布了这三个产品的详细设计论文,奠定了风靡全球的大数据算法的基础!一,GFS—-20032003年,Google发布Google File System论文,这是一个可扩展的分布式文件系统...原创 2019-03-21 10:35:55 · 22111 阅读 · 3 评论 -
IT大咖总结的面试真经
很多学员在学习过程中,经常会遇到面试困惑和难题,相信很多人会遇到面试同样的问题,特别是学生和转行人员,对于面试认识,认知这里做了下总结,相信对大家有所帮助,内容如下:1.面试流程2.面试常问问题3.入行新手该如何写项目经验4.面试注意问题5.把面试当成是提升6.总结 一、面试流程对面试流程的了解,是我们做好面试的第一步。能够让我们心中有数,做好充分的准备,不至于面试的时候...原创 2019-01-02 09:18:06 · 21653 阅读 · 0 评论 -
大型分布式网站架构技术总结
本文是学习大型分布式网站架构的技术总结。对架构一个高性能,高可用,可伸缩,可扩展的分布式网站进行了概要性描述,并给出一个架构参考。一部分为读书笔记,一部分是个人经验总结。对大型分布式网站架构有很好的参考价值。本次分享大纲如下大型网站的特点大型网站架构目标大型网站架构模式高性能架构高可用架构可伸缩架构可扩展架构安全架构敏捷架构大型架构举例一、大型网站的特点用户多,分布广泛大流量,高并发海量数据,服务...原创 2018-03-08 18:09:35 · 45122 阅读 · 0 评论 -
爬虫与反爬虫
文章目录前言爬虫反爬虫运行现状真实世界的爬虫比例哭笑不得的决策思路爬虫反爬虫技术现状为python平反无法绕开的误伤率前端工程师的逆袭误伤,还是误伤爬虫反爬虫套路现状不要回应进化法律途径搞事情,立Flag原创 2018-01-29 12:57:52 · 46923 阅读 · 2 评论 -
Swift里的CAP理论和NWR策略应用
最近有人讨论到swift副本数是否能够调整,3副本成本过高,如果改成2副本怎么样?多聊了几句以后发现不少人可能都是望文生义,简单的认为副本数只是多一个少一个Copy的问题,并不了解背后的理论依据。所以想写个简单的介绍,普及分布式系统设计的一些基础知识点。这个是按傻瓜版写的,已经知道的同学请自动无视。 不同于传统的集中式存储,对于分布式存储系统来说,因为自身的复杂性,副本数并非原创 2018-01-13 12:17:19 · 45408 阅读 · 1 评论 -
Apache Hadoop 3.0.0 GA 版本终于发布
Apache Hadoop 3.0.0Apache Hadoop 3.0.0 incorporates a number of significant enhancements over the previous major release line (hadoop-2.x).This release is generally available (GA), meaning that it原创 2017-12-15 12:40:58 · 46018 阅读 · 0 评论