自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 【解答】sql和其他语言的思考方式

上次的题目(https://blog.csdn.net/zzzqqq111222/article/details/88081647) 大家都看了吗,感觉是不是贼简单,竟然做这种题,简直侮辱智商,不介意的话我来说下大家心里是不是这样解答的

2019-03-02 21:22:01 312 0

原创 从源码解密spark内存管理

内存不过是计算机分级存储系统中的靠近cpu的一个存储介质。 spark运行起来内存里都存的啥? 如何管理里面所存的东西? spark用java和scala这样的jvm语言写的,没有像c语言那样显式申请释放内存,如何进行内存的管理的? 我们应该如何设置spark关于内存的参数? 我们一起来解...

2019-01-27 18:00:48 341 0

原创 精通spark源码-rdd是如何运行的

一、spark执行过程的一个例子 // rdd_people: id,年龄 var rdd_people = sc.range(1, 100, 1).map(i=>(i, 20+i%80) ) //rdd_score: id,成绩 var rdd_score =sc.range(...

2019-01-21 13:21:13 223 1

原创 五分钟精通sparksql源码-加简历

# 序言 - spark1.6之后引入DataSet,一种基于RDD的高级抽象,在RDD之上加入了scheme信息,给RDD的元素的每一列提供了名称和数据类型的标志。 - 同时DataSet还提供了更多的api,可以实现类似于sql的操作,而且在catalyst优化器的优化下我们的代码将更加高...

2018-12-14 13:39:45 4737 3

原创 三分钟分布式CAP理论就这么复杂

分布式系统架构理论,定义了三种指标,理论说我们最多只能满足两个。 ## 分布式系统 首先我们这个理论所说的分布式系统,是指系统内会共享数据,互相有连接有交互,才能完成系统功能的的分布式系统。而这个理论的关注点是**数据**的读写。   ## 三种指标 - Consistency 一致性:...

2018-12-14 13:34:02 5978 0

转载 文言文编程背后-语言的本质

一、文言文编程 最近github上有个文言文编程火了,效果看起来还比较牛B,看起像是是文言文,读起来也能明白一定的意思。(可以留言给我索取官网体验) 上图代码比较简单就是输出三遍hello world; 是不是读起来有文言文的样子也能大概明白其意思。 我们就来讨论下计算机语言的本质。 ...

2019-12-23 19:52:36 1903 0

原创 指标才是生产力

一、衡量得以感知 人类聪明的地方在于我们的逻辑推演能力,我们通过观察世界,在大脑中抽象出问题相关的模型,推演出将会发生的事情,然后进行下一步的动作,而不用真的去经历。 脑子是个好东西,但也无法精确的感知事物,比如我需要挑选合适的柜子放家里的某个角落,脑子难以办法判断面前大小不一的柜子哪个最合适...

2019-11-09 17:01:15 197 0

原创 一文搞懂区块链基本原理

一、架构 认识区块链,让我们从最开始的比特币开始。 比特币本质上来讲,是一个全球统一的分布式账本,记录着所有的交易记录。只要根据你所有的交易记录,就能知道你现在有多少钱了。 弄一个账本很简单,但是要让全世界都信任这个账本就很难了,我们来看看比特币是如何做到的。 支撑比特币的技术...

2019-10-15 14:02:19 505 0

原创 一文了解几十万年的科技史

最近读完了吴军的《全球科技通史》,写点读书笔记吧。 一、远古科技 人类发展到今天,也不过是物竞天择、适者生存的结果而已。大自然的算法就是广撒网重点捕捞,人类不过是当初无数个随机数中的一个而已。 人类的初创期还是很艰难,要和其他生物竞争,甚至和其他也可以叫作人类的物种竞争,进步也主要靠基因变异...

2019-08-25 22:15:18 231 0

原创 我做大数据工作这三年

一、初来乍到 三年前,一锅盖头小伙在女朋友的感召下,坐上了140.50块的绿皮火车花了30多个小时到了上海火车站。这是他20多年来第一次出省,然而等待他的是2个多小时的地铁,加半个小时的公交。但是有女朋友的陪伴,这都不是事儿。 到上海前,在网上随手投了几个实习简历,收到了两个面试邀请。刚来...

2019-08-18 22:24:11 245 0

原创 一文了解分形几何的思想

一、如何测量一条曲线的长度 1.1 一种曲线: 它是由一条直线变成的,将直线均分成三份,中间的一份复制一份,抬起来连接到一起形成一个尖尖。这样我们就得到了四份直线,然后对每份直线又做同样的操作,不断循环下去,最后尖尖会越来越小,就会形成一条曲线。 这种线你把局部放大,会发现和整体还有...

2019-07-13 22:04:31 245 0

原创 上帝有个梦想-主从结构

从前上帝有个梦想,为了完成它,就创造了人类并给了他们梦想。 作为一个有梦想的程序你想用电脑实现创造新世界的梦想。 零、主从结构 上帝看在你是个程序员的分上给了你一些机器帮你完成梦想。 0.1 你是个牛B的程序员 你是个牛B的程序员你充分利用自己的大脑,把你的梦想细分成了很多很多小任务,每个...

2019-06-05 13:33:36 205 0

原创 flink入门-流式计算概念

一、流式计算的世界观 1.1 万物皆流 只要时间不停万事万物都没有静止。我们所以为的静态,不过是流中的一个片段。 意味着流的世界,不在乎所谓的状态,在乎的是变化,也就是事件的发生,通过事件来表示。 1.2 升维 批量的时代,我们只记录关键的信息,只在乎当前的状态,不会去记录状态是如何一步步...

2019-04-14 21:22:11 326 0

原创 【题目】划分版图-有点难

春招的金三银四呀我们来做个有挑战性的题目吧 一、题目内容 背景:long time ago,大地上有一些城市和一些道路,城市之间能够互通的称为国家,不同的国家的城市之间是无法相通的。如图的例子所示就是两个国家:蓝国和红国: 问题:现在我们拿到了一批数据,请从数据中判断有多少个国家,并且哪...

2019-03-30 21:54:35 243 0

原创 spark核心构件之Dependency(依赖)

之前的文章说一个spark任务其实就是一系列rdd构成的有向无环图(dag),今天我们来看看,spark是如何表示rdd之间的依赖关系建立这个dag的。 一、rdd如何构成dag 上篇文章讲到了Partition和Partitioner知道了rdd是由一系列分区(partition)组成的,r...

2019-03-23 12:30:53 207 0

原创 【题目】sql和其他语言的思考方式

sql和其他的语言的思考方式是有很大的区别的。今天我们就出一道现实中遇到的题来看看到底有啥不同。 一、背景&前提假设 背景:有用户之间加好友的业务存在表user_friend中: user_id friend_uid 00001 00002 00002 ...

2019-03-02 21:20:04 216 0

原创 spark核心构件之partitioner

spark 核心思想之一就是数据分区,将数据分成很多个part,一个一个的进行处理这样的设置达到了以下的目的。 1、实现分布式 2、可以减少内存占用 3、还能方便的做任务重跑 4、而且将统一个key的数据聚集到一起,方便join、group等操作 一、partitioner的定义 1.1 pa...

2019-02-01 17:01:36 252 0

原创 大数据学习指南

一、大数据的结构 整个大数据体系发展了这么久,其实包含了太多太多的东西了。按照数据的流程大概分为以下几个大的部分     1、 数据通道 传输数据用的,将不同数据源的数据导入数据中心,数据中心处理完了之后通过这个通道输出到其他的不同数据介质去给各产品业务进行使用。这部分的组件典型的Ka...

2019-01-27 17:59:16 283 0

原创 如何从数据的角度做一个招聘平台产品

一、招聘平台的价值 首先一个招聘平台其实就是一个供需平台,HR提供需求说明(JD:职位描述)想要获取与之匹配的简历(CV),而应聘者手里握着简历想找一份匹配的JD来投递。 所以招聘平台的价值其实就是做JD和CV两种元素的匹配,所以平台的目标就是要提升JD、CV的匹配量。 二、如何提升匹配量 ...

2018-12-14 13:35:29 262 0

原创 大数据基础概念

传统的大数据在大数据这个概念还没出来以前人们是怎么进行数据数据分析和计算的呢? 数据存储首先数据量都没有很大,不同的数据散布在不同数据库中。如果真的数据大的话就只能花最贵的钱买最好的机器最好的数据库或者多分几个库装。 数据分析人们还没有意识到数据可以做很多事情,所以数据的需求也比较少; 使用...

2018-10-20 16:54:24 320 0

原创 hadoop 入门级 实战

hadoop 实战  开头:本文介绍hadoop mapreduce开发的一般方法 默认你已经完美的装上了hadoop 并搭建好了开发环境 一、简单的代码框架 加载配置文件 /**加载配置的类 采用单例模式*/ import org.apache.hadoop.conf.Co...

2015-05-15 16:46:04 632 0

原创 iOS 基于 HSB hsv 颜色模型的颜色选择器的实现

在色彩领域计算机

2014-09-18 13:57:08 784 0

提示
确定要删除当前文章?
取消 删除