大数据
文章平均质量分 73
曾二爷
这个作者很懒,什么都没留下…
展开
-
一文搞懂区块链基本原理
一、架构 认识区块链,让我们从最开始的比特币开始。 比特币本质上来讲,是一个全球统一的分布式账本,记录着所有的交易记录。只要根据你所有的交易记录,就能知道你现在有多少钱了。 弄一个账本很简单,但是要让全世界都信任这个账本就很难了,我们来看看比特币是如何做到的。 支撑比特币的技术从下到上大概可以分为三层: 第一层 p2p网络层。这一层主要解决的问题是,分布式的节点如何发...原创 2019-10-15 14:02:19 · 1163 阅读 · 0 评论 -
一文了解几十万年的科技史
最近读完了吴军的《全球科技通史》,写点读书笔记吧。 一、远古科技 人类发展到今天,也不过是物竞天择、适者生存的结果而已。大自然的算法就是广撒网重点捕捞,人类不过是当初无数个随机数中的一个而已。 人类的初创期还是很艰难,要和其他生物竞争,甚至和其他也可以叫作人类的物种竞争,进步也主要靠基因变异。今天很多我们习以为常的想法或技能,在那时候也需要以万年为单位来习得,比如想到可以捡起石头砸开坚果这件...原创 2019-08-25 22:15:18 · 872 阅读 · 1 评论 -
我做大数据工作这三年
一、初来乍到 三年前,一锅盖头小伙在女朋友的感召下,坐上了140.50块的绿皮火车花了30多个小时到了上海火车站。这是他20多年来第一次出省,然而等待他的是2个多小时的地铁,加半个小时的公交。但是有女朋友的陪伴,这都不是事儿。 到上海前,在网上随手投了几个实习简历,收到了两个面试邀请。刚来第二天,就坐上早高峰的地铁9号线去面试了……幸好没被挤扁。 面试过程就是自己叽里呱啦、意气风发地自我介...原创 2019-08-18 22:24:11 · 520 阅读 · 0 评论 -
一文了解分形几何的思想
一、如何测量一条曲线的长度 1.1 一种曲线: 它是由一条直线变成的,将直线均分成三份,中间的一份复制一份,抬起来连接到一起形成一个尖尖。这样我们就得到了四份直线,然后对每份直线又做同样的操作,不断循环下去,最后尖尖会越来越小,就会形成一条曲线。 这种线你把局部放大,会发现和整体还有其他局部都是相似的形状。 1.2 两点的长度 那么问题来了怎么去测量线上两个点间的长度呢...原创 2019-07-13 22:04:31 · 472 阅读 · 0 评论 -
上帝有个梦想-主从结构
从前上帝有个梦想,为了完成它,就创造了人类并给了他们梦想。 作为一个有梦想的程序你想用电脑实现创造新世界的梦想。 零、主从结构 上帝看在你是个程序员的分上给了你一些机器帮你完成梦想。 0.1 你是个牛B的程序员 你是个牛B的程序员你充分利用自己的大脑,把你的梦想细分成了很多很多小任务,每个机器都给它分配点任务,然后收集结果完成你的千年大计。这时你得知道所有机器得信息,和你分配的所有的任务状...原创 2019-06-05 13:33:36 · 357 阅读 · 0 评论 -
flink入门-流式计算概念
一、流式计算的世界观 1.1 万物皆流 只要时间不停万事万物都没有静止。我们所以为的静态,不过是流中的一个片段。 意味着流的世界,不在乎所谓的状态,在乎的是变化,也就是事件的发生,通过事件来表示。 1.2 升维 批量的时代,我们只记录关键的信息,只在乎当前的状态,不会去记录状态是如何一步步变化至当前状态的,计算所面向的数据也是静态的,从一个态的数据变化到另一个静态的数据。 流的时代我们在...原创 2019-04-14 21:22:11 · 799 阅读 · 2 评论 -
spark核心构件之Dependency(依赖)
之前的文章说一个spark任务其实就是一系列rdd构成的有向无环图(dag),今天我们来看看,spark是如何表示rdd之间的依赖关系建立这个dag的。 一、rdd如何构成dag 上篇文章讲到了Partition和Partitioner知道了rdd是由一系列分区(partition)组成的,rdd之间的关系主要的其实就是分区之间的关系,也就是子rdd的某个分区数据需要依赖哪些rdd的哪些分区计...原创 2019-03-23 12:30:53 · 488 阅读 · 0 评论 -
【解答】sql和其他语言的思考方式
上次的题目(https://blog.csdn.net/zzzqqq111222/article/details/88081647) 大家都看了吗,感觉是不是贼简单,竟然做这种题,简直侮辱智商,不介意的话我来说下大家心里是不是这样解答的原创 2019-03-02 21:22:01 · 519 阅读 · 0 评论 -
【题目】sql和其他语言的思考方式
sql和其他的语言的思考方式是有很大的区别的。今天我们就出一道现实中遇到的题来看看到底有啥不同。 一、背景&前提假设 背景:有用户之间加好友的业务存在表user_friend中: user_id friend_uid 00001 00002 00002 00003 00002 00001 用户不能自己加自己也就是没有user_id==frien...原创 2019-03-02 21:20:04 · 332 阅读 · 0 评论 -
大数据学习指南
一、大数据的结构 整个大数据体系发展了这么久,其实包含了太多太多的东西了。按照数据的流程大概分为以下几个大的部分 1、 数据通道 传输数据用的,将不同数据源的数据导入数据中心,数据中心处理完了之后通过这个通道输出到其他的不同数据介质去给各产品业务进行使用。这部分的组件典型的Kafka、sqoop之类的,当然很多组件也可以做类似的事情。这其中也会有很多需要考虑的事情,比如数据抽取...原创 2019-01-27 17:59:16 · 419 阅读 · 0 评论 -
精通spark源码-rdd是如何运行的
一、spark执行过程的一个例子 // rdd_people: id,年龄 var rdd_people = sc.range(1, 100, 1).map(i=>(i, 20+i%80) ) //rdd_score: id,成绩 var rdd_score =sc.range(1, 100, 1).map(i=>(i ,i+2)) //两个进行join var rdd_res ...原创 2019-01-21 13:21:13 · 399 阅读 · 1 评论 -
五分钟精通sparksql源码-加简历
# 序言 - spark1.6之后引入DataSet,一种基于RDD的高级抽象,在RDD之上加入了scheme信息,给RDD的元素的每一列提供了名称和数据类型的标志。 - 同时DataSet还提供了更多的api,可以实现类似于sql的操作,而且在catalyst优化器的优化下我们的代码将更加高效。 - 其实sql最最厉害的就是将逻辑和物理执行分开,上层专注于让程序员更好的表达数据的处理逻辑,...原创 2018-12-14 13:39:45 · 5023 阅读 · 3 评论 -
如何从数据的角度做一个招聘平台产品
一、招聘平台的价值 首先一个招聘平台其实就是一个供需平台,HR提供需求说明(JD:职位描述)想要获取与之匹配的简历(CV),而应聘者手里握着简历想找一份匹配的JD来投递。 所以招聘平台的价值其实就是做JD和CV两种元素的匹配,所以平台的目标就是要提升JD、CV的匹配量。 二、如何提升匹配量 提升匹配量可以从两个方面来考虑,首先是JD、CV的基数,然后是匹配率。 2.1基数 招...原创 2018-12-14 13:35:29 · 399 阅读 · 0 评论 -
三分钟分布式CAP理论就这么复杂
分布式系统架构理论,定义了三种指标,理论说我们最多只能满足两个。 ## 分布式系统 首先我们这个理论所说的分布式系统,是指系统内会共享数据,互相有连接有交互,才能完成系统功能的的分布式系统。而这个理论的关注点是**数据**的读写。 ## 三种指标 - Consistency 一致性: 这里的一致性是针对于分布式读写的。对于一个分布式系统,当一条数据写成功,那么无论我怎么使用这个系统...原创 2018-12-14 13:34:02 · 6117 阅读 · 0 评论 -
大数据基础概念
传统的大数据在大数据这个概念还没出来以前人们是怎么进行数据数据分析和计算的呢? 数据存储首先数据量都没有很大,不同的数据散布在不同数据库中。如果真的数据大的话就只能花最贵的钱买最好的机器最好的数据库或者多分几个库装。 数据分析人们还没有意识到数据可以做很多事情,所以数据的需求也比较少; 使用传统的数据库和单机程序来进行统计分析,就能满足大部分需求。如果公司比较注重数据的话,可能会弄一个数据中...原创 2018-10-20 16:54:24 · 457 阅读 · 0 评论