大数据算法
~泊舟~
17级哈尔滨工业大学计算机大数据专业,个人网站地址https://1173710224.github.io/,个人公众号BBIT
展开
-
大数据 | 大数据基础--算法之外存模型算法:List Ranking
亲爱的读者朋友大家晚上好,上次我们简单介绍了基于外存模型的排序算法,这次我们来介绍另一个有趣的问题list ranking。详见:http://burningcloud.cn/article/130/index.html原创 2020-12-07 12:02:11 · 1959 阅读 · 0 评论 -
大数据 | 大数据基础--算法之外存模型算法:外存排序
亲爱的读者朋友大家晚上好,上次我们简单介绍了外存模型以及一些基本问题,这次我们来介绍外存模型下的排序算法。详见:http://burningcloud.cn/article/129/index.html原创 2020-12-07 12:01:07 · 1797 阅读 · 0 评论 -
大数据 | 大数据基础--算法之外村模型算法:外存模型
亲爱的读者朋友大家晚上好,前几次我们简单介绍了并行模型算法,这次我们来介绍外村模型以及相应的一些算法。详见:http://burningcloud.cn/article/128/index.html原创 2020-12-07 12:00:08 · 1534 阅读 · 0 评论 -
大数据 | 大数据基础--算法之并行计算算法:计算最小支撑树(生成树)
亲爱的读者朋友大家晚上好,上次我们简单介绍了并行算法以及有关矩阵乘法的几个基本问题,这次我们来分析基于MapReduce的计算最小生成树算法。详见:http://burningcloud.cn/article/127/index.html原创 2020-12-07 11:59:01 · 1975 阅读 · 1 评论 -
大数据 | 大数据基础--算法之并行计算算法:排序算法
亲爱的读者朋友大家晚上好,上次我们简单介绍了并行算法以及有关矩阵乘法的几个基本问题,这次我们来分析基于MapReduce的排序算法。详见:http://burningcloud.cn/article/126/index.html原创 2020-12-07 11:57:57 · 1813 阅读 · 0 评论 -
大数据 | 大数据基础--算法之并行计算算法:基本问题(二)
亲爱的读者朋友大家晚上好,简单介绍并行算法以及有关矩阵乘法的几个基本问题。详见:http://burningcloud.cn/article/125/index.html原创 2020-12-07 11:56:58 · 1622 阅读 · 0 评论 -
大数据 | 大数据基础--算法之并行计算算法:基本问题(一)
亲爱的读者朋友大家晚上好,从今天开始我们来介绍并行算法。简介并行算法一般基于一定的框架进行计算,常用的计算框架主要有PRAM模型,BSP(Bulk Synch Parallel)模型,MapReduce模型。我们主要分析MR模型,这里将的是理论的分析模型,具体的实现计算平台,比如hadoop等在后面会进行分析。详见:http://burningcloud.cn/article/124/index.html...原创 2020-12-07 11:55:38 · 1960 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法:计算图的平均度算法四
亲爱的读者朋友大家晚上好,上次我们分析了计算平均度的第三个估计算法,它已经是一个近似比为的算法了。继续对此算法进行优化得到的算法四比较抽象,就不做详细的分析了,在此把过程展示给大家,有兴趣的小伙伴可以自己研究一下。详见:http://burningcloud.cn/article/123/index.html...原创 2020-12-07 11:54:37 · 1595 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法:计算图的平均度算法三
亲爱的读者朋友大家晚上好,上次我们分析了计算平均度的第二个估计算法,简而言之就是在算法一的基础上为小桶定一个下届。我们继续对算法二进行优化,这次我们期望获得一个近似比为的算法。算法改进的思想我们将算法出现的误差归结到边上,让我们来看看究竟是哪些边导致了这样的错误。将节点分为两部分,其中是度数较小的节点,是度数较大的节点,表示连接两个集合的边的集合。于是,我们断言出现误差就是因为中的边我们只计算了一次,关于这一点我们回忆一下之前举的例子就很好理解了。于是我们只要找到每次抽样的时候这部分的边的比例就可以了。原创 2020-12-07 11:53:18 · 1706 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法:计算图的平均度算法二
亲爱的读者朋友大家晚上好,上次我们分析了计算平均度的第一个估计算法,简而言之就是先分桶,然后估计桶的大小。然而该算法在特定的情境下表现非常不好。这次,我们从一个反例开始。反例举反例之前先来简单回顾一下上个算法的内容。从VVV取出样本集合SSSSi←S∩BiS_i \gets S \cap B_iSi←S∩Biρi←SiS\rho_i \gets \frac{S_i}{S}ρi←SSi返回dˉ^=∑i=0t−1ρi(1+β)i\hat{\bar{d}} = \sum_{i=0}^{t-原创 2020-10-07 23:14:59 · 2336 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法:计算图的平均度算法一
亲爱的读者朋友大家晚上好,前几篇文章我们介绍了点集合的直径和连通分量的数量等几个问题,这次我们来分析图的平均度的计算,这个问题的定义非常简单。定义已知:G=(V,E)G=(V,E)G=(V,E)求:平均度dˉ=∑u∈Vd(u)n\bar{d} = \frac{\sum_{u\in V}d(u)}{n}dˉ=n∑u∈Vd(u)假设:GGG是简单图,没有平行边和自环;GGG由邻接链表和存储度数的数组表示,如图中的d(v),node(v)d(v),node(v)d(v),node(v)所示。[外链图原创 2020-10-07 23:13:56 · 3255 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法:近似最小支撑树
亲爱的读者朋友大家晚上好,前两篇文章我们介绍了点集合的直径和连通分量的数量这两个问题,这次我们来分析近似最小支撑树,还是照例,我们先来看一下问题的形式化定义。定义已知:G=(V,E),ϵ,d=deg(G)G=(V,E),\epsilon,d = deg(G)G=(V,E),ϵ,d=deg(G),边(u,v)(u,v)(u,v)的权重是wuv∈{1,2,…,w}∪{∞}w_{uv}\in \{1,2,\dots,w\}\cup \{\infty\}wuv∈{1,2,…,w}∪{∞}求:M^\hat{M原创 2020-10-07 23:12:30 · 2496 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法求连通分量的数目
亲爱的读者朋友大家好,上次我们分析了如何用一个亚线性时间算法估计一个点集合的直接,并对算法给出的结果的近似比进行了分析。这次我们来看另外一个经典的问题,求连通分量的数目。同样地,还是让我们先来看一下问题的定义:定义:已知:G=(V,E),ϵ,d=deg(G)G = (V,E),\epsilon,d = deg(G)G=(V,E),ϵ,d=deg(G),图GGG用邻接表表示,其中ddd表示所有节点中度最大的节点的度,∣V∣=n,∣E∣=m≤d⋅n|V| = n,|E| = m \leq d\cdot n原创 2020-10-07 23:11:43 · 2594 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法求点集合的直径
这一部分要介绍的亚线性时间算法总共有四个,这篇短文介绍的是其中之一,求点集合的直径。我们先来看一下问题定义:定义:已知:有mmm个点,点与点之间的距离使用邻接矩阵表示,则DijD_{ij}Dij表示点iii到点jjj的距离,DDD是一个对称矩阵,并且满足三角不等式Dij≤Dik+DkjD_{ij} \leq D_{ik} + D_{kj}Dij≤Dik+Dkj。求出:点对(i,j)(i,j)(i,j)使得DijD_{ij}Dij是最大的,则DijD_{ij}Dij是这mmm个点的集合的直原创 2020-10-07 22:56:15 · 2573 阅读 · 0 评论 -
大数据算法 亚线性空间算法 近似计数 不重复元素 点查询 频度估计 频度矩估计 固定大小采样
https://blog.csdn.net/weixin_43800131/article/details/101947738原创 2020-06-19 08:29:07 · 4253 阅读 · 1 评论 -
哈工大 大数据算法 频度矩估计-Final AMS 算法
频度矩估计2问题分析 使用BasicAMSBasic AMSBasicAMS算法的方差太大,直接利用MedianMedianMedian技术也不能将最终的结果限制在(1+ϵ)(1+\epsilon)(1+ϵ)中,所以要先用均值技术对结果进行优化,再取中位数,我们将这个方法叫做Median−of−MeansMedian-of-MeansMedian−of−Means。Final AMS 算法算法计算t=clog1δt = clog\frac{1}{\delta}t=clogδ1个平均值每原创 2020-06-18 22:31:54 · 4266 阅读 · 0 评论 -
哈工大 大数据算法 频度矩估计-Basic AMS算法
频度矩估计1问题定义 之前我们定义了不同的流模型,当Δ\DeltaΔ取不同的值的时候对应着不同的模型以及不同的解决办法。在频度矩估计问题中,我们要解决的两类问题分别是Δ=1\Delta = 1Δ=1的Vanilla ModelVanilla\ ModelVanilla Model和Δ>0\Delta > 0Δ>0的Cash Register ModelCash\ Register\ ModelCash Register M原创 2020-06-18 22:31:07 · 4303 阅读 · 0 评论 -
哈工大 大数据算法 固定大小采样 水库抽样算法
固定大小采样问题定义 假定每个时刻都有一个数据流中的一个数据到来,我们要维护 一个样本,这个样本动态更新,但是它时刻都是已经流过的数据的均匀抽样。 我们通常使用水库抽样算法解决这个问题。水库抽样算法算法m←0m \leftarrow 0m←0使用数据流的前sss个元素对抽样数组进行初始化A[1,...,s],m←sA[1,...,s],m\leftarrow sA[1,...,s],m←s对于每一个更新xxxxxx以sm+1\frac{s}{m + 1}m+1s概率随机替换A原创 2020-06-18 22:29:31 · 4232 阅读 · 0 评论 -
哈工大 大数据算法 点查询和频度估计-Misra_Gries算法-Metwally算法
点查询1解决什么问题 再次介绍一下流模型,定义一个数据流<ai><a_{i}><ai>,i∈[1,m],ai∈[1,n]i \in [1,m] , a_{i} \in [1,n]i∈[1,m],ai∈[1,n],频率向量<fi><f_{i}><fi>,i∈[1,n],fi∈[1,m]i \in [1,n] , f_{i} \in [1,m]i∈[1,n],fi∈[1,m]。 仍然是流模型的相关问题,在之前已经介绍过原创 2020-06-18 22:27:32 · 4350 阅读 · 0 评论 -
哈工大 大数据算法 点查询和频度估计-Count Sketch算法-Final Count Sketch算法
点查询和频度估计4Count Sketch算法算法C[1...k]←0,k=3ϵ2C[1...k] \leftarrow 0,k = \frac{3}{\epsilon^2}C[1...k]←0,k=ϵ23随机选择1个2−wise2-wise2−wise独立哈希函数h:[n]→[k]h:[n] \rightarrow [k]h:[n]→[k]随机选择1个2−wise2-wise2−wise独立哈希函数g:[n]→{−1,1}g:[n] \rightarrow \{-1,1\}g:[n]→{−1原创 2020-06-18 22:27:07 · 4499 阅读 · 0 评论 -
哈工大 大数据算法 点查询和频度估计-Count-Median Sketch算法
点查询3 这次介绍的是Count−Median SketchCount-Median\ SketchCount−Median Sketch算法,问题依然是流模型中的点查询问题,但是这次的流模型是TurnstileTurnstileTurnstile,也就是每次的更新有正有负。Count-Median Sketch算法算法C[1...t][1...k]←0,k=2ϵ,t=⌈log1δ⌉C[1...t][1...k] \leftarrow \textbf{0},k = \fra原创 2020-06-18 22:25:51 · 4070 阅读 · 0 评论 -
哈工大 大数据算法 点查询和频度估计-Count-Min Sketch算法
点查询2定义流模型 之前讲的流模型只具备增加功能,这次扩大流模型的定义,从而使其也能支持删除操作。定义如下:A stream includeing deletionσ=<±a1,...,±am>,ai∈[n],then we can define a frequency vector f=(f1,...,fn)A\ stream\ includeing\ deletion\sigma =原创 2020-06-18 22:24:58 · 4536 阅读 · 0 评论 -
哈工大 大数据算法 不重复元素-BJKST算法
不重复元素4 继续上一篇文章的内容,这次来介绍基于zeros(h(j))zeros(h(j))zeros(h(j))的BJJKSTBJJKSTBJJKST算法。BJKSTBJKSTBJKST算法算法随机选择2-wise independent哈希函数h:[n]→[n]h:[n] \rightarrow [n]h:[n]→[n]随机选择2-wise independent哈希函数g:[n]→[bϵ−4log2n]g:[n] \rightarrow [b\epsilon^{-4}log^2n]g原创 2020-06-18 22:15:43 · 4130 阅读 · 0 评论