大数据基础
~泊舟~
17级哈尔滨工业大学计算机大数据专业,个人网站地址https://1173710224.github.io/,个人公众号BBIT
展开
-
CycleGan
文章转自个人服务器:http://bbit.vip/service/main.php?version=2&type=article&id=1E6o2e5Z0zk54X2q45ZN36FzF9原创 2021-07-04 19:42:22 · 134 阅读 · 0 评论 -
GAN:从0.5搭建DEMO(上)数据准备
文章转自个人服务器:http://bbit.vip/service/main.php?version=2&type=article&id=U16Ma62C50G42s2S545BWgmWc9原创 2021-07-04 19:41:28 · 90 阅读 · 0 评论 -
大数据 | NoSQL--Key value
文章转自个人服务器:http://bbit.vip/service/main.php?version=2&type=article&id=1GQyiIlT6MK25Ur0t0406677j8原创 2021-07-01 13:23:53 · 159 阅读 · 1 评论 -
大数据|数据预处理
文章转自个人服务器:http://bbit.vip/service/main.php?version=2&type=article&id=1A4x6Q86U245w0400wx1r6R7I8原创 2021-07-01 13:21:00 · 424 阅读 · 0 评论 -
大数据 | GreenPlum--面向大数据的并行数据库系统
文章转自个人服务器:http://bbit.vip/service/main.php?version=2&type=article&id=16u27Ex56t0o4v0km6Od5j7XW8原创 2021-07-01 13:16:46 · 162 阅读 · 0 评论 -
大数据 | 大数据基础--系统之大数据管理系统|数据库管理系统--事务管理
文章转自个人服务器:http://bbit.vip/service/main.php?version=2&type=article&id=1g6BhwFt2U5040v4b7sc6y5768转载 2021-06-30 20:19:01 · 96 阅读 · 0 评论 -
大数据 | 大数据基础--系统之大数据管理系统|数据库管理系统--查询优化
http://bbit.vip/service/main.php?version=2&type=article&id=Y1E6V9cRjVxr2P50S4N09W6U78原创 2021-06-30 20:17:29 · 139 阅读 · 0 评论 -
大数据 | NoSQL--列存储
文章转自个人服务器:http://bbit.vip/service/main.php?version=2&type=article&id=45Aad1vB2S62r50407267qx1P8转载 2021-06-30 20:16:23 · 228 阅读 · 0 评论 -
大数据 | 大数据基础--系统之大数据管理系统|数据库管理系统
文章转自个人服务器:http://bbit.vip/service/main.php?version=2&type=article&id=J1XiSo6250gyy4067ff7PQ7I38原创 2021-06-30 20:15:31 · 522 阅读 · 0 评论 -
大数据|聚类分析串烧之相似性度量总结
文章转自个人服务器:http://bbit.vip/service/main.php?version=2&type=article&id=XV162UI50i4r0Pc46h64QlJ7F7原创 2021-06-30 20:14:33 · 96 阅读 · 0 评论 -
大数据 | NoSQL--Not only SQL
http://bbit.vip/service/main.php?version=2&type=article&id=g16Km4250kT4ZaCcwRXa068A77原创 2021-06-30 20:12:51 · 115 阅读 · 0 评论 -
大数据|大数据计算
文章转自个人服务器:http://bbit.vip/service/main.php?version=2&type=article&id=Lf16p25x6u0lS40qJO66F07et7原创 2021-06-30 20:09:23 · 82 阅读 · 0 评论 -
大数据 | 大数据基础--系统之大数据管理系统|数据库管理系统--查询相关问题
文章转自个人服务器:http://bbit.vip/service/main.php?version=2&type=article&id=H1a682f35Noxh0z5KT4Gq0M677原创 2021-06-30 20:04:53 · 89 阅读 · 0 评论 -
大数据 | 大数据基础--系统之大数据管理系统|数据库管理系统--并行
http://bbit.vip/service/main.php?version=2&type=article&id=Bhi16u25040FF6YGFuKVy7D7Q7转载 2021-06-30 19:56:57 · 160 阅读 · 0 评论 -
大数据存储
转自个人服务器:http://burningcloud.cn/article/163/index.html原创 2021-03-25 21:02:23 · 474 阅读 · 0 评论 -
大图计算框架实例
转自个人服务器:http://burningcloud.cn/article/164/index.html原创 2021-03-24 13:52:12 · 533 阅读 · 0 评论 -
大图计算框架
转自个人服务器:http://burningcloud.cn/article/170/index.html原创 2021-03-24 13:51:31 · 523 阅读 · 0 评论 -
大数据实时计算框架-实例
转自个人服务器:http://burningcloud.cn/article/174/index.html原创 2021-03-24 13:50:08 · 732 阅读 · 0 评论 -
大数据实时计算框架
转自个人服务器:http://burningcloud.cn/article/172/index.html原创 2021-03-24 13:49:09 · 1724 阅读 · 1 评论 -
大数据批处理框架--Hyracks
转自个人服务器:http://burningcloud.cn/article/173/index.html原创 2021-03-24 13:48:33 · 652 阅读 · 0 评论 -
大数据批处理框架--Spark
转自个人服务器:http://burningcloud.cn/article/168/index.html原创 2021-03-24 13:47:59 · 838 阅读 · 0 评论 -
大数据计算框架实例:Hadoop数据管理
转自个人服务器: http://burningcloud.cn/article/169/index.html原创 2021-03-24 13:47:03 · 489 阅读 · 0 评论 -
大数据计算框架实例:Hadoop
转自个人服务器:http://burningcloud.cn/article/165/index.html原创 2021-03-24 13:45:36 · 488 阅读 · 0 评论 -
大数据计算框架概述
转自个人服务器: http://burningcloud.cn/article/166/index.html原创 2021-03-24 13:44:37 · 802 阅读 · 0 评论 -
大数据计算系统概述
转自个人服务器:http://burningcloud.cn/article/167/index.html原创 2021-03-24 13:43:25 · 925 阅读 · 0 评论 -
大数据 | 大数据基础--算法之外存模型算法:List Ranking
亲爱的读者朋友大家晚上好,上次我们简单介绍了基于外存模型的排序算法,这次我们来介绍另一个有趣的问题list ranking。详见:http://burningcloud.cn/article/130/index.html原创 2020-12-07 12:02:11 · 1772 阅读 · 0 评论 -
大数据 | 大数据基础--算法之外存模型算法:外存排序
亲爱的读者朋友大家晚上好,上次我们简单介绍了外存模型以及一些基本问题,这次我们来介绍外存模型下的排序算法。详见:http://burningcloud.cn/article/129/index.html原创 2020-12-07 12:01:07 · 1759 阅读 · 0 评论 -
大数据 | 大数据基础--算法之外村模型算法:外存模型
亲爱的读者朋友大家晚上好,前几次我们简单介绍了并行模型算法,这次我们来介绍外村模型以及相应的一些算法。详见:http://burningcloud.cn/article/128/index.html原创 2020-12-07 12:00:08 · 1515 阅读 · 0 评论 -
大数据 | 大数据基础--算法之并行计算算法:计算最小支撑树(生成树)
亲爱的读者朋友大家晚上好,上次我们简单介绍了并行算法以及有关矩阵乘法的几个基本问题,这次我们来分析基于MapReduce的计算最小生成树算法。详见:http://burningcloud.cn/article/127/index.html原创 2020-12-07 11:59:01 · 1940 阅读 · 1 评论 -
大数据 | 大数据基础--算法之并行计算算法:排序算法
亲爱的读者朋友大家晚上好,上次我们简单介绍了并行算法以及有关矩阵乘法的几个基本问题,这次我们来分析基于MapReduce的排序算法。详见:http://burningcloud.cn/article/126/index.html原创 2020-12-07 11:57:57 · 1795 阅读 · 0 评论 -
大数据 | 大数据基础--算法之并行计算算法:基本问题(二)
亲爱的读者朋友大家晚上好,简单介绍并行算法以及有关矩阵乘法的几个基本问题。详见:http://burningcloud.cn/article/125/index.html原创 2020-12-07 11:56:58 · 1613 阅读 · 0 评论 -
大数据 | 大数据基础--算法之并行计算算法:基本问题(一)
亲爱的读者朋友大家晚上好,从今天开始我们来介绍并行算法。简介并行算法一般基于一定的框架进行计算,常用的计算框架主要有PRAM模型,BSP(Bulk Synch Parallel)模型,MapReduce模型。我们主要分析MR模型,这里将的是理论的分析模型,具体的实现计算平台,比如hadoop等在后面会进行分析。详见:http://burningcloud.cn/article/124/index.html...原创 2020-12-07 11:55:38 · 1910 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法:计算图的平均度算法四
亲爱的读者朋友大家晚上好,上次我们分析了计算平均度的第三个估计算法,它已经是一个近似比为的算法了。继续对此算法进行优化得到的算法四比较抽象,就不做详细的分析了,在此把过程展示给大家,有兴趣的小伙伴可以自己研究一下。详见:http://burningcloud.cn/article/123/index.html...原创 2020-12-07 11:54:37 · 1580 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法:计算图的平均度算法三
亲爱的读者朋友大家晚上好,上次我们分析了计算平均度的第二个估计算法,简而言之就是在算法一的基础上为小桶定一个下届。我们继续对算法二进行优化,这次我们期望获得一个近似比为的算法。算法改进的思想我们将算法出现的误差归结到边上,让我们来看看究竟是哪些边导致了这样的错误。将节点分为两部分,其中是度数较小的节点,是度数较大的节点,表示连接两个集合的边的集合。于是,我们断言出现误差就是因为中的边我们只计算了一次,关于这一点我们回忆一下之前举的例子就很好理解了。于是我们只要找到每次抽样的时候这部分的边的比例就可以了。原创 2020-12-07 11:53:18 · 1670 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法:计算图的平均度算法二
亲爱的读者朋友大家晚上好,上次我们分析了计算平均度的第一个估计算法,简而言之就是先分桶,然后估计桶的大小。然而该算法在特定的情境下表现非常不好。这次,我们从一个反例开始。反例举反例之前先来简单回顾一下上个算法的内容。从VVV取出样本集合SSSSi←S∩BiS_i \gets S \cap B_iSi←S∩Biρi←SiS\rho_i \gets \frac{S_i}{S}ρi←SSi返回dˉ^=∑i=0t−1ρi(1+β)i\hat{\bar{d}} = \sum_{i=0}^{t-原创 2020-10-07 23:14:59 · 2300 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法:计算图的平均度算法一
亲爱的读者朋友大家晚上好,前几篇文章我们介绍了点集合的直径和连通分量的数量等几个问题,这次我们来分析图的平均度的计算,这个问题的定义非常简单。定义已知:G=(V,E)G=(V,E)G=(V,E)求:平均度dˉ=∑u∈Vd(u)n\bar{d} = \frac{\sum_{u\in V}d(u)}{n}dˉ=n∑u∈Vd(u)假设:GGG是简单图,没有平行边和自环;GGG由邻接链表和存储度数的数组表示,如图中的d(v),node(v)d(v),node(v)d(v),node(v)所示。[外链图原创 2020-10-07 23:13:56 · 3181 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法:近似最小支撑树
亲爱的读者朋友大家晚上好,前两篇文章我们介绍了点集合的直径和连通分量的数量这两个问题,这次我们来分析近似最小支撑树,还是照例,我们先来看一下问题的形式化定义。定义已知:G=(V,E),ϵ,d=deg(G)G=(V,E),\epsilon,d = deg(G)G=(V,E),ϵ,d=deg(G),边(u,v)(u,v)(u,v)的权重是wuv∈{1,2,…,w}∪{∞}w_{uv}\in \{1,2,\dots,w\}\cup \{\infty\}wuv∈{1,2,…,w}∪{∞}求:M^\hat{M原创 2020-10-07 23:12:30 · 2464 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法求连通分量的数目
亲爱的读者朋友大家好,上次我们分析了如何用一个亚线性时间算法估计一个点集合的直接,并对算法给出的结果的近似比进行了分析。这次我们来看另外一个经典的问题,求连通分量的数目。同样地,还是让我们先来看一下问题的定义:定义:已知:G=(V,E),ϵ,d=deg(G)G = (V,E),\epsilon,d = deg(G)G=(V,E),ϵ,d=deg(G),图GGG用邻接表表示,其中ddd表示所有节点中度最大的节点的度,∣V∣=n,∣E∣=m≤d⋅n|V| = n,|E| = m \leq d\cdot n原创 2020-10-07 23:11:43 · 2547 阅读 · 0 评论 -
大数据 | 大数据基础--算法之亚线性时间算法求点集合的直径
这一部分要介绍的亚线性时间算法总共有四个,这篇短文介绍的是其中之一,求点集合的直径。我们先来看一下问题定义:定义:已知:有mmm个点,点与点之间的距离使用邻接矩阵表示,则DijD_{ij}Dij表示点iii到点jjj的距离,DDD是一个对称矩阵,并且满足三角不等式Dij≤Dik+DkjD_{ij} \leq D_{ik} + D_{kj}Dij≤Dik+Dkj。求出:点对(i,j)(i,j)(i,j)使得DijD_{ij}Dij是最大的,则DijD_{ij}Dij是这mmm个点的集合的直原创 2020-10-07 22:56:15 · 2518 阅读 · 0 评论