![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 79
数据探险家
专注分享Flink、Hadoop、Spark等大数据及AI技术,爱好原创
展开
-
云计算环境下的大规模图数据处理技术
1 引 言图是计算机科学中最常用的一类抽象数据结构, 在结构和语义方面比线性表和树更为复杂, 更具有一般性表示能力。 现实世界中的许多应用场景都需要用图结构表示, 与图相关的处理和应用几乎无所不在。 传统应用如最优运输路线的确定、疾病爆发路径的预测、科技文献的引用关系等; 新兴应用如社交网络分析、语义Web 分析、生物信息网络分析等。虽然图的应用和处理技术已经发展了很长时间, 理论转载 2014-04-30 15:33:45 · 4132 阅读 · 3 评论 -
Hadoop TeraSort算法之2-trie树构造时间解惑
前言:近日,需要用Metis或ParMetis对大图数据进行分区,而分区的要求是输入的无向图要按照顶点ID排序,于是想到用Hadoop中的TeraSor算法对无向图进行排序。正文:研读TeraSort源码后,对其思想和算法基本掌握。TotalOrderPartitioner类实现了Partitioner和JobConfigurable接口,并覆写了getPartition()和co原创 2014-03-06 20:42:49 · 2016 阅读 · 0 评论 -
修改 Hadoop TeraSort算法 —— 按照LongWritable类型的Key排序
近日,需要用ParMetis对大图数据进行分区,其输入是无向图(邻接表形式)且按照顶点ID排序,于是想到用Hadoop中的TeraSort算法对无向图进行排序。但Hadoop自带TeraSort算法是按照每行数据的前两个字符排序的,不能满足要求。由于图一般都是用邻接表的形式存储,改进的TeraSort算法就是按照顶点ID进行排序,支持有向图和无向图,边上可附加权值。下面以无向图为例讲述数据的输原创 2014-03-07 22:16:21 · 6453 阅读 · 1 评论 -
CDH5.12.0-HiveServer2-java.net.SocketTimeoutException: Read timed out
基于CDH构建离线数仓,在通过JDBC向HiveServer2提交作业时出现java.net.SocketTimeoutException: Read timed out 错误,导致大批量的作业失败,不能按时产生数据,已严重影响到业务运行。原创 2018-12-14 21:03:45 · 16656 阅读 · 1 评论