hadoop学习-stream-Top K记录

最新推荐文章于 2021-07-20 15:13:40 发布

我非英雄

最新推荐文章于 2021-07-20 15:13:40 发布

阅读量1.7k

点赞数

分类专栏： Hadoop 文章标签： Hadoop stream Top K

本文链接：https://blog.csdn.net/y521263/article/details/23129399

版权

这是《hadoop实战》（陆嘉恒）第4.1

摘要由CSDN通过智能技术生成

求海量数据中最大的K个记录

来源于《hadoop实战》(hadoop in action)（美拉姆）第4.7章节有关stream的习题。

数据源：apat63_99.txt 专利描述数据集，包含专利号、专利申请年份等等信息。可从美国国家经济研究局获得，网址为http://www.nber.org/patents

大约有290万条记录。

这里的脚本用的是python。

apat63_99.txt里面存有专利的各种信息，这里以第9列的专利特定专利声明个数作为排序的key值，将最大的K条完整记录输出。

apat63_99.txt格式：

"PATENT","GYEAR","GDATE","APPYEAR","COUNTRY","POSTATE","ASSIGNEE","ASSCODE","CLAIMS","NCLASS","CAT","SUBCAT","CMADE","CRECEIVE","RATIOCIT","GENERAL","ORIGINAL","FWDAPLAG","BCKGTLAG","SELFCTUB","SELFCTLB","SECDUPBD","SECDLWBD"
3070801,1963,1096,,"

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

我非英雄

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop学习-stream-Top K记录

这是《hadoop实战》（陆嘉恒）第4.1
复制链接

扫一扫

专栏目录

Hadoop经典案例Spark实现（六）——求最大的K个值并排序

Ganymede的Hadoop世界

01-08

2822

Hadoop经典案例Spark实现（六）——求最大的K个值并排序

hadoop实现topk

u011982711的博客

11-07

342

package max; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.net.URI; import java.util.ArrayList; import java.util.Comparator; import java.util.List; im...

参与评论您还未登录，请先登录后发表或查看评论

Stream流

weixin_45082703的博客

09-23

484

Stream流 Java8 API添加了一个新的抽象称为流 Streram 可以让你以一种声明的方式处理数据。 Stream 使用一种类似用 SQL 语句从数据库查询数据的直观方式来提供一种对 Java 集合运算和表达的高阶抽象。Stream API可以极大提高Java程序员的生产力，让程序员写出高效率、干净、简洁的代码。这种风格将要处理的元素集合看作一种流，流在管道中传输，并且可以在管道的节点上进行处理，比如筛选，排序，聚合等。元素流在管道中经过中间操作（intermediate operat

JDK1.8 新特性

Vermont_的博客

07-20

312

Java 8 (又称为 jdk 1.8) 是 Java 语言开发的一个主要版本。 Oracle 公司于 2014 年 3 月 18 日发布 Java 8 ，它支持函数式编程，新的 JavaScript 引擎，新的日期 API，新的Stream API 等。新特性 Java8 新增了非常多的特性，我们主要讨论以下几个： Lambda 表达式− Lambda 允许把函数作为一个方法的参数（函数作为参数传递到方法中）。方法引用− 方法引用提供了非常有用的语法，可以直接引用已有Java类..

php写hadoop,Hadoop --Streaming--PHP

weixin_42522045的博客

03-20

182

Hadoop 支持各种语言的模型.之前的实例中都是用 JAVA 写的:http://blog.sina.com.cn/s/blog_5f54f0be0101f6sj.html，然后打包成JAR, 再用 hadoop jar 来执行。我们还可以用其它语言写，然后通过 Streaming加载进去。Hadoop Streaming 使用 Unix 中的流与程序进行交互。如:[root@localhost...

hadoop3.3.0-winutils所有bin文件

02-27

Hadoop是Apache软件基金会开发的一个开源分布式计算框架，它允许在大规模集群上处理海量数据。Hadoop 3.3.0是该框架的一个版本，它带来了许多改进和新特性，旨在提升性能、稳定性和可扩展性。WinUtils是Hadoop在...

Hadoop下载 hadoop-3.3.3.tar.gz

07-06

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...

hadoop-3.3.4 版本（最新版）

12-14

Apache Hadoop （hadoop-3.3.4.tar.gz）项目为可靠、可扩展的分布式计算开发开源软件。官网下载速度非常缓慢，因此将hadoop-3.3.4 版本放在这里，欢迎大家来下载使用！ Hadoop 架构是一个开源的、基于 Java 的编程...

hudi-hadoop-mr-bundle-0.11.0.jar

06-28

hudi-hadoop-mr-bundle-0.11.0.jar 配合文档

hadoop-common-2.2.0-bin-master.zip

04-30

hadoop-common-2.2.0-bin-master(包含windows端开发Hadoop和Spark需要的winutils.exe),Windows下IDEA开发Hadoop和Spark程序会报错，原因是因为如果本机操作系统是windows，在程序中使用了hadoop相关的东西，比如写入...

JDK 8 之 Stream sorted() 示例

热门推荐

舒哥的blog

03-19

14万+

原文链接：http://www.concretepage.com/java/jdk-8/java-8-stream-sorted-example 国外对Java8一系列总结的不错，翻译过来给大家共享这篇文章将会讲解Java 8 Stream sorted()示例，我们能够以自然序或着用Comparator 接口定义的排序规则来排序一个流。Comparator 能用用lambada表达式来初

Hadoop 实战之运行AveragingWithCombiner

xiaocaichonga的专栏

10-16

9442

环境：Vmware 8.0 和ubuntu11.04 Hadoop 实战之运行AveragingWithCombiner---使用combiner提升性能第一步：首先创建一个工程命名为HadoopTest.目录结构如下图: 第二步: 在/home/tanglg1987目录下新建一个start.sh脚本文件，每次启动虚拟机都要删除/tmp目录下的全部文件，重新格式化namenod

hadoop streaming 输出数据分割与二次排序

enockipp的小'码'头

07-30

1万+

输出数据分割默认情况下Streaming框架将map输出的每一行第一个”\t”之前的部分作为key，之后的部分作为value，key\tvalue又作为reduce的输入。可以用-D stream.map.output.field.separator改变map输出中key和value的分隔符，用-D stream.num.map.output.key.fields设置分隔符的位置，该位置之

hadoop streaming 按字段排序与输出分割详解

bitcarmanlee的博客

07-11

1万+

1.默认情况在hadoop streaming的默认情况下，是以”\t”作为分隔符的。对于标准输入来说，每行的第一个”\t” 以前的部分为key，其他部分为对应的value。如果一个”\t”字符没有，则整行都被当做key。这个2.map阶段的sort与partitionmap阶段很重要的阶段包括sort与partition。排序是按照key来进行的。咱们之前讲了默认的key是由”\t”分隔得到的。我

怎样从10亿查询词找出出现频率最高的10个

思考，思考，再思考~

05-25

3131

原创文章，转载请注明：转载自董的博客本文链接地址: http://dongxicheng.org/big-data/select-ten-from-billions/ 1．问题描述在大规模数据处理中，常遇到的一类问题是，在海量数据中找出出现频率最高的前K个数，或者从海量数据中找出最大的前K个数，这类问题通常称为“top K”问题，如：在搜索引擎中，统计搜索最热门的10个查询词；在

Hadoop 表连接

huangshangyuanji的专栏

06-09

379

连接不同来源的数据 ---------------------------------- 在真实的情况中,会出现从不同的源中获取数据.如:要知道某些国家引用的专利是否来自另一个国家.这时候就又要查看引用数据:cite75_99.txt 又要查看国家信息 apat63_99.txt 在数据库中,用连接查询即可.但在 hadoop 中会较麻烦.可用的办法有: 一.R

Java 8系列之Stream的基本语法详解

行云间

02-10

7万+

概述继Java 8系列之Lambda表达式之后，我们来了解Stream。Stream 是用函数式编程方式在集合类上进行复杂操作的工具，其集成了Java 8中的众多新特性之一的聚合操作，开发者可以更容易地使用Lambda表达式，并且更方便地实现对集合的查找、遍历、过滤以及常见计算等。聚合操作为了学习聚合的使用，在这里，先定义一个数据类：public class Student { int no

jdk1.8新特性学习（二）Stream

top_explore的博客

05-20

624

Stream 官方给出的解释是：A sequence of elements supporting sequential and parallel aggregate operations.翻译过来是：一个支持顺序和并行聚合操作的元素序列。笔者的理解：Stream是一个提供了对集合的元素进行多种辅助性操作的集合。获取Stream 官方提供了多种获取Stream的方式。 1.p...

使用Java Stream摘要统计

最佳 Java 编程

06-08

372

基本类型的流（ IntStream等）提供了summaryStatistics( ）方法，该方法可用于获取流的多个统计属性（最小值，平均值等）。假设我们有一个人的名单。我们的目标是使用信息流获取列表中人员的最小和最大年龄。这里的问题是最小值和最大值的计算是终端流操作。因此，我们需要提出自己的约简实现或为每次计算创建一个新的流。天真的实现可能看起来像这样： List<...

Hadoop K-NN算法感悟

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交