大数据
-名字不重要-
这个作者很懒,什么都没留下…
展开
-
5、当前日志采样格式为如下,请编写MapReduce计算第四列每个元素出现的个数
题目 5、当前日志采样格式为如下,请编写MapReduce计算第四列每个元素出现的个数 a,b,c,d a,s,d,f d,f,g,c 就如此格式 思路 上面这个问题是网上很多面试指南中出现的,网上很多编程实例,但是很多把题意理解错了。很多错例只计算了第4列的数量,其他列包含了全给丢了。我认为原题的题意是计算第四列单词在全文的计数。 思路来自于《Hadoop编程指南》中第...原创 2019-06-07 10:42:20 · 1009 阅读 · 2 评论 -
Hive Local Mode
Hive,MapReduce和Local Mode Hive编译器(compiler)会为绝大多数查询操作生成MapReduce任务。这些任务会被提交给MapReduce集群,下面的变量指定了集群的位置: mapred.job.tracker (可用命令查看变量值:set mapred.job.tracker) 一般情况下,这个变量指定了拥有多个节点的集群位置。Hadoop也提供了设置让用...翻译 2019-06-17 11:52:28 · 678 阅读 · 0 评论 -
flink start-scala-shell.sh解惑
flink start-scala-shell.sh解惑 运行方式 本地 /bin/start-scala-shell.sh local 远端 /bin/start-scala-shell.sh remote master 8081 注:端口为8081,而非6123。之前试验的时候用了6123,怎么搞都不对 测试 下面的示...原创 2019-07-01 18:40:32 · 1126 阅读 · 1 评论 -
flink示例 - Wikipedia词条编辑实时流计算,Flink Scala api实现
flink示例 - Wikipedia词条编辑实时流计算,Flink Scala api实现 Flink官方的一个示例(https://ci.apache.org/projects/flink/flink-docs-release-1.8/tutorials/datastream_api.html) 作用:监控Wikipedia 实时编辑时间 官方示例是Java api实现的,文章中改为了更...原创 2019-07-01 23:54:10 · 325 阅读 · 0 评论