大数据
blueheart丶
If I had eight hours to chop down a tree, I would spend six hours sharpening my axe。
展开
-
spark的topn问题
1、按第一个字段从大到小降序取出前三个字段3,zhangsan5,lisi6,wangwu7,wermaziang1,bjsxt4,shsxt5,xiansxt6,gzsxt9,laogao0,xiaogao3,laoxiaoJavaRDD<String> linesRDD = sc.textFile("top.txt");JavaPairRDD&l...原创 2019-02-13 22:04:43 · 662 阅读 · 0 评论 -
数据分析必须想清楚的两个概念:指标和维度(转)
指标与维度是数据分析中最常用到的术语,它们是非常基础的,但是又很重要,经常有朋友没有搞清楚它们之间的关系,只有掌握理解了,我们的数据分析工作开展就就容易多了。现在就来说说指标与维度的那些事。1、指标指标,用于衡量事物发展程度的单位或方法,它还有个IT上常用的名字,也就是度量。例如:人口数、GDP、收入、用户数、利润率、留存率、覆盖率等。很多公司都有自己的KPI指标体系,就是通过几个关键指标...转载 2019-02-13 02:39:48 · 13732 阅读 · 0 评论 -
hadoop的搭建
一、为分布式模式配置:1、配置env结尾的配置文件的java,因为远程启动不会加载本地的配置的java_homehadoop-env.sh、mapred-env.sh、yarn-env.shexport JAVA_HOME=/usr/java/jdk1.8.0_181-amd64 2、配置 etc/hadoop/core-site.xml:<configu...原创 2019-02-14 20:47:53 · 162 阅读 · 0 评论