- 博客(57)
- 资源 (1)
- 收藏
- 关注
原创 spark 使用aggregateByKey 代替groupbyKey
性能调优中有个方案, 叫使用 aggregateBykey 代替 groupbykey, 为啥呢?应为aggregateByKe,使用map-side预聚合的shuffle操作, 相当于再map端进行了聚合的操作,相当于mapreduce 中进行combiner 介绍一下aggregateBykey这个方法这里面一共传了三个 参数,这里用到了柯里化 ,我分别做一下...
2018-12-29 16:48:44
1905
原创 基于 spark ml NaiveBayes实现中文文本分类
思路: 1 准备数据 2,代码编写准备数据 这里数据我将它分为两类, 1 军事,2 nba , 我将文件数据放在下面 代码编写: 这里面我用的是spark ml 进行代码的实现的, spark 版本用的是2.2(spark 2.0 和 1.6 对spark ml 影响挺大的, 1.6的 ml 中的 LabeledPoint 可以转化为...
2018-12-18 18:48:43
2347
转载 [思想架构] 浅谈数据仓库建设中的数据建模方法
原文链接:http://www.aboutyun.com/thread-12076-1-1.html问题导读:1、如何理解IBM 的 TDWM 概念模型是什么?2、什么是数据模型和数据仓库模型?3、为什么需要数据模型,如何建设数据模型以及数据仓库数据模型架构?4、数据仓库建模阶段划分分为多少阶段?5、数据仓库建模方法都有哪些? 所谓水无定势,兵无常法。不同的行业,有不同行业的特点...
2018-08-20 09:50:26
1418
原创 spark的运行流程
Spark运行流程 看任何东西都是(知其然,再知其所以然), 我会先简单的介绍流程, 让初学者有个大概的概念,其中有很多名称,我会在下面对其做出介绍,当 jar 在客户端进行spark-submit的时候spark流程就开始了,先概括的介绍一下流程, 在讲述一下流程中的重要组件1.application启动之后, 会在本地启动一个Driver进程 用于控制整个流程,(假设我们使...
2018-08-19 11:18:19
14798
11
转载 scala练习题
博客来源:https://www.cnblogs.com/steamedbundad/p/scalaExercise.html(个人感觉还是挺不错的)1、**[primary]**关于和Scala进行交互的基本方式REPL说法错误的是? CA、R 读取(read)B、E 求值(evaluate)C、P 解析(Parse)D、L 循环(Loop)2、**[primary]*...
2018-08-01 09:19:40
10204
原创 python的排序算法
冒泡排序冒泡排序(英语:Bubble Sort)是一种简单的排序算法。它重复地遍历要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。遍历数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。冒泡排序算法的运作如下:比较相邻的元素。如果第一个比第二个大(升序),就交换他们两个。 对每一...
2018-07-21 15:27:13
1368
原创 hdfs,mapreduce相关流程总结
HDFS读写数据的过程写 1)client向namenode发送请求,namenode从元数据中检查目标文件是否存在,上传路径路径是否合法2)namenode返回是否可以上传文件,假设可以上传3)client请求第一个 block该传输到哪些datanode服务器上 4)namenode返回可以上传的datanode 服务器dn1 dn2 dn45)client将于datanode中最近的一个...
2018-07-05 11:35:04
5250
原创 使用python3爬去360图片
基于windows 下 使用python3读取 http://image.so.com/z?ch=beauty 第一步 引入工具包 from retrying import retryimport requestsimport urllib.requestimport randomimport jsonimport time如果你的包 不能够导入成功 必须先去 安装对应...
2018-06-29 11:36:55
2003
原创 mr对hbase进行数据的读写
1. 实现方法Hbase对MapReduce提供支持,它实现了TableMapper类和TableReducer类,我们只需要继承这两个类即可。1、写个mapper继承TableMapper<Text, IntWritable> 参数:Text:mapper的输出key类型; IntWritable:mapper的输出value类型。 其中的map方法如下: map(Immutable...
2018-06-25 17:15:43
2858
原创 sqoop 安装和基本操作
1 概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库2 工作机制将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对inputformat和outputforma...
2018-06-13 15:32:13
6649
原创 hive 练习题 求学生选课情况
1、数据说明id course 1,a 1,b 1,c 1,e 2,a 2,c 2,d 2,f 3,a 3,b 3,c 3,e(2)字段含义表示有id为1,2,3的学生选修了课程a,b,c,d,e,f中其中几门。建表语句create table t_course(id int,course string)row format delimited fields termin...
2018-06-12 09:03:41
1640
4
原创 求每一年最大气温的那一天和温度
1.需求:求每一年最大气温的那一天和温度 2.数据如下:2014010216201401041020120106092012010812201201102320010102122001010411201301061920130108122013011023200801021620080104142007010619200701081220070110232010010216201001041020...
2018-06-11 09:48:16
1547
原创 Hadoop-练习 利用hive进行数据查询
1 准备测试数据 问题1:求各个部门的总工资 问题2:求各个部门的人数和平均工资 问题3:求每个部门最早进入公司的员工姓名 问题4:求各个城市的员工的总工资 问题5:列出工资比上司高的员工姓名及其工资 问题6:列出工资比公司平均工资要高的员工姓名及其工资 问题7:列出名字以J开头的员工姓名及其所属部门名称 问题8:列出工资最高的头三名员工姓名及其工资 问题9:将全体员工按照总收入(工资+...
2018-06-10 16:59:02
6284
原创 shell脚本写飞行棋
#!/bin/bash#定义一个函数用于产生随机数function zsz(){ let random=$(($RANDOM%6))+1; return $random}#获得一个数组 向数组中添加棋盘for((i=0;i<=75;i++))do array4[$i]=□ #埋雷 if [[ $i -eq 9 || $i -eq 23...
2018-06-07 09:35:11
691
原创 深拷贝 于 浅拷贝的区别
import copya=[11,22]b=[11,22]print(a==b)# 判断的是否指向的是同一个应用print(a is b )# 浅拷贝 只是拷贝引用地址c=a#深拷贝 复制了 数据d=copy.deepcopy(a)e=(11,22)q=es=copy.deepcopy(e)# 对于元组来说 , 深拷贝 和浅拷贝 都是一样的 , 因...
2018-05-28 14:18:33
201
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅