自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (1)
  • 收藏
  • 关注

原创 spark 使用aggregateByKey 代替groupbyKey

性能调优中有个方案, 叫使用 aggregateBykey 代替 groupbykey, 为啥呢?应为aggregateByKe,使用map-side预聚合的shuffle操作, 相当于再map端进行了聚合的操作,相当于mapreduce 中进行combiner 介绍一下aggregateBykey这个方法这里面一共传了三个 参数,这里用到了柯里化 ,我分别做一下...

2018-12-29 16:48:44 1905

原创 基于 spark ml NaiveBayes实现中文文本分类

思路:  1  准备数据  2,代码编写准备数据      这里数据我将它分为两类, 1 军事,2 nba   , 我将文件数据放在下面  代码编写:  这里面我用的是spark  ml  进行代码的实现的, spark 版本用的是2.2(spark 2.0 和 1.6 对spark ml  影响挺大的, 1.6的  ml 中的  LabeledPoint  可以转化为...

2018-12-18 18:48:43 2347

转载 [思想架构] 浅谈数据仓库建设中的数据建模方法

原文链接:http://www.aboutyun.com/thread-12076-1-1.html问题导读:1、如何理解IBM 的 TDWM 概念模型是什么?2、什么是数据模型和数据仓库模型?3、为什么需要数据模型,如何建设数据模型以及数据仓库数据模型架构?4、数据仓库建模阶段划分分为多少阶段?5、数据仓库建模方法都有哪些?       所谓水无定势,兵无常法。不同的行业,有不同行业的特点...

2018-08-20 09:50:26 1418

原创 spark的运行流程

Spark运行流程 看任何东西都是(知其然,再知其所以然), 我会先简单的介绍流程, 让初学者有个大概的概念,其中有很多名称,我会在下面对其做出介绍,当 jar 在客户端进行spark-submit的时候spark流程就开始了,先概括的介绍一下流程, 在讲述一下流程中的重要组件1.application启动之后, 会在本地启动一个Driver进程 用于控制整个流程,(假设我们使...

2018-08-19 11:18:19 14798 11

转载 scala练习题

博客来源:https://www.cnblogs.com/steamedbundad/p/scalaExercise.html(个人感觉还是挺不错的)1、**[primary]**关于和Scala进行交互的基本方式REPL说法错误的是? CA、R 读取(read)B、E 求值(evaluate)C、P 解析(Parse)D、L 循环(Loop)2、**[primary]*...

2018-08-01 09:19:40 10204

原创 python的排序算法

冒泡排序冒泡排序(英语:Bubble Sort)是一种简单的排序算法。它重复地遍历要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来。遍历数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。冒泡排序算法的运作如下:比较相邻的元素。如果第一个比第二个大(升序),就交换他们两个。 对每一...

2018-07-21 15:27:13 1368

原创 hdfs,mapreduce相关流程总结

HDFS读写数据的过程写 1)client向namenode发送请求,namenode从元数据中检查目标文件是否存在,上传路径路径是否合法2)namenode返回是否可以上传文件,假设可以上传3)client请求第一个 block该传输到哪些datanode服务器上  4)namenode返回可以上传的datanode 服务器dn1 dn2  dn45)client将于datanode中最近的一个...

2018-07-05 11:35:04 5250

原创 使用python3爬去360图片

基于windows 下 使用python3读取  http://image.so.com/z?ch=beauty 第一步     引入工具包 from retrying import retryimport requestsimport urllib.requestimport randomimport jsonimport time如果你的包 不能够导入成功  必须先去 安装对应...

2018-06-29 11:36:55 2003

原创 mr对hbase进行数据的读写

1. 实现方法Hbase对MapReduce提供支持,它实现了TableMapper类和TableReducer类,我们只需要继承这两个类即可。1、写个mapper继承TableMapper<Text, IntWritable> 参数:Text:mapper的输出key类型; IntWritable:mapper的输出value类型。 其中的map方法如下: map(Immutable...

2018-06-25 17:15:43 2858

原创 sqoop 安装和基本操作

1 概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库2 工作机制将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对inputformat和outputforma...

2018-06-13 15:32:13 6649

原创 hive 练习题 求学生选课情况

1、数据说明id course 1,a 1,b 1,c 1,e 2,a 2,c 2,d 2,f 3,a 3,b 3,c 3,e(2)字段含义表示有id为1,2,3的学生选修了课程a,b,c,d,e,f中其中几门。建表语句create table t_course(id int,course string)row format delimited fields termin...

2018-06-12 09:03:41 1640 4

原创 求每一年最大气温的那一天和温度

1.需求:求每一年最大气温的那一天和温度 2.数据如下:2014010216201401041020120106092012010812201201102320010102122001010411201301061920130108122013011023200801021620080104142007010619200701081220070110232010010216201001041020...

2018-06-11 09:48:16 1547

原创 Hadoop-练习 利用hive进行数据查询

1   准备测试数据  问题1:求各个部门的总工资  问题2:求各个部门的人数和平均工资  问题3:求每个部门最早进入公司的员工姓名 问题4:求各个城市的员工的总工资 问题5:列出工资比上司高的员工姓名及其工资 问题6:列出工资比公司平均工资要高的员工姓名及其工资 问题7:列出名字以J开头的员工姓名及其所属部门名称 问题8:列出工资最高的头三名员工姓名及其工资 问题9:将全体员工按照总收入(工资+...

2018-06-10 16:59:02 6284

原创 shell脚本写飞行棋

#!/bin/bash#定义一个函数用于产生随机数function zsz(){ let random=$(($RANDOM%6))+1; return $random}#获得一个数组 向数组中添加棋盘for((i=0;i<=75;i++))do array4[$i]=□ #埋雷 if [[ $i -eq 9 || $i -eq 23...

2018-06-07 09:35:11 691

原创 交换两个变量的值

a=a+bb=a-ba=a-b通过两个参数实现交换

2018-05-29 19:37:19 556

原创 位运算

位运算是相对于二进制来说的  所以说<<  向左移动 是乘2   >>  相反   除2      

2018-05-28 14:36:09 172

原创 深拷贝 于 浅拷贝的区别

import copya=[11,22]b=[11,22]print(a==b)# 判断的是否指向的是同一个应用print(a is b )# 浅拷贝 只是拷贝引用地址c=a#深拷贝 复制了 数据d=copy.deepcopy(a)e=(11,22)q=es=copy.deepcopy(e)# 对于元组来说 , 深拷贝 和浅拷贝 都是一样的 , 因...

2018-05-28 14:18:33 201

shell脚本编写的飞行棋

备注挺详细的 , 小白也能看的懂 , 拿过去也可以直接运行,如果发现了bug 请联系

2018-08-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除