
BigData
文章平均质量分 77
默一鸣
韬光养晦
展开
-
Hadoop、Spark等5种大数据框架对比,你的项目该用哪种?
Hadoop、Spark等5种大数据框架对比,你的项目该用哪种? 本文将介绍并对比5种主流大数据框架,助你更深层次了解这些框架,从而在项目中更好地使用它们。 本文首发于InfoQ垂直号「大数据杂谈」,转载已获授权。 简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机转载 2017-02-17 17:01:34 · 29953 阅读 · 0 评论 -
Hive(九)--两次group by的小例子
需求是这样的,原始数据第一列是用户的id,第二列是用户的行为,想按用户有过的行为点,对用户做聚合,并且统计各种行为组合的用户数量比如下表x1 y1x1 y2x2 y1x2 y2x3 y1通过sql合并成x1 y1,y2x2 y1,y2x3 y1然后再按新的列group by,结果是y1,y2 2个y1 1个代码这样写:原创 2017-04-06 17:54:35 · 3857 阅读 · 0 评论 -
MapReduce实现两表的Join--原理及python和java代码实现
用Hive一句话搞定的,但是有时必须要用mapreduce方法介绍1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。2. 常见原创 2020-05-25 12:10:14 · 17973 阅读 · 0 评论 -
Hive(十三)--Group by 问题:Expression Not In Group By Key
hive又遇到了问题:原来的MySQL中sql语句为[sql] view plain copySELECT DATEBUF, CITYID, CHANNELID FROM STAT_CVCHNEW WHERE DATEBUF>=20110517 AND DATEBUFGROUP BY DATEBUF, CITYID;原创 2017-05-23 10:56:02 · 12377 阅读 · 0 评论 -
Hive(十四)--静态分区和动态分区
静态分区是分区的时候指定所分的区,不能自动实现分区。动态分区可以在程序运行的时候以某一列变量的值进行分区。静态分区表:一级分区表:CREATE TABLE order_created_partition ( orderNumber STRING , event_time STRING)PARTITIONED BY (event_mont原创 2017-05-23 10:58:13 · 3240 阅读 · 0 评论 -
Spark MLlib简介
Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因:(1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止,迭代时如果使用Hadoop的MapReduce计算框架,每次计算都要读/写磁盘以及任务的启动等工作,这回导致非常大的I/O和CPU消耗。而Spark基于内存的计算模型天生就擅长迭代计算,多个步骤计算直接在内存中原创 2017-05-25 12:53:24 · 10867 阅读 · 0 评论 -
(乱入)excel按照某一列数据(相同的)join 两表的其他数据
假设表一有:学号和姓名列表二有:学号和性别列且表一和表二的顺序是打乱的。想在表一中的第三列把表二的性别加上。表一的第三列=INDEX(Sheet2!B:B,MATCH(A1,Sheet2!A:A,0))从表二中选第二列即B列,match条件是(当前表即表一的)A1(学号)和表二的A列(也是学号)完全匹配(0表示完全匹配)原创 2017-06-07 16:36:51 · 6372 阅读 · 0 评论 -
Hive(十五)--控制hive任务中的map数和reduce数
一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例:a) 假设input目录下有1个文原创 2017-07-19 10:46:33 · 877 阅读 · 0 评论 -
Hive(十六)--内置函数大全
摘要Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数。 目录数学函数集合函数类型转换函数日期函数条件函数字符函数聚合函数表生成函数 数学函数Return TypeName (Signature)转载 2017-08-01 15:05:14 · 8417 阅读 · 0 评论 -
Hive(十七)--排序
order byorder by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。set Hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b原创 2017-08-28 19:20:56 · 364 阅读 · 0 评论 -
Hive(十八)--全局排序
不分发数据,使用单个reducerset mapred.reduce.tasks=1;select * from dw.dw_app where dt>='2016-09-01' and dt '2016-09-18' order by stimelimit 30000; 包多一层,是用order byselect t.* from原创 2017-08-28 19:21:47 · 1142 阅读 · 0 评论 -
Hive(十九)--分桶
创建带分桶的表建表语句 CREATE TABLE user_info_bucketed(user_id BIGINT, firstname STRING, lastname STRING) COMMENT 'A bucketed copy of user_info' PARTITIONED BY(ds STRING) CLUSTERED BY(user_id) INTO 2原创 2017-08-28 19:25:57 · 682 阅读 · 0 评论 -
Google三驾马车:GFS、MapReduce和Bigtable
MapReduce、GFS和BigTable的论文都已经被翻译成高质量的中文, 为了方便大家整理,我把三篇论文的地址统一列在这里:MapReduce:http://blog.csdn.net/active1001/archive/2007/07/02/1675920.aspxGFS:http://blog.csdn.net/xuleicsu/archive/2005/1原创 2017-10-14 19:31:27 · 4319 阅读 · 0 评论 -
Hive(八)--日期函数
无论做什么数据,都离不开日期函数的使用。这里记录一下Hive的日期函数的使用,写的相当完整。 1.日期函数UNIX时间戳转日期函数: from_unixtime语法:from_unixtime(bigint unixtime[, string format]) 返回值: string说明: 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时原创 2017-04-06 11:21:20 · 2056 阅读 · 0 评论 -
Hive(十二)--Hive函数大全
一、关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: Hive>select 1 from lxw_dual where 1=1; 12. 不等值比较: 语转载 2017-04-18 13:49:01 · 912 阅读 · 0 评论 -
Hive(十一)--数据去重及row_number()
distinct会整条数据去重,有一项是不同的整条数据就算不同的,不会去掉,按照某一个字段去重需要如下方法hive数据去重,并根据需求取其中一条数据案例:name adx tran_id cost ts ck 5 125.168.10.0原创 2017-04-12 11:18:23 · 21062 阅读 · 2 评论 -
Hadoop学习资料汇总
Spark学习资料汇总视频hadoop学习资料另一个博主整理的,包括很多视频下载和书籍下载,版权问题贴个链接大家自己看吧书籍提供下载地址仅供学习请尊重版权勿盗印以下书目下载地址 《Learning Hadoop 2》 英文版 《Apache Hadoop YARN》英文版 《Hadoop MapReduce v2 Cookbook, 2nd Edition》英文版 《Hadoop Th原创 2017-02-17 17:22:26 · 2461 阅读 · 0 评论 -
关于Spark和Spark的学习资料
Hadoop社区依然发展迅速,2014年推出了2.3,2.4, 2.5 的社区版本,比如增强 Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI…Hadoop Roadmap 根据我的观察,主要更新在Yarn,HDFS,而Mapreduce几乎停滞了,还有一些feature 属于安全,稳定可靠性一方面是比较稳定原创 2017-02-17 17:40:44 · 3222 阅读 · 0 评论 -
User xxxxxx cannot submit applications to queue root.default
Job Submission failed with exception 'java.io.IOException(org.apache.hadoop.yarn.exceptions.YarnException: Failed to submit application_1xxxxxxxxxxxxx to YARN : User xxxxxx cannot submit applications原创 2017-03-22 11:56:02 · 45676 阅读 · 0 评论 -
Hive(四)--数据导入导出方式
导入Hive的几种常见的数据导入方式这里介绍四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。一、从本地文件系统中导入数据到Hive表先在Hive里面创建好表,如下:原创 2017-03-14 18:20:50 · 1425 阅读 · 0 评论 -
Hive(七)--删除列alter table
CREATE TABLE test (creatingTs BIGINT,a STRING,b BIGINT,c STRING,d STRING,e BIGINT,f BIGINT);如果需要删除 column f 列,可以使用以下语句:ALTER TABLE test REPLACE COLUMNS (creatingTs BIGINT原创 2017-03-22 17:58:21 · 3625 阅读 · 1 评论 -
Hive(零)--概述
1.没有接触,不知道这个事物是什么,所以不会产生任何问题。2.接触了,但是不知道他是什么,反正我每天都在用。3.有一定的了解,不够透彻。那么hive,1.我们对它了解多少?2.它到底是什么?3.hive和hadoop是什么关系?扩展:hbase和hive是什么关系?Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求原创 2017-03-14 17:41:57 · 467 阅读 · 0 评论 -
Hive(一)--综合
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQ原创 2017-03-07 12:07:22 · 939 阅读 · 0 评论 -
Hive(二)--架构和组件
hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。 2.Hive是建立在 Hadoop 上的数据仓库基原创 2017-03-07 12:35:58 · 2804 阅读 · 0 评论 -
Hive(三)--基本操作
阅读本文章可以带着下面问题:1.与传统数据库对比,找出他们的区别2.熟练写出增删改查(面试必备)创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and th原创 2017-03-14 18:02:25 · 589 阅读 · 0 评论 -
Hive(五)--正则表达式
Hive中的正则表达式还是很强大的。数据工作者平时也离不开正则表达式。对此,特意做了个hive正则表达式的小结。所有代码都经过亲测,正常运行。1.regexp语法: A REGEXP B 操作类型: strings 描述: 功能与RLIKE相同select count(*) from olap_b_dw_hotelorder_f where create_date_wid原创 2017-03-15 13:41:47 · 2168 阅读 · 0 评论 -
Hive(六)--Join的使用
原理:笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成j原创 2017-03-15 17:16:23 · 876 阅读 · 0 评论 -
Hive(十)--数据类型转换、字符串函数、条件判断
数据类型转换同Java语言一样,Hive也包括 隐式转换(implicit conversions)和显式转换(explicitly conversions)。 Hive在需要的时候将会对numeric类型的数据进行隐式转换。比如我们对两个不同数据类型的数字进行比较,假如一个数据类型是INT型,另一个 是SMALLINT类型,那么SMALLINT类型的数据将会被隐式转换地转换为I原创 2017-04-11 16:51:24 · 152659 阅读 · 3 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapReduce 框架图:图 1.Hadoop 原 MapR原创 2018-01-03 22:49:57 · 733 阅读 · 0 评论