自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 python每日算法-2021-01-07

'''题目描述有一群孩子和一堆饼干,每个孩子有一个饥饿度,每个饼干都有一个大小。每个孩子只能吃 一个饼干,且只有饼干的大小不小于孩子的饥饿度时,这个孩子才能吃饱。求解最多有多少孩子 可以吃饱。'''arr1=[1,2,5,9]arr2=[1,3,21,4]def weibao(arr1,arr2): i=0 arr1.sort() arr2.sort() for j in arr1: while(len(arr2)>0):..

2021-01-07 11:17:10 350

转载 大数据技术列表

当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。为了帮助大家更好深入了解大数...

2019-02-01 16:10:09 669

转载 大数据之路~第十二章 元数据

1 元数据概述1.1 元数据定义阿里常见的技术元数据:1 分布式计算系统存储元数据,如MaxCompute表、列、分区等信息。记录了表的表名、分区信息、责任人信息、文件大小、表类型、生命周期,以及列的字段名、字段类型、字段备注、是否是分区字段等系统。2 分布式计算系统运行元数据,如MaxCompute上所有作业运行等信息;类似于Hive的Job日志,包括作业类型、...

2019-02-01 15:54:49 618

转载 大数据之路~第十五章 数据质量

    随着IT向DT时代的转变,数据重要性不言而喻,数据的应用也日趋繁茂,数据正扮演着一个极重要的角色。而对于日益重视的数据,如何保障其质量也是业界普遍关注的话题。1 数据质量保障原则2 数据质量方法概述    阿里的业务复杂,种类繁多的产品每天产生数以亿计的数据,每天的数据量在PB级以上,而数据消费端的应用又层出...

2019-02-01 15:53:45 419

转载 大数据之路~第八章 模型概述

原 理论篇~第三章 数据模型设计 2017年09月24日 10:07:02 wer0735 阅读数:3455 </div> <div class="operating"> ...

2019-02-01 15:51:45 718

转载 大数据之路~第十一章 事实表设计

1 事实表基础2 事务事实表3 周期快照事实表4 累积快照事实表5 三种事实表的比较6 无事实的事实表    第一种是事实类,记录事件的发生。比如用户的浏览日志。   第二种是条件、范围或资格类的,记录维度与维度多对多之间的关系。7 聚集型事实表    聚集的基本原则 &nb...

2019-02-01 15:49:15 431

转载 大数据之路~第十章 维度设计

1 维度设计基础    1.1 维度的基本概念         维度是维度建模的基础和灵魂。在维度建模中,将度量称为“事实”,将环境描述称为“维度”,维度是用于分析事实所需要的多样环境。      

2019-02-01 15:46:59 778

转载 大数据之路~第四章 离线数据开发

2019-02-01 15:40:50 456

转载 大数据之路~第三章 数据同步

    大家可能对命名规范重视不太够。在多年的工作中,碰到太多由于命名不规范,导致代码混乱和数据管理困难等问题。这个问题在元数据管理时,体现得特别重要。当然,每个公司的命名规范不一样,只要做到易理解、易管理就行。接下来,说说自己的理解。1 表    表的命名首先按数据分层和主题来划分来定规范。 &nb

2019-02-01 15:24:03 284

转载 大数据之路~第一章 总述

    接下来,我们以阿里巴巴大数据架构图来介绍。    大数据系统体系分为数据采集层、数据计算层、数据服务层和数据应用层。简单介绍一下这四层的具体作用和使用到的技术(讲述的内容包含但不限于阿里巴巴的知识):    1 数据采集层

2019-02-01 15:14:21 249

转载 hive优化2

常用调优测试语句 : ①显示当前hive环境的参数值:set 参数名;如:  hive> set mapred.map.tasks;mapred.map.tasks;②设置hive当前环境的参数值,但仅对本次连接有效set 参数名 = 值;如:hive> set mapred.map.tasks;mapred.map.tasks=2;hive job优化1、并行优化hive job的并...

2018-04-27 11:12:50 249

转载 hive优化

hive的查询注意事项以及优化总结 .Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from Aj...

2018-04-12 14:40:09 129

转载 spark参数调优

spark原理地址:http://www.cnblogs.com/tgzhu/p/5818374.html摘要  1.num-executors  2.executor-memory  3.executor-cores  4.driver-memory  5.spark.default.parallelism  6.spark.storage.memoryFraction  7.spark.shu...

2018-04-10 10:01:06 149

转载 hive基础

近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上的行业标准之一。面对当今互联网产生的巨大的TB甚至PB级原始数据,利用基于Hadoop的数据仓库解决方案Hive早已是Hadoop的热点应用之一。达观数据团队长期致力于研究和积累Hadoop系统的技术和经验,并构建起了分布式存储、分析、挖掘以及应用的整套大数据处理平台。本文...

2018-03-23 13:23:09 689

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除