yinyang7008-CSDN博客

转载 MySQL SQL优化

优化目标　　1.减少 IO 次数　　IO永远是数据库最容易瓶颈的地方，这是由数据库的职责所决定的，大部分数据库操作中超过90%的时间都是 IO 操作所占用的，减少 IO 次数是 SQL 优化中需要第一优先考虑，当然，也是收效最明显的优化手段。　　2.降低 CPU 计算　　除了 IO 瓶颈之外，SQL优化中需要考虑的就是 CPU 运算量的优化了。order by, g

2016-09-08 14:59:46 305

转载 hive 中 Order by, Sort by ,Dristribute by,Cluster By 的作用和用法

order byorder by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。set hive.mapred.mode=nonstrict; (default value / 默认值)set hive.mapred.mode=strict; order b

2016-09-08 09:20:55 309

转载 hive SQL优化之distribute by和sort by

最近在优化hiveSQL，下面是一段排序，分组后取每组第一行记录的SQLINSERT OVERWRITE TABLE t_wa_funnel_distinct_temp PARTITION (pt='${SRCTIME}') SELECT bussiness_id, cookie_id, session_id, funnel_

2016-09-08 09:15:27 598

转载用户画像的技术选型与架构实现

这里讲解下用户画像的技术架构和整体实现，那么就从数据整理、数据平台、面向应用三个方面来讨论一个架构的实现（个人见解）。数据整理：1、数据指标的的梳理来源于各个系统日常积累的日志记录系统，通过sqoop导入hdfs,也可以用代码来实现，比如spark的jdbc连接传统数据库进行数据的cache。还有一种方式，可以通过将数据写入本地文件，然后通过sparksql的load或者hive的

2016-08-28 15:31:20 8954

转载 spark RDD transformation与action函数整理

1.创建RDDval lines = sc.parallelize(List("pandas","i like pandas"))2.加载本地文件到RDDval linesRDD = sc.textFile("yangsy.txt")3.过滤 filter 需要注意的是 filter并不会在原有RDD上过滤，而是根据filter的内容重新创建

2016-08-28 15:26:12 625

转载 Scala高阶函数

作为值的函数在Scala中，无法直接操纵方法，只能直接操纵函数，所以需要使用_。import scala.math._val temp = ceil _val num = 3.14println("fun:"+temp(num)) //4.0temp的类型是(Double)=>Double，意为接受Double参数并返回Double的函数。能够对fun做的有：调用，

2016-08-26 17:33:46 504

转载 scala雾中风景(2): 小括号与花括号

下面的问题，表面上看是小括号与花括号的问题。// map方法这样写不能编译通过scala> List(2).map( case 2 => "OK" )// 换做花括号就可以了scala> List(2).map{ case 2 => "OK" }不了解原因的话，觉得很诡异。分析一下，首先，map方法接受一个函数，这个函数将List中的元素映射为其他类型。实际上case

2016-08-26 14:24:15 844

转载 Spark函数详解系列之RDD基本转换

摘要： RDD：弹性分布式数据集，是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作，一个RDD代表一个分区里的数据集 RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作

2016-08-26 09:38:12 394

转载大数据环境下互联网行业数据仓库/数据平台的架构之漫谈-续

整体架构数据采集离线计算实时计算多维分析OLAP机器学习Ad-Hoc查询数据可视化上次写的《大数据环境下互联网行业数据仓库/数据平台的架构之漫谈》一文，已是一年前的事了，经过一年的沉淀与公司业务的发展，大数据平台的架构也有所演进，本文简单介绍了架构更新的部分。整体架构数据采集对于关系型数据库以及部分NOSQL（Redis、MongoDB）中的数据，仍然使用D

2016-08-26 09:36:24 2695

转载大数据环境下互联网行业数据仓库/数据平台的架构之漫谈

导读：整体架构数据采集数据存储与分析数据共享数据应用实时计算任务调度与监控元数据管理总结一直想整理一下这块内容，既然是漫谈，就想起什么说什么吧。我一直是在互联网行业，就以互联网行业来说。先大概列一下互联网行业数据仓库、数据平台的用途：整合公司所有业务数据，建立统一的数据中心；提供各种报表，有给高层的，有给各个业务的；为网站运营提供运营上的数据支持，就是通过数据，让运

2016-08-26 09:33:32 653

转载 intelli IDEA j安装scala插件

1：查看本机Intellij开发工具的scala插件版本号在如图查看版本号： 2：到http://plugins.jetbrains.com/plugin/?idea&id=1347上下载对应版本的scala插件 3：把下载的.zip格式的scala插件放到Intellij的安装的plugins目录下 4：安装

2016-08-04 16:12:13 922

转载 win10安装scala

1.首先安装JAVA，必须1.7版本以上才支持Scala，设置系统环境变量： JAVA_HOME D:\Program Files\Java\jdk1.8.0_65 Path中添加 %JAVA_HOME%\bin;CLASSPATH添加 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;3. Win+R

2016-08-04 16:03:50 446

yinyang7008的博客