2016年05月_小狼_百度

12月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 CPU与GPU区别大揭秘

有网友在网上提问：“为什么现在更多需要用的是 GPU 而不是 CPU，比如挖矿甚至破解密码？ ”以下是比较准确靠谱的回答：　　1、现在更多被需要的依然是CPU，只是GPU在大规模并发计算中体现出其一技之长所以应用范围逐渐变得广泛，并成为近些年的热点话题之一。　　为什么二者会有如此的不同呢？首先要从CPU和GPU的区别说起。　　CPU和GPU之所以大不相同，是由于其设计目标的

2016-05-25 17:44:26 24464 2

转载 Spark算子：RDD基本转换操作(2)–coalesce、repartition

coalescedef coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null): RDD[T]该函数用于将RDD进行重分区，使用HashPartitioner。第一个参数为重分区的数目，第二个为是否进行shuffle，默认为false;以下面的例

2016-05-23 15:05:19 1420

转载使用distcp并行拷贝大数据文件

以前我们介绍的访问HDFS的方法都是单线程的，Hadoop中有一个工具可以让我们并行的拷贝大量数据文件，这个工具就是distcp。distcp的典型应用就是在两个HDFS集群中拷贝文件，如果两个集群使用的Hadoop版本相同，可以使用hdfs标识符： % hadoop distcp hdfs://namenode1/foo hdfs://namenode2/bar 这条命令会把第一

2016-05-12 17:34:34 2378

转载 Spark RDD API详解(一) Map和Reduce

2016-05-11 15:13:02 596

转载 spark中的SparkContext实例的textFile使用的小技巧

网上很多例子，包括官网的例子，都是用textFile来加载一个文件创建RDD，类似sc.textFile("hdfs://n1:8020/user/hdfs/input")textFile的参数是一个path,这个path可以是：1. 一个文件路径，这时候只装载指定的文件2. 一个目录路径，这时候只装载指定目录下面的所有文件（不包括子目录下面的文件）3. 通过通配符

2016-05-11 14:41:02 1155

转载 Apache Spark探秘：多进程模型还是多线程模型？

Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver端采用的模型），这与Hadoop 2.0（包括YARN和MapReduce）是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型，实现方式是epoll+状态机，而Apache Spark则直接采用了开源软件Akka，该软件实现了Actor模型，性能非常高。尽管二者在server

2016-05-10 18:13:03 412

转载 Spark性能调优

通常我们对一个系统进行性能优化无怪乎两个步骤——性能监控和参数调整，本文主要分享的也是这两方面内容。性能监控工具【Spark监控工具】Spark提供了一些基本的Web监控页面，对于日常监控十分有用。1. Application Web UIhttp://master:4040（默认端口是4040，可以通过spark.ui.port修改）可获得这些信息：（

2016-05-10 17:37:04 1115

转载 spark 使用中会遇到的一些问题及解决思路

7 内存溢出问题在Spark中使用hql方法执行hive语句时，由于其在查询过程中调用的是Hive的获取元数据信息、SQL解析，并且使用Cglib等进行序列化反序列化，中间可能产生较多的class文件，导致JVM中的持久代使用较多，如果配置不当，可能引起类似于如下的OOM问题：Exception in thread "Thread-2" java.lang.

2016-05-10 17:13:12 1413

转载 Spark架构与作业执行流程简介

Spark架构与作业执行流程简介Local模式运行Spark最简单的方法是通过Local模式（即伪分布式模式）。运行命令为：./bin/run-example org.apache.spark.examples.SparkPi local基于standalone的Spark架构与作业执行流程Standalone模式下，集群启动时包括Master与Wo

2016-05-10 16:57:57 712

转载一个用于大规模数据科学的API——DataFrame

今天，我们正式宣布Spark新的API——DataFrame 。作为2014–2015年Spark最大的API改动，DataFrame能够使得大数据更为简单，从而拥有更广泛的受众群体。我们最早在设计Spark的时候，其中一个很重要的目标就是给大数据生态圈提供基于通用编程语言的（Java、Scala、Python）简单易用的API。Spark原本的RDD API通过函数式编程的模式把分布式数

2016-05-10 16:25:51 1196

转载 Spark三种属性配置方式详细说明

随着Spark项目的逐渐成熟, 越来越多的可配置参数被添加到Spark中来。在Spark中提供了三个地方用于配置：　　1、Spark properties：这个可以控制应用程序的绝大部分属性。并且可以通过 SparkConf对象或者Java 系统属性进行设置；　　2、环境变量(Environment variables)：这个可以分别对每台机器进行相应的设置，比如IP。这个可以在每台机器的

2016-05-10 16:23:33 13000

转载 hive union 的问题

在hive上执行查询：[html] view plain copyselect count(*) from user_active_vv_20110801_31 where active_type_3>0 UNION ALL select count(*) from user_active_vv_20110801_31 where ac

2016-05-09 17:40:08 696

转载数学符号MATHEMATICAL SYMBOLS（全）

比较全的数学符号、常用符号的英文拼写、读法。Mathematical Symbols(Thanks Rapid Tables. Transmit here only for access convinient. Even more detail information can be found inWikipedia List of Mathematical Sym

2016-05-08 10:49:13 6668

转载常用数学符号的读法及其含义

常用数学符号的读法及其含义近来发现很多学生对一些数学符号的读法及其含义不是很清楚。今天特把一些常用的列表如下。希望能够提供一些帮助！大写小写英文注音国际音标注音中文注音Α α alpha alfa 阿耳法Β β beta beta

2016-05-08 10:41:31 23048

转载求和∑ ∑

题目高等数学求和符号的运算2 3∑ ∑（i+j）i=1 j= 1

2016-05-08 10:39:46 11181 1

转载 Hive 中的复合数据结构简介以及一些函数的用法说明

目录[-]一、map、struct、array 这3种的用法：1、Array的使用2、Map 的使用3、Struct 的使用4、数据组合（不支持组合的复杂数据类型）二、hive中的一些不常见函数的用法：1、array_contains （Collection Functions）2、get_json_object （Misc. Functions）3、

2016-05-06 12:30:31 11153

转载深入分析Parquet列式存储格式

Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，最新的版本是1.8.0。列式存储列式存储和行式存储相比有哪些优势呢？可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的，可以使用更高效的压缩编

2016-05-05 17:02:53 813