2016年04月_07H_JH

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创 Spark实践-日志查询

环境 win 7 jdk 1.7.0_79 (Oracle Corporation) scala version 2.10.5 spark 1.6.1 详细配置： Spark Propertiesspark.app.id local-1461891171126spark.app.name JavaLogQueryspark.driver.host 10.1

2016-04-29 18:25:05 8121

原创葡萄城程序设计大赛

科学计算器一开发平台基于windows 7 +Eclipse开发，采用Java语言编码二模块及算法软件简介：自动解析计算表达式，并进行运算返回结果的一个科学计算器程序。 - ①输入和输出科学计算器的输入为一个类似于“SQRT(1+2)”形式的表达式的字符串，该输入对应的运算结果为3的平方根。输出结果为一个表示运算结果的字符串，比如说 “1.73205080756887

2016-04-26 12:30:16 1289

官网介绍Apache Zeppelin提供了web版的类似ipython的notebook，用于做数据分析和可视化。背后可以接入不同的数据处理引擎，包括Spark, hive, tajo等，原生支持scala, Java, shell, markdown等。它的整体展现和使用形式和Databricks Cloud是一样的。安装其他组件都是好安装的，直接mvn install是没问题的。而且zepp

2016-04-26 12:21:21 9815

原创 Spark-理解RDD

问题 spark的计算模型是如何做到并行的呢？如果你有一箱香蕉，让三个人拿回家吃完，如果不拆箱子就会很麻烦对吧，哈哈，一个箱子嘛，当然只有一个人才能抱走了。这时候智商正常的人都知道要把箱子打开，倒出来香蕉，分别拿三个小箱子重新装起来，然后，各自抱回家去啃吧。 Spark和很多其他分布式计算系统都借用了这种思想来实现并行：把一个超大的数据集，切分成N个小堆，找M个执行器（M < N），各自拿一块或

2016-04-23 23:40:29 3911

原创基于超出内存可加载范围的数据集的逻辑回归分类器LR分类器

假如你想创建一个机器学习模型，但却发现你的输入数据集与你的计算机内存不相符？对于多机器的计算集群环境中通常可以使用如Hadoop和Apache Spark分布式计算工具。然而，Apache Spark能够在本地机器独立模式上，甚至在当输入数据集大于你的计算机内存时通过创建模型处理你的数据。 1.输入数据和预期结果在上一篇文章我们讨论了“How To Find Simple And Interest

2016-04-21 23:24:56 1026 1

原创 Spark-spark streaming

概念关联初始化streamingcontext 离散流输入dstream dstream的转化 dstream的输出操作缓存或者持久化 checkpointing 部署应用程序监控应用程序性能调优减少批数据的执行事件设置正确的批容量内存调优容错语义

2016-04-21 23:02:10 640

原创 Spark-神奇的共享变量

一般情况下，当一个传递给 Spark 操作 ( 例如 map 和 reduce) 的函数在远程节点上面运行时，Spark 操作实际上操作的是这个函数所用变量的一个独立副本。这些变量被复制到每台机器上，并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的，但是， Spark 还是为两

2016-04-21 22:59:48 4161

原创 Spark-rdd的持久化

Spark 最重要的一个功能是它可以通过各种操作（ operations ）持久化（或者缓存）一个集合到内存中。当你持久化一个 RDD 的时候，每一个节点都将参与计算的所有分区数据存储到内存中，并且这些数据可以被这个集合（以及这个集合衍生的其他集合）的动作（ action ）重复利用。这个能力使后续的动作速度更快（通常快 10 倍以上）。对

2016-04-21 22:50:19 1736

原创 Spark-继续RDD

接着上篇博客的rdd的transformation有这么多常用的API: 另一个action也有很多API：

2016-04-21 22:41:30 621

原创 Spark-快速上手

快速上手Spark 的交互式 shell( 用 Python 或Scala) 介绍它的 API 。当演示如何在 Java, Scala 和 Python 写独立的程序时，看编程指南里完整的参考。依照这个指南，首先从 Spark 网站下载一个 Spark 发行包。因为我们不会使用 HDFS ，你可以下载任何 Hadoop 版本的包。使用

2016-04-21 22:28:15 3205

原创 Scala函数特性

通常情况下，函数的参数是传值参数；即参数的值在它被传递给函数之前被确定。但是，如果我们需要编写一个接收参数不希望马上计算，直到调用函数内的表达式才进行真正的计算的函数。对于这种情况，Scala提供按名称参数调用函数。示例代码如下：结果：在代码中，如果定义函数的时候，传入参数不是传入的值，而是传入的参数名称（如代码中使用t: =>

2016-04-01 13:51:56 1453 3

转载 Intellij Idea环境下Spark源码阅读环境

1. 在windows下搭建Spark源码阅读环境的准备Spark源码是有Scala语言写成的，目前，IDEA对Scala的支持要比eclipse要好，大多数人会选在在IDEA上完成Spark平台应用的开发。因此，Spark源码阅读的IDE理所当然的选择了IDEA。本文介绍的是Windows下的各项配置方法（默认已经装了java，JDK）。我的配置：JDK

2016-04-01 13:46:14 2094

原创 Intellij idea下spark开发HelloWorld

开发环境 Intellij idea 14 jdk: 1.7.71 spark: 1.1.0 hadoop: 2.4.0 scala: 2.11.1 maven: 3.2.5创建maven工程在src目录下创建main/java的source文件（在File –> Project Structure…–>Modules–>Sources右键添加目录和修改目录为source类型）在

2016-04-01 13:44:27 1749

原创 spark-TopK算法

Case: 输入：文本文件输出： (158,) (28,the) (19,to) (18,Spark) (17,and) (11,Hadoop) (10,##) (8,you) (8,with) (8,for)算法：首先实现wordcount，topk实现是以wordcount为基础，在分词统计完成后交换key/value，然后调用sortByKey进行排序。jav

2016-04-01 13:30:45 2397

原创 spark1.6分布式集群环境搭建

1. 概述本文是对spark1.6.0分布式集群的安装的一个详细说明，旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。 2. 安装环境本安装说明的示例环境部署如下：IP外网IPhostname备注10.47.110.38120.27.153.137iZ237654q6qZMa

2016-04-01 13:25:06 3127

原创感兴趣区域检测技术

Boofcv研究：感兴趣区域检测技术public class ExampleInterestPoint { public static <T extends ImageGray> void detect( BufferedImage image , Class<T> imageType ) { T input = ConvertBufferedImage.convert

2016-04-01 13:18:41 1746

原创直线目标检测技术

Boofcv研究：直线目标检测public class LineDetection { private static final float edgeThreshold = 25; private static final int maxLines = 10; private static ListDisplayPanel listPanel = new ListDisplay

2016-04-01 13:15:25 907

原创目标跟踪技术

Boofcv研究：动态目标追踪public class RemovalMoving { public static void main(String[] args) { String fileName = UtilIO.pathExample("D:\\JavaProject\\Boofcv\\example\\tracking\\chipmunk.mjpeg");

2016-04-01 13:09:07 1236