- 博客(18)
- 资源 (10)
- 收藏
- 关注
原创 Spark实践-日志查询
环境 win 7 jdk 1.7.0_79 (Oracle Corporation) scala version 2.10.5 spark 1.6.1 详细配置: Spark Propertiesspark.app.id local-1461891171126spark.app.name JavaLogQueryspark.driver.host 10.1
2016-04-29 18:25:05 8121
原创 葡萄城程序设计大赛
科学计算器一开发平台 基于windows 7 +Eclipse开发,采用Java语言编码 二模块及算法 软件简介:自动解析计算表达式,并进行运算返回结果的一个科学计算器程序。 - ①输入和输出科学计算器的输入为一个类似于“SQRT(1+2)”形式的表达式的字符串,该输入对应的 运算结果为3的平方根。输出结果为一个表示运算结果的字符串,比如说 “1.73205080756887
2016-04-26 12:30:16 1289
原创 Spark-数据分析可视化Zeppelin
官网介绍Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括Spark, hive, tajo等,原生支持scala, Java, shell, markdown等。它的整体展现和使用形式和Databricks Cloud是一样的。安装其他组件都是好安装的,直接mvn install是没问题的。 而且zepp
2016-04-26 12:21:21 9815
原创 Spark-理解RDD
问题 spark的计算模型是如何做到并行的呢?如果你有一箱香蕉,让三个人拿回家吃完,如果不拆箱子就会很麻烦对吧,哈哈,一个箱子嘛,当然只有一个人才能抱走了。这时候智商正常的人都知道要把箱子打开,倒出来香蕉,分别拿三个小箱子重新装起来,然后,各自抱回家去啃吧。 Spark和很多其他分布式计算系统都借用了这种思想来实现并行:把一个超大的数据集,切分成N个小堆,找M个执行器(M < N),各自拿一块或
2016-04-23 23:40:29 3911
原创 基于超出内存可加载范围的数据集的逻辑回归分类器LR分类器
假如你想创建一个机器学习模型,但却发现你的输入数据集与你的计算机内存不相符?对于多机器的计算集群环境中通常可以使用如Hadoop和Apache Spark分布式计算工具。然而,Apache Spark能够在本地机器独立模式上,甚至在当输入数据集大于你的计算机内存时通过创建模型处理你的数据。 1.输入数据和预期结果在上一篇文章我们讨论了“How To Find Simple And Interest
2016-04-21 23:24:56 1026 1
原创 Spark-spark streaming
概念 关联 初始化streamingcontext 离散流 输入dstream dstream的转化 dstream的输出操作 缓存或者持久化 checkpointing 部署应用程序 监控应用程序性能调优 减少批数据的执行事件 设置正确的批容量 内存调优容错语义
2016-04-21 23:02:10 640
原创 Spark-神奇的共享变量
一般情况下,当一个 传递给 Spark 操作 ( 例如 map 和 reduce) 的函数在 远 程 节 点上面 运 行 时 ,Spark 操作 实际 上操作的是 这 个函数所用 变 量的一个独立副本。 这 些 变 量被复制到每台机器上,并且 这 些 变 量在 远 程机器上 的所有更新都不会 传递 回 驱动 程序。通常跨任 务 的 读 写 变 量是低效的,但是, Spark 还 是 为两
2016-04-21 22:59:48 4161
原创 Spark-rdd的持久化
Spark 最重要的一个功能是它可以通 过 各种操作( operations )持久化(或者 缓 存)一个集合到内存中。当你持久化一个 RDD 的 时 候,每一个 节 点都将参与 计 算的所有分区数据存 储 到内存中,并且 这 些 数据可以被 这 个集合(以及 这 个集合衍生的其他集合)的 动 作( action )重复利用。 这 个能力使后 续 的 动 作速度更快(通常快 10 倍以上)。 对
2016-04-21 22:50:19 1736
原创 Spark-快速上手
快速上手Spark 的交互式 shell( 用 Python 或Scala) 介 绍 它的 API 。当演示如何在 Java, Scala 和 Python 写独立的程序 时 ,看 编 程指南里完整的参考。依照 这 个指南,首先从 Spark 网站下 载 一个 Spark 发 行包。因 为 我 们 不会使用 HDFS ,你可以下 载 任何 Hadoop 版本的包。使用
2016-04-21 22:28:15 3205
原创 Scala函数特性
通常情况下,函数的参数是传值参数;即参数的值在它被传递给函数之前被确定。但是,如果我们需要编写一个接收参数不希望马上计算,直到调用函数内的表达式才进行真正的计算的函数。对于这种情况,Scala提供按名称参数调用函数。示例代码如下: 结果: 在代码中,如果定义函数的时候,传入参数不是传入的值,而是传入的参数名称(如代码中使用t: =>
2016-04-01 13:51:56 1453 3
转载 Intellij Idea环境下Spark源码阅读环境
1. 在windows下搭建Spark源码阅读环境的准备Spark源码是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。因此,Spark源码阅读的IDE理所当然的选择了IDEA。本文介绍的是Windows下的各项配置方法(默认已经装了java,JDK)。我的配置:JDK
2016-04-01 13:46:14 2094
原创 Intellij idea下spark开发HelloWorld
开发环境 Intellij idea 14 jdk: 1.7.71 spark: 1.1.0 hadoop: 2.4.0 scala: 2.11.1 maven: 3.2.5创建maven工程 在src目录下创建main/java的source文件(在File –> Project Structure…–>Modules–>Sources右键添加目录和修改目录为source类型) 在
2016-04-01 13:44:27 1749
原创 spark-TopK算法
Case: 输入:文本文件 输出: (158,) (28,the) (19,to) (18,Spark) (17,and) (11,Hadoop) (10,##) (8,you) (8,with) (8,for)算法: 首先实现wordcount,topk实现是以wordcount为基础,在分词统计完成后交换key/value,然后调用sortByKey进行排序。jav
2016-04-01 13:30:45 2397
原创 spark1.6分布式集群环境搭建
1. 概述本文是对spark1.6.0分布式集群的安装的一个详细说明,旨在帮助相关人员按照本说明能够快速搭建并使用spark集群。 2. 安装环境本安装说明的示例环境部署如下:IP外网IPhostname备注10.47.110.38120.27.153.137iZ237654q6qZMa
2016-04-01 13:25:06 3127
原创 感兴趣区域检测技术
Boofcv研究:感兴趣区域检测技术public class ExampleInterestPoint { public static <T extends ImageGray> void detect( BufferedImage image , Class<T> imageType ) { T input = ConvertBufferedImage.convert
2016-04-01 13:18:41 1746
原创 直线目标检测技术
Boofcv研究:直线目标检测public class LineDetection { private static final float edgeThreshold = 25; private static final int maxLines = 10; private static ListDisplayPanel listPanel = new ListDisplay
2016-04-01 13:15:25 907
原创 目标跟踪技术
Boofcv研究:动态目标追踪public class RemovalMoving { public static void main(String[] args) { String fileName = UtilIO.pathExample("D:\\JavaProject\\Boofcv\\example\\tracking\\chipmunk.mjpeg");
2016-04-01 13:09:07 1236
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人