spark
文章平均质量分 80
阳光洒落你窗前
这个作者很懒,什么都没留下…
展开
-
Spark中的错误处理
从网路冷眼的微博上看到这一篇文: Try again, Apache Spark!, 主要解释了为何Spark的函数式和异步使得错误处理过程更加复杂,读罢受益匪浅,简单翻译并加入自己的见解, 分享一下.1. 典型错误处理在很多语言中, exceptions用来标识程序的异常行为.如果你需要单独处理一类异常,你将要用到try-catch语句来包裹引起异常的语句.try{ someMethod翻译 2016-09-30 15:24:59 · 9661 阅读 · 1 评论 -
从零搭建基于sbt和IDEA的远程spark调试工程
接着之前文章 sbt 以及 IDEA sbt 插件安装配置教程 我们可以利用sbt和IDEA搭建一套可以远程调用spark的scala项目. 本文就详细的介绍一下方法和其中的各种坑.前置条件0. hosts添加地址映射 在 C:\Windows\System32\drivers\etc\hosts 文件中添加 Spark集群的相关ip和机器名, 如下示例:192.168.4.225 hadoop原创 2017-06-28 16:55:44 · 1832 阅读 · 0 评论 -
Spark资源配置(核数与内存)
关于所在节点核数怎么看?======================================================================# 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 # 查看物理CPU个数cat /proc/cpuinfo| grep "p转载 2017-01-04 16:23:34 · 14381 阅读 · 0 评论 -
TD-IDF在spark中的使用(ml方式)
上一篇 文章提到了TD-IDF的原理和大致使用方式, 现在我写了一个比较完整的例子来展示一下, 该例子包含了数据导入(为了统一, 将文件导入了数据库),处理, 以及结果导出功能.import org.apache.spark.mllib.linalg.Vectorimport com.zte.bigdata.vmax.machinelearning.common.{LogSupport, Crea原创 2016-12-20 10:56:34 · 4119 阅读 · 3 评论 -
TF-IDF原理及使用
一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). 是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就原创 2016-12-18 17:03:50 · 161557 阅读 · 11 评论 -
Spark集群中使用spark-submit提交jar任务包实战经验
转载:蜗龙徒行-Spark学习笔记【四】Spark集群中使用spark-submit提交jar任务包实战经验 - cafuc46wingw的专栏 - 博客频道 - CSDN.NEThttp://blog.csdn.net/cafuc46wingw/article/details/45043941一、所遇问题 由于在IDEA下可以方便快捷地运行转载 2017-01-03 23:22:17 · 48965 阅读 · 2 评论 -
Spark RDD 到 LabelPoint的转换(包含构造临时数据的方法)
题目: 将数据的某个特征作为label, 其他特征(或其他某几个特征)作为Feature, 转为LabelPoint参考: http://www.it1352.com/220642.html首先构造数据import scala.util.Random.{setSeed, nextDouble}setSeed(1)case class Record(foo: Double, target: D翻译 2016-12-15 21:00:55 · 9775 阅读 · 3 评论 -
Spark大数据比赛经验记录(含sparksubmit 提交方法)
十月底, 参加了公司的一个spark大数据比赛, 题目比较简单, 但是由于自己缺乏此方面的业务知识, 所以对我来说解答的过程还是很有收获的 , 现在记录如下: 题目 数据表: CREATE EXTERNAL TABLE fact_ipp_flux_limit( clttime timestamp, clttimeint bigint,原创 2016-11-16 16:14:22 · 4348 阅读 · 2 评论 -
spark-shell运行spark任务参数设置
之前初学spark用spark-shell执行小程序的时候, 每次执行action操作(比如count,collect或者println),都会报错: WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are regist原创 2016-09-23 11:02:02 · 20621 阅读 · 0 评论 -
Spark 解决 某商品日交易额统计
题目来源: 实验楼在实验楼上看到这么一个题目, 感觉挺有意思的, 考察了 在实验楼上看到这么一个题目, 感觉挺有意思的, 考察了 dataframe 的一些基本用法(**创建和汇聚**).原创 2017-06-20 10:59:43 · 2182 阅读 · 0 评论