小码哥_6-CSDN博客

原创草根的逆袭出路何在

转眼之间从走出校门到工作马上三年，三年意味着什么，对于20几岁的黄金时节意味着蜕变、也许是颓废、也许是堕落、也许是找到人生的出口，迅速调整方向，在弯道超越自己，挑战自己。还记得刚出校门，在北京首都机场仰望星空，走出校园，养活自己，漂泊三年，就当重新上一次大学，给自己一份满意的答卷。2014年跟着走独木桥的大军，加入了国考，银考、国网考试的队列，最有希望的是银考，自己还信誓旦旦成为了银行系统的一员

2017-03-23 13:11:23 454

原创 oozie spark on yarn

废话不多说，现在开始正文，本文将阐述如何将一个Spark程序通过oozie提交到Hadoop的Yarn上运行。 coordinator.properties这个配置文件主要是一些oozie的配置，包括oozie地址 queue名称等等。 oozie.coord.application.path app_dir这里是HDFS路径，因为大家都知道，oozie运行之前要将 workflow整个目录上

2017-03-22 13:39:53 867

原创 spark 总结

spark 算子学习 map 将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。 flatMap 属于Transformation算子，第一步和map一样，最后将所有的输出分区合并成一个。 flatMap只会将String扁平化成字符数组，并不会把Array[String]也扁平化成字符数组。 d

2017-03-13 17:27:27 446

原创 Scala基于Akka的Remote Actor实现的简单RPC

spark 1.3中的通信是基于Akka实现的，Actor之间的交互都是通过消息，并且所有动作都是异步的。本文基于spark 1.3通信核心原理实现一个简单的基于akka的rpc框架。服务端：Server //模式匹配消息类型 case class AkkaMessage(message: Any) case class Response(response: Any) class

2017-03-13 15:49:14 1785

原创 DMP的功能划分

DMP的功能划分每个DMP都应该提供一整套功能以便市场营销人员可以对他们自身的第一方用户数据进行挖掘，从而深度了解他们自身的顾客和实现更精准的基于受众级别的广告采购。一个DMP应该允许你做到“当你首次制定了一个所需的用户群体细分之后，可在任何想要的广告传播渠道中都可以精确到达此类用户群体”。DMP将帮助你在现有企业CRM和LTV（用户终身价值）策略的基础上，无论是在做中长期的广告计划决策还是在需

2017-03-12 10:58:06 1525

原创 spark报错汇总

Exception in thread “main” java.lang.SecurityException: Invalid signature file digest for Manifest main attributes 在pom.xml配置文件中加上下面的拦截器就可以了 spark-streaming-twitter_2.10:spark-streaming-twitter_

2017-03-12 10:46:56 440

原创 Jvm内存区以及垃圾回收算法

Java虚拟机运行时数据区域被分为五个区域：堆(Heap)、栈(Stack)、本地方法栈(Native Stack)、方法区(Method Area)、程序计数器(Program Count Register)堆 Java Heap是Java虚拟机管理的内存的最大一块，这块区域随着虚拟机的启动而创建。在实际的运用中，我们创建的对象和数组就是存放在堆里面。如果你听说线程安全的问题，就

2017-03-12 10:32:35 304

原创 java中的线程

进程：一个应用程序线程：进程中负责程序的执行单元，一个进程至少有一个线程线程池：基本思想还是一种对象池的思想，开辟一块内存空间，里面存放了众多(未死亡)的线程，池中线程执行调度由池管理器来处理。当有线程任务时，从池中取一个，执行完成后线程对象归池，这样可以避免反复创建线程对象所带来的性能开销，节省了系统的资源。不同的进程使用不同的内存空间，而所有的线程共享一片相同的内存空间。 Thre

2017-03-12 09:57:34 269

原创 SparkSQL

Spark SQL概述 Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型，并且可被视为一个分布式的SQL查询引擎。Spark SQL的基础数据模型—–DataFrames DataFrame是由命名列所组织起来的一个分布式数据集合。你可以把它看成是一个关系型数据库的表。 DataFrame可以通过多种来源创建：结构化数据文

2017-03-11 21:14:56 430

原创 spark mllib实现广告点击率预测

本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告。训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据，下载地址：https://www.kaggle.com/c/avazu-ctr-prediction/data 数据格式如下：包含24个字段： • 1-id: ad identifier •

2017-03-11 21:04:14 2504

原创 Spark通信--client、master、worker间的通信

Client：提交作业。 Master：接收作业，启动Driver和Executor，管理Worker。 Worker：管理节点资源，启动Driver和Executor。（1）Client to Master RegisterApplication：注册应用。（2）Master to Client RegisteredApplication：注册应用后，回复给Client。

2017-03-11 20:32:00 3133

原创 hadoop 层面性能调优

守护进行内存调优 a）NameNode 和 DataNode 内存调整在 hadoop-env.sh 文件中 NameNode： ExportHADOOP_NAMENODE_OPTS=”-Xmx512m-Xms512m -Dhadoop.security.logger=HADOOPSECURITYLOGGER:−INFO,RFAS−Dhdfs.audit.logger={HADOOP_SECU

2017-03-11 20:28:57 387

DSP: 每一个广告位背后，都是一部分受众（audience），广告主买广告位的目的，实际上就是看中了这个广告位背后的这群受众。既然广告主的目的明确，而又不能自己搞定这些受众对应的全部广告位，那我DSP来帮忙呗。怎么帮，很简单，你广告主在DSP的操作界面中，告诉我你需要哪些人群，愿意出多少钱获得这些人群，我来帮你在Ad Exchange中操作不就完了。因此，对于广告主而言，广告购买形式发生了翻天覆

2017-03-11 20:23:06 437

原创 spark sql 统计pv uv

话不多说，在开始之前先介绍下pv uv uv：user views，count（distinct guid） pv：page views，count（url）直接上代码 import com.alibaba.fastjson.JSON import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkContex

2017-03-11 20:07:14 1738

xiaomage167的博客