文章
文章平均质量分 76
笔尖的痕
spark、hadoop,数据仓库,实时计算
展开
-
单例模式的七种写法
转自:http://www.blogjava.net/kenzhh/archive/2013/03/15/357824.html第一种(懒汉,线程不安全): 1 public class Singleton { 2 private static Singleton instance; 3 private Singleton (){} 4转载 2017-02-15 21:03:14 · 613 阅读 · 0 评论 -
spark与elasticsearch整合
org.scala-lang scala-library ${scala.version} compile org.scala-lang scala-compiler ${scala.version}原创 2016-03-26 02:27:35 · 8510 阅读 · 3 评论 -
jedis usage examples
import java.utilimport java.util.Dateimport demo.spark.streaming.utils.RedisClientimport org.junit.{After, Before, Test}import redis.clients.jedis.{Jedis, SortingParams}/** * Created by cao o原创 2016-03-25 22:42:16 · 423 阅读 · 0 评论 -
centos安装redis3.0.0集群
这里创建6个redis节点,其中三个为主节点,三个为从节点。redis和端口对应关系:127.0.0.1:7000127.0.0.1:7001127.0.0.1:7002从:127.0.0.1:7003127.0.0.1:7004127.0.0.1:7005步骤:1,下载redis。官网下载3.0.0版本,之前几的版本不支持集群模式下转载 2016-03-24 17:06:26 · 381 阅读 · 0 评论 -
app微信支付
app微信支付开发原创 2016-01-26 11:18:56 · 1959 阅读 · 0 评论 -
支付宝支付
处理支付宝请求: /** * 处理支付宝请求 * * @param tradeNo * @param amt * @param request * @return * @throws IOException */ private Map dealAliPay(String tradeNo, Double amt) throws IOException {原创 2016-02-01 15:09:16 · 817 阅读 · 0 评论 -
JodaTime开源时间/日期库
此前Java处理时间日期所使用的 Date 和 Calendar 被诟病不已,Calendar 的主要问题对象可变,而像时间和日期这样的类应该是不可变的,另外其概念模型也有不明确的地方,月份计算从0开始等等。JodaTime开源时间/日期库是很好的替代,另外Java8中也推出了新的java.time库,设计理念与JodaTime相似。Joda-Time 令时间和日期值变得易于管理、转载 2016-01-28 17:18:29 · 946 阅读 · 0 评论 -
Spark Streaming 订单关联案例剖析
Apache Spark 是加州大学伯克利分校的 AMPLabs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计,使得它拥有比 Hadoop 更高的性能(极端情况下可以达到 100x),并且对多语言(Scala、Java、Python)提供支持。其一栈式设计特点使得我们的学习和维护成本大大地减少,而且其提供了很好的容错解决方案。本文将详细地介绍如何使用 Spark St转载 2015-12-17 18:26:15 · 639 阅读 · 0 评论 -
spark1.4.0基于yarn的安装心得体会
目前线上用的是cdh5.3.2中内嵌的spark1.2.0版本,该版本BUG还是蛮多的,尤其是一些spark sql的BUG,简直不能忍。spark1.4.0新出的支持SparkR,其他用R的同时很期待试用该版本看看sparkR好不好用,于是乎打算升级一下spark的版本。以前都是在cloudera manager中一件安装的spark,感觉好轻松愉快,现在要独立安装一个基于yarn的sp转载 2015-07-19 17:49:52 · 1010 阅读 · 0 评论 -
微信支付V3集成过程(Native)
长话短说,微信支付V3版本相比V2版本,简化许多接口,大大降低了商户的接入代价,只不过由于相关的集成说明文档写的过于笼统,细节描述不够具体,demo版本不够完善等等原因,被大家诟病。最近基于业务需要,完成了微信支付的接入,选择的是公众号扫码支付(Native模式)。在此把集成的大致过程贴出来,希望能对正在困扰的各位有所帮助。整个交互过程分为四步:1、商户:生成微信支转载 2015-05-06 12:51:27 · 11523 阅读 · 0 评论 -
Ubuntu 14.04 LTS 版升级到 GCC 4.9.2
sudo add-apt-repository ppa:ubuntu-toolchain-r/testsudo apt-get updatesudo apt-get install gcc-4.9 g++-4.9(保留原来的4.8.2版本,便于快速切换)sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/转载 2016-04-14 21:14:50 · 727 阅读 · 0 评论 -
ClassCastException Log4jLoggerFactory LoggerContex
http://my.oschina.net/u/249914/blog/192987 xception sending context initialized event to listener instance of class ch.qos.logback.ext.spring.web.LogbackConfigListener java.lang.ClassCastExcepti转载 2016-05-25 11:46:00 · 1758 阅读 · 0 评论 -
CaffeOnSpark in Ubuntu 15.04
check nvidia:lspci | grep -i nvidiacheck gcc:gcc --versioninstall cuda:apt-get install build-essentialll /etc/X11/xorg.confcd /etc/X11mv xorg.conf xorg.conf.bakvim /etc/modprobe.原创 2016-04-20 23:42:39 · 1857 阅读 · 0 评论 -
Keras笔记 -- objective
Keras定义了以下几种objective fuction:(1) mean-squared-error def mean_squared_error(y_true, y_pred): return K.mean(K.square(y_pred - y_true), axis=-1)(2) root-mean-squared-error de转载 2016-10-01 21:18:58 · 1437 阅读 · 0 评论 -
多标签分类(multilabel classification )
这几天看了几篇相关的文章, 写篇文章总结一下,就像个小综述一样, 文章会很乱 1、multilabel classification的用途 多标签分类问题很常见, 比如一部电影可以同时被分为动作片和犯罪片, 一则新闻可以同时属于政治和法律,还有生物学中的基因功能预测问题, 场景识别问题,疾病诊断等。 2. 单标签分类 在传统的单标签分类中,训练转载 2016-09-30 00:02:09 · 52304 阅读 · 4 评论 -
Spark性能优化指南——基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速转载 2016-09-05 11:40:31 · 572 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
目录1 使用sklearn进行数据挖掘 1.1 数据挖掘的步骤 1.2 数据初貌 1.3 关键技术2 并行处理 2.1 整体并行处理 2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,转载 2016-09-12 18:16:21 · 4408 阅读 · 2 评论 -
使用sklearn做单机特征工程
目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法转载 2016-09-12 16:53:25 · 1953 阅读 · 0 评论 -
使用sklearn进行集成学习——实践
目录1 Random Forest和Gradient Tree Boosting参数详解2 如何调参? 2.1 调参的目标:偏差和方差的协调 2.2 参数对整体模型性能的影响 2.3 一个朴实的方案:贪心的坐标下降法 2.3.1 Random Forest调参案例:Digit Recognizer 2.3.1.1 调整过程影响类参数转载 2016-09-12 16:04:07 · 2110 阅读 · 0 评论 -
使用sklearn进行集成学习——理论
目录1 前言2 集成学习是什么?3 偏差和方差 3.1 模型的偏差和方差是什么? 3.2 bagging的偏差和方差 3.3 boosting的偏差和方差 3.4 模型的独立性 3.5 小结4 Gradient Boosting 4.1 拟合残差 4.2 拟合反向梯度 4.2.1 契机:引入损失函数 4.2.2 难题转载 2016-09-12 15:02:19 · 1103 阅读 · 0 评论 -
xgboost原理及应用
1.背景关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过学习陈天奇博士的PPT地址和xgboost导读和实战 地址,希望对xgboost原理进行深入理解。2.xgboost vs gbdt说到xgboost,不得不说gbdt。了解gbdt可以看我这篇文章 地址,gbdt无论在理论推导还是在应用场景实践都是相当完美的,但有一个问题:第n颗树训练时,需转载 2016-09-09 16:29:16 · 2489 阅读 · 0 评论 -
Docker部署私有仓库
今天和大家聊聊Docker的私有仓库。前段时间啊在CentOS6.x上玩Docker的私有仓库,由于https认证的原因,一直没有能解决,最后听群上的一朋友说,换成CentOS 7试试,也别说,最后实验成功啦!所以我建议朋友在玩docker的私有仓库的时候,也能现在CentOS7.x系统上玩,确定对整个过程熟悉后,然后换成你熟悉的6.x的系统,这样也是一个循循渐进的过程吧!转载 2016-06-02 17:44:56 · 2885 阅读 · 0 评论 -
Java Socket编程
对于Java Socket编程而言,有两个概念,一个是ServerSocket,一个是Socket。服务端和客户端之间通过Socket建立连接,之后它们就可以进行通信了。首先ServerSocket将在服务端监听某个端口,当发现客户端有Socket来试图连接它时,它会accept该Socket的连接请求,同时在服务端建立一个对应的Socket与之进行通信。这样就有两个Socket了,客户端和服务端转载 2015-05-06 12:50:15 · 441 阅读 · 0 评论 -
tomcat性能调优
从“第三天”的性能测试一节中,我们得知了决定性能测试的几个重要指标,它们是:ü 吞吐量ü Responsetimeü Cpuloadü MemoryUsage我 们也在第三天的学习中对Apache做过了一定的优化,使其最优化上述4大核心指标的读数,那么我们的Apache调优了,我们的Tomcat也作些相应 的调整,当完成今的课程后,到时你的“转载 2015-05-06 12:56:11 · 441 阅读 · 0 评论 -
CentOS网络配置解决方案
关于centos网络配置的方法,网上文档很多,但基本上都是一些操作命令,原理和解释则很少提到,而且某些文章有些地方还是需要商量的(估计是转载的,作者自己也没有实践过)。故,重新总结一下,分三个部分:理论基础、上机实践和原因阐述。注:实践环境:虚拟机登陆方式:PuTTYOS版本:centOS6.3上网方式:bridge 一、理论基础(急于解决问题的读者转载 2014-04-27 19:29:42 · 703 阅读 · 0 评论 -
Eclipse快捷键大全
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对转载 2014-04-26 10:44:29 · 439 阅读 · 0 评论 -
maven常用命令介绍
1 下载源代码:mvn dependency:sources -DdownloadSources=true -DdownloadJavadocs=true maven常用命令介绍这里主要是在eclipse中使用maven,因此只使用到了一部分命令,整理下来方便以后查阅。生成清除Eclipse项目结构:mvn eclipse:eclipsem转载 2014-05-09 23:19:12 · 1301 阅读 · 0 评论 -
Hadoop2.2.0的eclipse插件的编译
Hadoop2.x之后,已经发布了稳定的版本hadoop2.2.0.但是由于没有eclipse插件工具,辅助,开发调试相对起来,会稍显麻烦,特别是基于Java开发的工程师们,虽然写完MR任务后,也可以采用打成jar包的方式,上传调试,但是这种方式,也有点繁琐,不过网上也好像有一些,使用程序能够自动打包任务的程序,散仙没具体用过,在这里,就不多涉及了,有知道的朋友们,欢迎分享。 下面开始转载 2014-05-02 01:28:32 · 713 阅读 · 0 评论 -
Ubuntu 14.04 编译 openjdk-7u40
安装依赖命令:原创 2014-05-01 16:40:43 · 1697 阅读 · 0 评论 -
Spark 0.9的安装配置
一、上传scala2.10.3到linux 下载scala 2.10.3文件。网上的scala-2.10.3.tgz、scala-2.10.3.rpm,前者支持unix,后者专门给linux使用。但我这里还是使用了前者,因为是绿色的,方便配置。二、上传Spark0.9的解压后文件三、配置相关文件 1、.bash_profile文件export S转载 2014-05-02 14:05:40 · 797 阅读 · 0 评论 -
linux 查看 进程 端口号
1. 查看进程占用的端口号netstat -anp[root@nbatest ~]# netstat -anp | grep 进程名称2. 查看使用端口号的进程lsof[root@nbatest ~]# lsof -i: 端口号转载 2014-05-02 01:27:28 · 620 阅读 · 0 评论 -
Spark安装启动 and 在程序中调用spark服务
1.软件准备2.基础软件安装 3.安装spark 注:SPARK_MASTER_IP这里填写spark master的IP或者主机名,如果使用的是ip,在指定master调用服务时就只能使用ip,类似spark://192.168.1.39:7077.如果使用的是主机名,那就只能使用主机名了。类似这样spark://主机名:7077.推荐使用主机名,因为就算ip变了也不用老改配置转载 2014-05-02 01:26:10 · 1542 阅读 · 0 评论 -
centos6.4 yum : could not retrieve mirrorlist
参考地址是:http://manual.fullroot.com/centos-6-yum-update-could-not-retrieve-mirrorlist/原创 2014-04-26 23:30:23 · 916 阅读 · 0 评论 -
centOS 6.4关闭防火墙步骤
关闭虚拟机防火墙: 关闭命令: service iptables stop 永久关闭防火墙:chkconfig iptables off两个命令同时运行,运行完成后查看防火墙关闭状态 service iptables status转载 2014-04-27 07:37:55 · 792 阅读 · 0 评论 -
Java开发中的23种设计模式详解
一、设计模式的分类总体来说设计模式分为三大类:创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式转载 2015-05-06 12:48:31 · 526 阅读 · 0 评论 -
深入理解Hadoop集群和网络
本文将着重于讨论Hadoop集群的体系结构和方法,及它如何与网络和服务器基础设施的关系。最开始我们先学习一下Hadoop集群运作的基础原理。Hadoop里的服务器角色Hadoop主要的任务部署分为3个部分,分别是:Client机器,主节点和从节点。主节点主要负责Hadoop两个关键功能模块HDFS、Map Reduce的监督。当Job Tracker使用Map Reduce转载 2014-12-17 03:21:20 · 824 阅读 · 0 评论 -
Eclipse调用hadoop2运行MR程序
Eclipse调用hadoop运行MR程序其实就是普通的java程序可以提交MR任务到集群执行而已。在Hadoop1中,只需指定jt(jobtracker)和fs(namenode)即可,一般如下:[java] view plaincopyConfiguration conf = new Configuration(); conf.se转载 2014-09-04 01:46:37 · 1577 阅读 · 0 评论 -
Hadoop集群(CHD4)实践之 (4) Oozie搭建
目录结构Hadoop集群(CDH4)实践之 (0) 前言Hadoop集群(CDH4)实践之 (1) Hadoop(HDFS)搭建Hadoop集群(CDH4)实践之 (2) HBase&Zookeeper搭建Hadoop集群(CDH4)实践之 (3) Hive搭建Hadoop集群(CHD4)实践之 (4) Oozie搭建Hadoop集群(CHD4)实践之 (5) Sqoop安转载 2014-09-02 07:49:48 · 1906 阅读 · 0 评论 -
hive的Specified key was too long; max key length is 767 bytes问题解决
当在hive中show table 时如果报以下错时 FAILED: Error in metadata: javax.jdo.JDODataStoreException: Error(s) were found while auto-creating/validating the datastore for classes. The errors are printed in the转载 2014-08-10 00:58:03 · 806 阅读 · 0 评论 -
SSH登录很慢问题的解决
用ssh连其他linux机器,会等待10-30秒才有提示输入密码。严重影响工作效率。登录很慢,登录上去后速度正常,这种情况主要有两种可能的原因:1. DNS反向解析的问题OpenSSH在用户登录的时候会验证IP,它根据用户的IP使用反向DNS找到主机名,再使用DNS找到IP地址,最后匹配一下登录的IP是否合法。如果客户机的IP没有域名,或者DNS服务器很慢或不通,那么登录就会很花时转载 2014-05-29 15:30:14 · 2686 阅读 · 0 评论