自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(19)
  • 资源 (1)
  • 收藏
  • 关注

原创 深度学习基本概念

损失函数loss function,衡量预测值与真实值之间的误差,如平方误差函数square loss。模型训练中,希望找到一组参数,使得训练样本的平均损失最小。优化算法1)解析解。2)数值解。小批量随机梯度下降,mini-batch stochastic gradient descent选取⼀组模型参数的初始值,如随机选取; 接下来对参数进⾏多次迭代。在每次迭代中,先...

2020-02-14 17:53:53 374

转载 Spark API样例

利用样例,说明Spark API功能。

2016-11-22 08:57:53 531

原创 一个使用kindle近3年的菜鸟的几点建议

为什么kindle出现很晚而配置比较低,大一点的pdf文件阅读不了?和同事讨论了一翻,其实kindle如果做成高配置,弄个大容量内存,双核cpu,再接上键盘喇叭,看书时候放点音乐,有必要么?这就不是kindle了,这是ipad。kindle能够让用户专心看书不被其他干扰,其他都是多余。专心做好最重要的一件事,做到极致,也就成功了。内存低一些,没有音乐视频播放功能,从某种角度说,恰恰给了用户安心阅读的环境。不是么?

2016-07-31 21:07:04 10878

原创 HDPCD:Java认证考试经验总结

因公司使用Hortonworks的Hadoop产品,最近我参加了HDPCP:Java(Hortonworks Certified Java Developer)资格认证考试。自去年11月参加HDP培训开始,至7月16日晚参加在线认证考试,共经历了半年多时间。在这段时间里,搭建本地伪分布式Hadoop环境,每天看书复习,学习网上资料,写code练手,从零开始学习直至参加考试获得认证,过程艰苦并快乐。这里记录下来,供后续参加认证的同学参考借鉴。

2016-07-22 11:56:11 1673 1

翻译 (hadoop学习-5)Map Side Join

简述mapreduce的map side join过程

2016-07-11 14:27:43 543

翻译 (hadoop学习-4)Reduce side join

利用mapreduce实现两个表reduce side join操作,比提供rawcomparator进行优化

2016-06-29 14:21:19 416

翻译 (hadoop学习-3)Total Order Partitioner

总结mapreduce的TotalOrderPartition方法,提供具体流程和关键代码实现。

2016-06-15 09:32:12 1388

原创 Hadoop开发相关问题总结

总结自己在Hadoop开发中遇到的问题,主要在mapreduce代码执行方面。大部分来自日常代码执行错误的解决方法,还有一些是对JAVA、Hadoop剖析。对于问题,通过查询stackoverflow、csdn找到了解决方法。汇总出来以后查询方便。内容将不定期更新。

2016-06-14 15:23:26 4017

翻译 (Hadoop学习-2)mapreduce实现二次排序

mapreduce实现二次排序

2016-06-13 10:37:31 618

翻译 (hadoop学习-1)mapreduce实现数据过滤、聚合与排序

利用mapreduce实现数据过滤、聚合与排序。文章翻译自http://blog.ditullio.fr,并提供源代码。

2016-06-13 10:29:09 3862

原创 TFIDF算法Hadoop实现

利用HADOOP实现TFIDF算法

2016-06-12 09:13:50 2228 1

原创 伪分布式hadoop搭建步骤

1.从hadoop官方网站(hadoop.apache.org)下载hadoop安装包。解压缩后放到本地,非中文路径下。2.修改hadoop目录etc/hadoop文件夹内相关配置文件。如果配置文件没有该属性,需要增加。1)配置core-site.xml文件的defaultFS、hadoop.tmp.dir    fs.defaultFS    hdfs://localho

2016-04-23 09:48:49 350

原创 二次排序说明

hadoop二次排序,把部分value移至key,组成新class,作为mapreduce框架的新key进行计算。下面根据hadoop2.7.1源代码中样例程序secondarysort.java,总结二次排序相关方法。package org.apache.hadoop.examples;import java.io.DataInput;import java.io.DataOutput

2016-04-23 09:47:39 469

原创 关于hadoop wordcount的几种实现

Wordcount是hadoop的入门程序,类似其他程序语言的hello world程序一般。这个程序简短,但是不简单。通过多种方式实现,加强对mapreduce理解,大有好处。下面是最近我学习hadoop总结,利用wordcount把Secondary sort、In Map aggregation、Task wordflow串起来,供以后查阅。实现方法1:常规方式计

2016-03-07 20:51:44 601

原创 (大数据分析-3)HBASE Review

hbase原理回顾

2015-09-16 10:43:33 540

原创 (大数据分析-2)mapReduce Review

1 mapReduce基本原理及介绍HDFS提供分布式存储,mapReduce提供并行计算框架。mapReduce主要特点:提供并行计算能力,随着节点增加近似线性递增分而治之思想编程结构透明1.1 基本原理1.1.1 job和taskjob是客户端要求执行的一个工作单元,输入数据、mapReduce程序、配置task是mapreduce作业拆分的

2015-09-16 10:41:06 429

原创 (大数据分析-1)HDFS Review

1 HDFS基本原理及介绍1.1 基本原理HDFS仅负责存储数据,mapReduce负责读写数据设计目标:大文件存储(TB、PB)、高容错(软件容错,数据多份拷贝)、高吞吐不适合场景:存储大量小文件、随机读取、低延迟读取1.1.1 HDFS基本概念数据块(block)大文件会被分割为多个block(默认128M存储,小于一个块的文件不会占

2015-09-16 10:38:31 684

原创 利用EXCEL+ACCESS分析大数据量文件

今晚加班统计汇总70多万行EXCEL数据,对每行数据进行15次VLOOKUP查找后,EXCEL毫无悬念地失去响应,CPU立刻达到100%。和老婆看了1个多小时元宵晚会后回来一看,结果依然没有算出来。突然想起之前看过一本书《让EXCEL飞》,提到海量数据用EXCEL+ACCESS进行分析。尝试一下,10分钟完成全部查询,其中大部分时间还是花在EXCEL文件处理上。这里对操作步骤简单记录: 1

2014-02-15 01:09:10 7097

原创 R语言与数据挖掘(一)

要点:1)数据可视化:直方图hist()、QQ图qq.plot()、箱图boxplot()、二维箱图bwplot()2)空值处理:查找complete.cases()、空值删除na.omit()、均值/中位值填充mean()/median()3)多元回归:lm()4)回归树:rpart()5)模型选择/交叉验证:6)模型预测:1、问题描述监测和早期预测有害海

2013-04-18 00:37:41 1957

项目管理经典著作《最后期限》

项目管理经典教程,大家参考一下

2008-04-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除