xuefei2-CSDN博客

原创深度学习基本概念

损失函数loss function，衡量预测值与真实值之间的误差，如平方误差函数square loss。模型训练中，希望找到一组参数，使得训练样本的平均损失最小。优化算法1）解析解。2）数值解。小批量随机梯度下降，mini-batch stochastic gradient descent选取⼀组模型参数的初始值，如随机选取；接下来对参数进⾏多次迭代。在每次迭代中，先...

2020-02-14 17:53:53 471

转载 Spark API样例

利用样例，说明Spark API功能。

2016-11-22 08:57:53 627

为什么kindle出现很晚而配置比较低，大一点的pdf文件阅读不了？和同事讨论了一翻，其实kindle如果做成高配置，弄个大容量内存，双核cpu，再接上键盘喇叭，看书时候放点音乐，有必要么？这就不是kindle了，这是ipad。kindle能够让用户专心看书不被其他干扰，其他都是多余。专心做好最重要的一件事，做到极致，也就成功了。内存低一些，没有音乐视频播放功能，从某种角度说，恰恰给了用户安心阅读的环境。不是么？

2016-07-31 21:07:04 11151

原创 HDPCD:Java认证考试经验总结

因公司使用Hortonworks的Hadoop产品，最近我参加了HDPCP:Java（Hortonworks Certified Java Developer）资格认证考试。自去年11月参加HDP培训开始，至7月16日晚参加在线认证考试，共经历了半年多时间。在这段时间里，搭建本地伪分布式Hadoop环境，每天看书复习，学习网上资料，写code练手，从零开始学习直至参加考试获得认证，过程艰苦并快乐。这里记录下来，供后续参加认证的同学参考借鉴。

2016-07-22 11:56:11 1858

翻译 (hadoop学习－5）Map Side Join

简述mapreduce的map side join过程

2016-07-11 14:27:43 614

翻译（hadoop学习－4）Reduce side join

利用mapreduce实现两个表reduce side join操作，比提供rawcomparator进行优化

2016-06-29 14:21:19 519

翻译（hadoop学习－3）Total Order Partitioner

总结mapreduce的TotalOrderPartition方法，提供具体流程和关键代码实现。

2016-06-15 09:32:12 1548

原创 Hadoop开发相关问题总结

总结自己在Hadoop开发中遇到的问题，主要在mapreduce代码执行方面。大部分来自日常代码执行错误的解决方法，还有一些是对JAVA、Hadoop剖析。对于问题，通过查询stackoverflow、csdn找到了解决方法。汇总出来以后查询方便。内容将不定期更新。

2016-06-14 15:23:26 4213

翻译（Hadoop学习－2）mapreduce实现二次排序

mapreduce实现二次排序

2016-06-13 10:37:31 724

翻译（hadoop学习－1）mapreduce实现数据过滤、聚合与排序

利用mapreduce实现数据过滤、聚合与排序。文章翻译自http://blog.ditullio.fr，并提供源代码。

2016-06-13 10:29:09 3997

原创 TFIDF算法Hadoop实现

利用HADOOP实现TFIDF算法

2016-06-12 09:13:50 2332 1

原创伪分布式hadoop搭建步骤

1.从hadoop官方网站（hadoop.apache.org）下载hadoop安装包。解压缩后放到本地，非中文路径下。2.修改hadoop目录etc/hadoop文件夹内相关配置文件。如果配置文件没有该属性，需要增加。1）配置core-site.xml文件的defaultFS、hadoop.tmp.dir fs.defaultFS hdfs://localho

2016-04-23 09:48:49 409

原创二次排序说明

hadoop二次排序，把部分value移至key，组成新class，作为mapreduce框架的新key进行计算。下面根据hadoop2.7.1源代码中样例程序secondarysort.java，总结二次排序相关方法。package org.apache.hadoop.examples;import java.io.DataInput;import java.io.DataOutput

2016-04-23 09:47:39 535

原创关于hadoop wordcount的几种实现

Wordcount是hadoop的入门程序，类似其他程序语言的hello world程序一般。这个程序简短，但是不简单。通过多种方式实现，加强对mapreduce理解，大有好处。下面是最近我学习hadoop总结，利用wordcount把Secondary sort、In Map aggregation、Task wordflow串起来，供以后查阅。实现方法1：常规方式计

2016-03-07 20:51:44 664

原创（大数据分析-3）HBASE Review

hbase原理回顾

2015-09-16 10:43:33 634

原创（大数据分析-2）mapReduce Review

1 mapReduce基本原理及介绍HDFS提供分布式存储，mapReduce提供并行计算框架。mapReduce主要特点：提供并行计算能力，随着节点增加近似线性递增分而治之思想编程结构透明1.1 基本原理1.1.1 job和taskjob是客户端要求执行的一个工作单元，输入数据、mapReduce程序、配置task是mapreduce作业拆分的

2015-09-16 10:41:06 499

原创（大数据分析-1）HDFS Review

1 HDFS基本原理及介绍1.1 基本原理HDFS仅负责存储数据，mapReduce负责读写数据设计目标：大文件存储（TB、PB）、高容错（软件容错，数据多份拷贝）、高吞吐不适合场景：存储大量小文件、随机读取、低延迟读取1.1.1 HDFS基本概念数据块（block）大文件会被分割为多个block（默认128M存储，小于一个块的文件不会占

2015-09-16 10:38:31 765

原创利用EXCEL+ACCESS分析大数据量文件

今晚加班统计汇总70多万行EXCEL数据，对每行数据进行15次VLOOKUP查找后，EXCEL毫无悬念地失去响应，CPU立刻达到100%。和老婆看了1个多小时元宵晚会后回来一看，结果依然没有算出来。突然想起之前看过一本书《让EXCEL飞》，提到海量数据用EXCEL+ACCESS进行分析。尝试一下，10分钟完成全部查询，其中大部分时间还是花在EXCEL文件处理上。这里对操作步骤简单记录： 1

2014-02-15 01:09:10 7508

原创 R语言与数据挖掘（一）

要点：1）数据可视化：直方图hist()、QQ图qq.plot()、箱图boxplot()、二维箱图bwplot()2）空值处理：查找complete.cases()、空值删除na.omit()、均值/中位值填充mean()/median()3）多元回归：lm()4）回归树：rpart()5）模型选择/交叉验证：6）模型预测：1、问题描述监测和早期预测有害海

2013-04-18 00:37:41 2112