自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 mapreduce中的sequenceFile类,MapFile解析

在map进行操作之后数据应该存在对应的文件中,一般这里涉及到MapFile和SequenceFile,后者主要是记录key/value的列表信息 同时是二进制处理之后的数据,直接看是没有办法的 利用命令 hadoop fs -text 文件的位置 sequence中有三种不同类型的结构 1 未...

2015-09-21 18:35:06 1779 0

原创 广告特征离散化

有一段时间没有写博客了 最近都在做一些和广告算法相关的工作,用的模型也是比较大众的lr,主要呃工作还是在特征提取的过程,下面纪录一些心得体会: 在预估ctr的过程中,理论上是应该有这么几类特征信息: 用户的信息(用户输入的query,包括用户的年龄,消费水平,历史操作行为) 广告的...

2015-06-11 23:55:47 2150 0

原创 SVD理解和其在PCA,LSI的应用

首先确实是觉得这篇文章写得很好,后面的附录也是非常值得一看 整体框架转自 http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html 中间穿插一些自己的理解的部分 前言:     PCA...

2015-04-10 13:17:43 2287 0

原创 深入理解EM推导过程

首先都有参考两篇文章: http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html http://blog.csdn.net/zouxy09/article/details/8537620 觉得他们写的非常好,可以参考...

2015-03-26 19:36:17 3397 0

原创 理解迭代法和优化基础

后面介绍的时候结合另一个博客的内容: http://blog.csdn.net/zouxy09/article/details/8537872           个人理解因为其实无论什么机器学习算法,最终都要求助于计算机解决,它又表现为在特定函数空间按某优化目标去搜索一个解出来。衡量指标就...

2015-03-25 18:37:18 7344 1

原创 机器学习Python实现AdaBoost

adaboost是boosting方法多个版本中最流行的一个版本,它是通过构建多个弱分类器,通过各个分类器的结果加权之后得到分类结果的。这里构建多个分类器的过程也是有讲究的,通过关注之前构建的分类器错分的那些数据而获得新的分类器。这样的多个分类器在训练时很容易得到收敛。 本文主要介绍了通过单...

2015-03-18 15:12:57 9242 0

原创 数据库 B树 B+树

在数据库的索引中,一般是利用B树或者B+树进行检索和查询 介绍一下在两种数据结构中数据的查询方式: 1)B树   B树中每个节点包含了键值和键值对于的数据对象存放地址指针,所以成功搜索一个对象可以不用到达树的叶节点。   成功搜索包括节点内搜索和沿某一路径的搜索,成功搜...

2015-03-10 16:39:25 1359 0

原创 SVM支持向量机-拉格朗日,对偶算法的初解

许多地方得SVM讲得都很晦涩,不容易理解,最近看到一篇不错的博文写得很好,同时加上自己的理解,重新梳理一下知识要点 http://blog.csdn.net/zouxy09/article/details/17291543 一、引入 SVM是个分类器。我们知道,分类的目的是学...

2015-03-09 18:32:44 11808 3

原创 机器学习 Python实现逻辑回归

# -*- coding: cp936 -*- from numpy import * def loadDataSet(): dataMat = []; labelMat = [] fr = open('testSet.txt') for line i...

2015-03-06 15:29:37 1695 1

原创 机器学习—逻辑回归理论简介

下面是转载的内容,主要是介绍逻辑回归的理论知识,先总结一下自己看完的心得 简单来说线性回归就是直接将特征值和其对应的概率进行相乘得到一个结果,逻辑回归则是这样的结果上加上一个逻辑函数 这里选用的就是Sigmoid函数,在坐标尺度很大的情况下类似于阶跃函数 在确认特征对应的权重值也就是回归系数的时候...

2015-03-06 14:51:19 1481 1

原创 机器学习 python实例完成—决策树

决策树学习是应用最广泛的归纳推理算法之一,是一种逼近离散值目标函数的方法,在这种方法中学习到的函数被表示为一棵决策树。决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,机器学习算法最终将使用这些从数据集中创造的规则。决策树的优点为:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以...

2015-03-05 16:02:42 4226 1

原创 机器学习算法与Python实践—k近邻(KNN)

机器学习算法与Python实践之(一)k近邻(KNN) 参考 http://blog.csdn.net/zouxy09/article/details/16955347 一、kNN算法分析        K最近邻(k-Nearest Neighbor,KNN)分类算法可以说是最简单...

2015-03-05 14:56:41 814 1

原创 深入剖析智能指针 shared_ptr

在effective C++经常会提到智能指针,这里对shared_ptr进行一个总结: 1 简要介绍用法 智能指针主要是用于资源管理,当申请一个资源的时候为了保证在离开控制流的时候对应资源应该得到相应的释放,这个时候如果资源对应一个类,在构造类的时候进行资源的分配(也就是书中经常提到的Res...

2015-01-13 15:21:43 1299 1

转载 深度解析京东个性化推荐系统演进史

在电商领域,推荐的价值在于挖掘用户潜在购买需求,缩短用户到商品的距离,提升用户的购物体验。 京东推荐的演进史是绚丽多彩的。京东的推荐起步于2012年,当时的推荐产品甚至是基于规则匹配做的。整个推荐产品线组合就像一个个松散的原始部落一样,部落与部落之前没有任何工程、算法的交集。2013年,国内...

2017-12-07 11:45:05 458 0

转载 ELK介绍安装

大纲: 一、简介 二、Logstash 三、Redis 四、Elasticsearch 五、Kinaba 一、简介 1、核心组成 ELK由Elasticsearch、Logstash和Kibana三部分组件组成; Ela...

2017-05-11 21:18:02 571 0

原创 spark上手系列一(常见问题,样例演示)

spark实例在现有的机器上完成的配置省略安装的过程,目前机器上安装的路径是 /opt/spark,记为SPARK_HOME=/opt/spark问题1:找不到对应的host机器 java.net.UnknownHostException: bjzw_102_229: bjzw_102_229 ...

2016-11-30 11:33:02 1171 0

转载 消息队列-Kafka介绍

在现有的工程项目中,经常需要对用户的实时log进行处理,实时log主要是通过kafka进行记录,分两个部分,一部分通过kafka进行切片后存储在hdfs中,另一部分也可以提供实时的kafka数据,方便实时的处理,因此先简单介绍一下kafka的基本的工作原理 消息队列: 消息队列技术是分布式...

2016-11-25 20:09:05 1807 0

原创 mac配置tensorflow

1 安装Homebrewruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)” 最后显示,基本就没问题了==> Next steps Run `brew help` ...

2016-09-17 21:57:58 571 0

转载 理解 LSTM 网络

这是看到的一篇翻译的很扎实的文章,对LSTM的基础框架有了清晰的了http://www.jianshu.com/p/9dc9f41f0b29 Recurrent Neural Networks 人类并不是每时每刻都从一片空白的大脑开始他们的思考。在你阅读这篇文章时候,你都是基于自己已经拥有的...

2016-09-17 17:25:31 479 0

原创 将eclipse变得更加漂亮

一直没有时间搞一下自己的电脑,作为程序员,默认配置真的是不能忍受 1 在eclipse下安装vim的插件,让手指飞起来,vim的插件有三种,分别是Vrapper; eclim;viplugin;具体的安装方式参考http://blog.csdn.net/fatal360/article/deta...

2016-09-17 15:21:50 914 0

原创 hadoop+maven工程伪分布下实例运行

首先希望能够把本地的一些资源能够上传到hdfs当中,利用伪分布的格式分析工程的运行情况:执行put操作的时候出错 hadoop报错:could only be replicated to 0 nodes, instead of 1 出现错误之后利用jps查看已经启动的节点 但是发现datan...

2015-09-18 16:58:56 547 0

原创 mac下 eclipse+hadoop2.6.0完全配置,实例验证

最近开始自己搞hadoop实战的一些东西,之前其实已经接触了很久的mapreduce的一些方法,也写了比较多的算法了 但是一直没有很理论的研究过,准备在这个月里面完整的记录一下这方面的理论知识 简述安装配置过程 首先我的电脑是 安装的hadoop版本是2.6下载地址网上很多我就不写了 ecli...

2015-09-17 21:13:51 719 0

原创 Longest Consecutive Sequence 数组连续数字的情况

Longest Consecutive Sequence Given an unsorted array of integers, find the length of the longest consecutive elements sequence. For example, ...

2015-08-30 21:36:16 466 0

原创 Contains Duplicate

主要是寻找数组中是否有相等数字的题目 在前面已经有一道题目,没有记录是数组中都是两个的数字,选择一个只有一个出现的数字,最简单的方法就是将所有的数字进行异或的过程,最后剩下的情况就是需要求的数据 下面的三个题目都是和数组有关的,自己有的最多的方法就是使用set和map进行记录的过程 ...

2015-08-29 17:39:51 601 0

转载 BP神经网络-详解

学习是神经网络一种最重要也最令人注目的特点。在神经网络的发展进程中,学习算法的研究有着十分重要的地位。目前,人们所提出的神经网络模型都是和学习算 法相应的。所以,有时人们并不去祈求对模型和算法进行严格的定义或区分。有的模型可以有多种算法.而有的算法可能可用于多种模型。不过,有时人们也称算法 为模型...

2015-08-28 11:33:53 1245 0

原创 bitMap算法

这也是比较经典的算法之一 在存储一些比较大的数据时十分有用,但是在使用的过程中,必须十分注意的就是数据的最大值,因为这个值决定了 存储的内存,在比较高效的结构中还有hash 在这个过程中,最好首先估计需要的内存的量 在所有具有性能优化的数据结构中,我想大家使用最...

2015-08-27 22:09:34 523 0

原创 Leetcode-Two Sum

Given an array of integers, find two numbers such that they add up to a specific target number.The function twoSum should return indices of the two n...

2015-08-02 16:49:46 588 0

原创 effective stl(容器部分总结)

还是很喜欢effective部分的书,看了好几遍,这里把stl中和容器相关的一些基本的注意的点进行介绍总结,之后对迭代器等进行总结 1 对序列容器中需要逐个删除的时候,不能像关联容器那样事先对迭代器进行++操作,因为删除一个迭代器,会使他自己无效,后面的迭代器也无效,所以应该保存删除eras...

2015-08-01 17:21:34 802 0

原创 *Lowest Common Ancestor of a Binary Tree解析

Lowest Common Ancestor of a Binary Tree Total Accepted: 6162 Total Submissions: 23311 My Submissions Question Solution Given a binary tree, find th...

2015-07-26 17:06:46 668 0

原创 推荐系统-实战总结

推荐系统实战 这周看了推荐系统实战这本书,其中基本上介绍的比较全面,但是每一部分并没有十分深入,深入的精华全部都在下方的备注当中,备注中有很多的论文,可以进行进一步的学习。 首先回顾一下一些框架信息,在专门思考其中几个重要的部分: 3种联系用户和item的推荐方式: 1...

2015-07-05 22:17:19 2602 0

转载 推荐广告系统—CTR在业务层面的意义

转自: http://www.yewen.us/blog/2013/05/why-predict-ctr/ http://www.yewen.us/blog/category/machine-learning/ 介绍了在广告推荐系统中CTR的重要性,以及如何在CTR的基础上做到广告相...

2015-04-26 23:59:15 3381 0

原创 广告推荐系统—CTR&LR模型评价

“计算广告学”中重要的一个子集——转化率预估(Conversion Modeling)广告行业内常见的商业模式有四种(图1):1) CPM,按展现付费;2)CPC,按点击付费;3)CPA,按转化付费;4)CPS,按销售分成。容易理解,广告主最欢迎CPA模式,因为这种模式的广告投放效率最高,广告主...

2015-04-26 23:23:01 14101 0

原创 广告推荐系统-逻辑回归问题导出

在广告推荐系统中,利用用户和广告之间的信息作为预测的特征 预测的过程其实就是一个二分类的问题,主要就是判定一个用户对这个广告点击或者是不点击的概率是多少 而这个过程是一个伯努利函数,整个过程是一个伯努利分布 而在逻辑回归中主要是在线性回归的基础上利用了一个逻辑函数sigmod,而为什么要...

2015-04-26 16:41:34 4396 0

原创 广告推荐系统-CTR&LR背景

刚开始接触广告推荐系统,对理论知识还处在一个学习的阶段,看一些资料,这里主要是对看的一些知识点的总结和进一步理解: http://blog.csdn.net/mytestmy/article/details/18987247 广告生态系统: 这一系列中的博客主要介绍广告系统的生态环境,和...

2015-04-26 15:45:02 5002 0

转载 最大似然概率和后验概率的区别

极大似然估计和贝叶斯估计分别代表了频率派和贝叶斯派的观点。频率派认为,参数是客观存在的,只是未知而矣。因此,频率派最关心极大似然函数,只要参数求出来了,给定自变量X,Y也就固定了,极大似然估计如下所示: D表示训练数据集,是模型参数 相反的,贝叶斯派认为参数也是随机的,...

2015-04-22 10:32:56 1301 0

原创 LeetCode—Merge Two Sorted Lists融合两个有序单链表

首先两个单链表是有序的 在融合两个单链表的时候,如果想到的是在一个序列上进行增减,那么会非常麻烦 这里一定要单独开一个序列头进行存储,不一定需要开辟内存,主要是一个概念 其实方法感觉和归并算法的merge都是一个概念 /** * Definition for singly-linked ...

2015-04-15 16:02:58 617 0

原创 大数的加法,乘法,全排列实现

打印1到最大的n位数: 这里一个很重要的概念就是n位数,不知道n为多大,那么需要用一个字符来表示一个大数 这里用string来表示大数,为了打印的时候方便,这里需要模拟一个字符的加法操作 另外,之前实现过大数的乘法,异曲同工: http://blog.csdn.net/xietin...

2015-04-15 11:00:06 571 0

原创 LDA算法总结

主要是参考了文章 http://www.cnblogs.com/LeftNotEasy/archive/2011/01/08/lda-and-pca-machine-learning.html http://www.cnblogs.com/jerrylead/archive/2011/04...

2015-04-13 15:04:30 3982 0

原创 LeetCode—Reverse Bits ,1 Bit和数字的二进制情况相关

https://leetcode.com/problems/reverse-bits/ Reverse bits of a given 32 bits unsigned integer. For example, given input 43261596 (represented ...

2015-04-12 23:57:31 732 0

原创 LeetCode—House Robber 寻找数组不相邻组合最大值DP

https://leetcode.com/problems/house-robber/ 题目设计了一个抢劫犯的情景,其实就是求数组中不相邻数据进行组合得到的最大值 举一个例子 假设数据: 8 3 6 15 4 9 7 10 那么首先可能选取 8 , 3 每一个数字的选取都是根据他的前两个...

2015-04-12 22:49:32 1843 0

提示
确定要删除当前文章?
取消 删除