自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Spark Streaming容错的改进和零数据丢失(转)

作者:Tathagata Das 译者:彭根禄 本文来自Spark Streaming项目带头人 Tathagata Das的博客文章,他现在就职于Databricks公司。过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark Streaming的研究工作。本文主要谈及了S...

2015-12-09 11:18:17

阅读数 39

评论数 0

ubuntu安装nvidia 750ti显卡驱动

NVIDIA (英伟达)公司已经发布了针对 Linux 用户的显卡驱动 Nvidia Driver 334.21,该驱动程序新增加支持 GeForce GTX 750 Ti、 GeForce GTX 750、 GeForce GTX 745 和 GeForce GTX TITAN。除此之外,NV...

2015-10-15 20:56:51

阅读数 277

评论数 0

基于随机游走的personalrank算法实现推荐

今天我们讲一个下怎么使用随机游走算法PersonalRank实现基于图的推荐。在推荐系统中,用户行为数据可以表示成图的形式,具体来说是二部图。用户的行为数据集由一个个(u,i)二元组组成,表示为用户u对物品i产生过行为。本文中我们认为用户对他产生过行为的物品的兴趣度是一样的,也就是我们只考虑“感...

2015-10-15 11:11:00

阅读数 244

评论数 0

最速梯度下降法

梯度下降法是一个一阶最优化算法,通常也称为最速下降法。 梯度下降法,就是利用负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代能使待优化的目标函数逐步减小。梯度下降法是2范数下的最速下降法。     最速下降法的一种简单形式是:x(k+1)=x(k)-a*g(k),其中a称为学习速率,可以...

2015-10-15 11:02:30

阅读数 186

评论数 0

使用LFM(Latent factor model)隐语义模型进行Top-N推荐

最近在拜读项亮博士的《推荐系统实践》,系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结。隐语义模型LFM和LSI,LDA,Topic Model其实都属于隐含语义分析技术,是一类概念,他们在本质上是相通的,都是找出潜在的主题或分类。这些技术一开...

2015-10-15 10:43:33

阅读数 47

评论数 0

ubuntu里刻录win7的iso镜像到usb

1.安装 gparted sudo apt-get install gparted2.打开gparted,把U盘格式化成 ntfs(注意先卸载usb)3.安装 ms-sys 去这里下载 http://ms-sys.sourceforge.net/#Download4.解压 并安装 (安装的时候...

2015-10-14 20:31:56

阅读数 166

评论数 0

HADOOP中mapreduce开启压缩功能

                       最近给热云公司共享数据,我们把原始数据给到他们,让他们做计算。每天同步一次,数据量压缩后10几个G,数据来自hive的mapreduce查询。通过insert overwrite local directory select语句将数据写入本地的NF...

2015-10-14 14:26:32

阅读数 96

评论数 0

朴素贝叶斯分类器的应用

一、病人分类的例子 让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。 某个医院早上收了六个门诊病人,如下表。   症状  职业   疾病   打喷嚏 护士   感冒   打喷嚏 农夫   过敏   头痛  建筑工人 脑震荡   头痛  建筑工人 感冒   打喷嚏 教师...

2015-10-12 15:18:26

阅读数 23

评论数 0

HIVE跑mapjoin时所有任务失败--问题分析及解决

            今天有个需求,就是:指定200W用户(表meids_tmp),把这些用户最近15天的应用使用数据(表tb_yl_upload_info,按天分区)转移到另外一张表中(表upload_info_sub,按天分区)。          很直观,meids_tmp表63M,可...

2015-09-22 16:40:56

阅读数 154

评论数 0

HBase安全及namespace操作

1、介绍   在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上划分。Apache HBase从0.98.0, 0.95.2两个版本开始支持namespace级别的授权操作,HBase全局管理员可以创建、修改和回收names...

2015-09-18 19:37:11

阅读数 185

评论数 0

hadoop、hbase节点下线

          hadoop节点在磁盘坏掉的时候需要节点下线,按照下线步骤操而不是直接kill,是为了让数据安全的转移。比如hbase的regionserver直接kill掉的话,如果运气再坏一点这个regionserver上刚好是root表或meta表所在的机器,那可能导致hbase集...

2015-09-17 16:21:12

阅读数 207

评论数 0

mybatis中使用map类型参数,其中key为列名,value为列值

                    最近有个需求,就是使用mybatis时,向mysql中插入数据,其参数为map类型,map里面的key为列名,而key对应的value是该列对应的列值;问题是每次插入mysql中数据行的部分列,即map里面key的值每次都不固定,在用mybatis时需要...

2015-09-11 15:00:07

阅读数 864

评论数 0

hive多用户权限控制

当多个不同角色的用户共用hive时,需要对不同的角色做不同的权限控制。权限控制主要指底层的hdfs文件操作控制和hive自身的对表的授权管理。   首先,安装hive。hive装好后以管理员身份启动hive,即执行命令:hive -hiveconf hive.root.logger=DEB...

2015-08-27 17:39:43

阅读数 552

评论数 0

MYSQL乱码问题解决

在使用mysql过程中遇到乱码问题,具体流程是:同事通过putty命令行终端向mysql插入带中文的记录,然后自己同样在putty查询回显正常;但是我在spring里用mybatis去查数据是,得到的却是乱码的字符。最终发现,同事用latin1字符编码写的,但是我是用utf8读的,所以出现以上问...

2015-08-03 12:37:10

阅读数 31

评论数 0

两阶段提交

在分布式系统中,事务往往包含有多个参与者的活动,单个参与者上的活动是能够保证原子性的,而多个参与者之间原子性的保证则需要通过两阶段提交来实现,两阶段提交是分布式事务实现的关键。 很明显,两阶段提交保证了分布式事务的原子性,这些子事务要么都做,要么都不做。而数据库的一致性是由数据库的完整性约束实...

2015-07-30 18:19:31

阅读数 20

评论数 0

mysql MVCC

Mysql到底是怎么实现MVCC的?这个问题无数人都在问,但google中并无答案,本文尝试从Mysql源码中寻找答案。   在Mysql中MVCC是在Innodb存储引擎中得到支持的,Innodb为每行记录都实现了三个隐藏字段:   6字节的事务ID(DB_TRX_ID ) 7字节的...

2015-07-30 18:15:03

阅读数 35

评论数 0

mysql悲观锁总结和实践

最近学习了一下数据库的悲观锁和乐观锁,根据自己的理解和网上参考资料总结如下:   悲观锁介绍(百科): 悲观锁,正如其名,它指的是对数据被外界(包括本系统当前的其他事务,以及来自外部系统的事务处理)修改持保守态度,因此,在整个数据处理过程中,将数据处于锁定状态。悲观锁的实现,往往依靠数据库...

2015-07-30 14:57:15

阅读数 27

评论数 0

mysql乐观锁总结和实践

上一篇文章《MySQL悲观锁总结和实践》谈到了MySQL悲观锁,但是悲观锁并不是适用于任何场景,它也有它存在的一些不足,因为悲观锁大多数情况下依靠数据库的锁机制实现,以保证操作最大程度的独占性。如果加锁的时间过长,其他用户长时间无法访问,影响了程序的并发访问性,同时这样对数据库性能开销影响也很大...

2015-07-30 14:56:37

阅读数 30

评论数 0

MySQL InnoDB三大特性之 - 两次写

今天我们来介绍InnoDB存储引擎的第二个特性 - 两次写(doublewrite),如果说插入缓冲是为了提高写性能的话,那么两次写是为了提高可靠性,牺牲了一点点写性能。   部分写失效 想象这么一个场景,当数据库正在从内存向磁盘写一个数据页时,数据库宕机,从而导致这个页只写了部分数据,...

2015-07-27 14:37:26

阅读数 52

评论数 0

MySQL InnoDB三大特性之 - 插入缓冲

InnoDB存储引擎有三大特性非常令人激动,它们分别是插入缓冲、两次写和自适应哈希,本篇文章先介绍第一个特性 - 插入缓冲(insert buffer) 在上一篇《MySQL - 浅谈InnoDB存储引擎》中,我们可以看到在InnoDB的内存中有单独一块叫“插入缓冲”的区域,下面我们详细来介绍...

2015-07-27 14:36:50

阅读数 44

评论数 0

提示
确定要删除当前文章?
取消 删除