有固定模式或者固定数学模型---与---速度量大的瓶颈----Hbase
天生就是面向时间戳的查询
基于行键查询异常快速,最近的数据被放到内存里,和可能都不会有很多的io操作
分布式化解负荷
模式设计:
浏览记录,中抽取最近访问的五个item
行键:userid
列族和列:book :bookid
充分利用分布式,可以用reverse key 和 hash 等技巧改造行键
推荐系统:
两个表 一个是u-t表,一个是t-u表
u-t 表结构:行键为userid ,列族和列为thread:threadid
t-u 表结构:行键为threadid,列族和列为user:userid
查询 先在从 t-u 表从 threadid-》userid 再 u-t 表从userid -》threadid
在计算程序中实现去重和统计功能
优势:key -value 速度快 ,分布式 效率高
辅助索引:
主表 :行键a+列族b,c,d:e
索引表: 行键e+列族 f:a
关系型数据库的切片和钻取的问题:复合行键的设计
前后查询条件并不独立
是有联系的,便于分布,有伸缩的查询
把userid 和 messageid 组合到一起的行键 userid-messageid 作为整个的id查询
hbase可以根据范围查询
定义起点和终点,把范围作为查询条件