mahout里数据结构解析 ----------------（一）

最新推荐文章于 2023-07-01 04:17:15 发布

USTCZYY

最新推荐文章于 2023-07-01 04:17:15 发布

阅读量1.1k

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/ustczyy/article/details/16330463

版权

Mahout针对大规模推荐数据进行了优化，使用Preference接口表示用户喜好。由于Java对象内存消耗，Mahout引入了PreferenceArray（如GenericUserPreferenceArray和GenericItemPreferenceArray）以减少内存开销。此外，Mahout使用FastByIDMap和FastIDSet替代HashMap和HashSet，提高性能并节省内存。DataModel作为推荐引擎的输入，包括内存版的GenericDataModel、FileDataModel和JDBCDataModel，用于从不同数据源获取用户喜好信息。

摘要由CSDN通过智能技术生成

推荐数据的处理是大规模的，在集群环境下一次要处理的数据可能是数GB，所以Mahout针对推荐数据进行了优化。

Preference
在Mahout中，用户的喜好被抽象为一个Preference，包含了userId，itemId和偏好值（user对item的偏好）。Preference是一个接口，它有一个通用的实现是GenericPreference。

Preference

但因为用户的喜好数据是大规模的，我们通常会选择把它放入集合或者数组。但是因为Java的对象的内存消耗机制，在大数据量下使用Collection<Preference>和Preference[]是非常低效的。为什么呢？

在Java中，一个对象占用的字节数 = 基本的8字节 + 基本数据类型所占的字节 + 对象引用所占的字节
（1）先说这基本的8字节
在JVM中，每个对象（数组除外）都有一个头，这个头有两个字，第一个字存储对象的一些标志位信息，如：锁标志位、经历了几次gc等信息；第二个字节是一个引用，指向这个类的信息。JVM为这两个字留了8个字节的空间。
这样一来的话，new Object()就占用了8个字节，那怕它是个空对象
（2）基本类型所占用的字节数
    byte/boolean 1bytes
    char/short 2bytes
    int/float 4bytes
    double/long 8bytes
（3）对象引用所占用的字节数
    reference 4bytes
注：实际中，有数据成员的话，要把数据成员按基本类型和对象引用分开统计。基本类型按(2)进行累加，然后对齐到8个倍数；对象引用按每个4字节进行累

最低0.47元/天解锁文章

USTCZYY

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
mahout里数据结构解析 ----------------（一）

推荐数据的处理是大规模的，在集群环境下一次要处理的数据可能是数GB，所以Mahout针对推荐数据进行了优化。Preference在Mahout中，用户的喜好被抽象为一个Preference，包含了userId，itemId和偏好值（user对item的偏好）。Preference是一个接口，它有一个通用的实现是GenericPreference。Pr
复制链接

扫一扫

专栏目录