mahout的数据文件格式

原文地址:https://cwiki.apache.org/confluence/display/MAHOUT/Data+Formats

Mahout支持许多格式的文件以便实现各种工作。
文件格式
可导入的文件格式
1.
文本文件
        (1)满足
以下格式的文本可以转化为流数据文件导入:
            
(行号,行文本)
            
(文件名,文件的全部内容)
            
(行号,行份的用正则表达式模式)
       
(2)可以解析为Lucene索引的文本:
               
精确的索引设计???(此处不明白为什么会有三个问号,可能有部分文本会失败吧)
2.
ARFF文件
        
WEKA(来源)项目文本数据格式
       
可以<Int,Vector>格式生成流文件的数据
3.
邮箱文件
          
满足以下格式的邮件可以转化为流数据文件导入
            
(邮件ID,电子邮件消息的文本正文)
            
没有HTML或附件支持
4.
CSV文件
        不导入行头和列头

        
没有“多个值,每列”选项
5.
Hadoop的流文件
        
规范的,没有变化。目前没有使用的元数据。
6.
Lucene索引
       
转换为流文件
            
精确的索引设计?

可导出的格式

    hadoop的流文件

    
文本行,可以使用toString()函数的类型
    
MatrixWritable ConfusionMatrix
   
可供MatrixWritable使用的CSV
    
一个特殊的CSV格式集群
    
GraphML XML集群

流文件中存储的内容的格式
“简化的”
文本vectors
文档以简单文本vectors的形式存储。整个文档集的大小由vector的总量决定。每个文档vector存储一个数字,它包含了每一项的索引位置数值。这个数字是通过对集合的统计获得的。

编码的文本载体
文档以vectors的形式存储然而,过大的文档集会有随机崩溃的危险,所以文档的索引是由多个小的索引集合构成的。

字典
每一行以<Integer,Text>格式存储,其中文本键可以存储像电影的名字,文件的文件名等短小文本内容,并且以RowIdJob作为键。

矩阵
矩阵以LongWritable / VectorWritable对的形式存储,并且VectorWritable可以疏或密。

集群
复杂的数据结构被存储在集群。

FPGrowth集群
这些都存储在一个自定义的数据结构。

生命周期

所有mahout作业一般假设所生成的文件没有寿命。所有可写格式可能会改变,有些抛弃。没有文件兼容性强制要求。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值