cluster-trace-v2018/Cluster Data V2018 阿里集群数据集属性简介

Cluster-trace-v2018包括大约4000台机器,每天8天,由6个表组成(每个都是一个文件)。以下是表的简要介绍。

  • machine_meta.csv:机器的元信息和事件信息。
  • machine_usage.csv:每台机器的资源使用情况。
  • container_meta.csv:容器的元信息和事件信息。
  • container_usage.csv:每个容器的资源使用情况。
  • batch_instance.csv:关于批处理工作负荷中实例的信息。
  • batch_task.csv:有关批处理工作负载中任务的信息。请注意,task_name字段中描述了每个作业任务的DAG信息。

数据集下载(大约需要至少350G存储空间,压缩文件50G,提取270G):http://clusterdata2018pubcn.oss-cn-beijing.aliyuncs.com/alibaba_clusterdata2018.tar.gz

该文件描述了每个数据文件的模式。 下面的索引与每个文件中的数据列对齐。

Machine_meta

Field

Type

Label

Comment

machine_id

string

机器的uid

time_stamp

bigint

时间戳,以秒为单位

failure_1

bigint

一级容器故障域

failure_2

string

容器故障域的另一个级别

cpu_num

bigint

机器上的cpu数量

mem_size

bigint

标准化内存大小。[0, 100]

status

string

机器的状态

*关于failure_1:我们有多个级别的故障域,在此版本的trace中提供了其中的两个。对于任何需要容错的应用程序,它们的实例应该分布在许多故障域中。这是一个枚举值。

Machine_usage       

Field

Type

Label

Comment

machine_id

string

机器的uid

time_stamp

double

时间戳,以秒为单位

cpu_util_percent

bigint

[0, 100]

mem_util_percent

bigint

[0, 100]

mem_gps

double

标准化内存带宽,[0,100]

mkpi

bigint

每千条指令的缓存未命中

net_in

double

在即将到来的网络流量中标准化,[0,100]

net_out

double

标准化的外出网络流量,[0,100]

disk_io_percent

double

[0,100],异常值为-1或101

Container_meta

Field

Type

Label

Comment

container_id

string

容器的uid

machine_id

string

容器主机的uid

time_stamp

bigint

时间戳,以秒为单位

app_du

string

具有相同app_du的容器属于相同的应用程序组

status

string

状态

cpu_request

bigint

100是一个核心

cpu_limit

bigint

100是一个核心

mem_size

double

标准化内存,[0,100]

*关于app_du:属于同一个部署单元的容器提供一个服务,通常,它们应该跨故障域分布

Container_usage

Field

Type

Label

Comment

container_id

string

容器的uid

machine_id

string

容器主机的uid

time_stamp

double

时间戳,以秒为单位

cpu_util_percent

bigint

[0, 100]

mem_util_percent

bigint

[0, 100]

cpi

double

mem_gps

double

标准化内存带宽,[0,100]

mpki

bigint

net_in

double

在即将到来的网络流量中标准化,[0,100]

net_out

double

标准化的外出网络流量,[0,100]

disk_io_percent

double

[0,100],异常值为-1或101

Batch_task

Field

Type

Label

Comment

task_name

string

任务名称。在工作中是唯一的

instance_num

bigint

实例数量

job_name

string

工作名称

task_type

string

任务类型

status

string

任务状态

start_time

bigint

任务开始时间

end_time

bigint

任务结束时间

plan_cpu

double

任务所需的cpu数量,100是1个核心

plan_mem

double

标准化内存大小,[0,100]

*任务名称表示DAG信息,参见批处理工作负载的解释

Batch_instance

Field

Type

Label

Comment

instance_name

string

实例的实例名称

task_name

string

实例所属任务的名称

job_name

string

实例所属的作业的名称

task_type

string

任务类型

status

string

任务状态

start_time

bigint

任务开始时间

end_time

bigint

任务结束时间

machine_id

string

实例的主机uid

seq_no

bigint

此实例的序列号

total_seq_no

bigint

此实例的总序列号

cpu_avg

double

实例使用的平均cpu,100是1个核心

cpu_max

double

实例使用的最大cpu,100是1个核心

mem_avg

double

实例使用的平均内存(标准化)

mem_max

double

实例使用的最大内存(标准化,[0,100])

*任务名称在作业中是唯一的;注意任务名称表示DAG信息,请参见批处理工作负载的说明

*总共有12种类型,其中只有一部分有DAG信息

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
AliDMCompetition 阿里巴巴大数据竞赛(http://102.alibaba.com/competition/addDiscovery/index.htm ) 数据说明 提供的原始文件有大约4M左右,涉及1千多天猫用户,几千个天猫品牌,总共10万多条的行为记录。 用户4种行为类型(Type)对应代码分别为: 点击:0 购买:1 收藏:2 购物车:3 提交格式 参赛者将预测的用户存入文本文件中,格式如下: user_id \t brand_id , brand_id , brand_id \n 上传的结果文件名字不限(20字以内),文件必须为txt格式。 预测结果 真实购买记录一共有3526条 TODO 注意调整正负样本比例 在LR的基础上做RawLR。按照天猫内部的思路来。 在LR的基础上做MRLR,样本提取要更加合理。 在UserCF和ItemCF上加上时间因子的影响。 利用UserCF做好的用户聚类、ItemCF做好的品牌聚类来做细化的LR,或者在聚类 上做LFM 在ItemCF的思路上挖掘频繁项集/购买模式,如购买品牌A和商品后往往会购买 品牌B的商品 LFM 数据集特征 某一商品在购买前的一段时间内会出现大量点击次数,购买完成后的一段时间内也会出现大量点击次数 用户在本月有过行为的商品极少出现在下个月的购买列表里 根据观察推断:用户浏览商品的行为可分为两类: 无目的浏览,可能会在浏览过程中对某些中意的商品进行购买,数据表现为有大量点击次数<=2的行为记录,但很少有购买行为 有目的的查找商品,可能是事先有需求的情况,数据表现为一段时间内点击商品数很少, 但点击过的商品大多数都进行了购买 参考论文 See https://www.google.com.hk/search?q=data+mining+time+series&ie=utf-8&oe=utf-8&aq=t for more. Chapter 1 MINING TIME SERIES DATA - ResearchGate 模型列表 LR(model=LinearSVC(C=10, loss='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1438 1436 626 71 12 | % 100% 99.861% 43.533% 4.937% 0.834% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 76 Precision 5.285118% Recall 5.797101% F1 Score 5.529283% LR(model=LogisticRegression(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 1472 1470 615 68 14 | % 100% 99.864% 41.780% 4.620% 0.951% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 74 Precision 5.027174% Recall 5.644546% F1 Score 5.318002% 这个模型在数据变成2次后,Precision ~ 16%,同时F1 ~ 3% LR(model=Perceptron(penalty='l1'), alpha=0.7, degree=1) | TOTAL VISITED BOUGHT FAVO CART NEW | Pred # 3145 3140 1023 130 26 | % 100% 99.841% 32.528% 4.134% 0.827% | Real # 1311 250 89 10 1 | % 100% 19.069% 6.789% 0.763% 0.076% Hit # 113 Precis
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值