cluster-trace-v2018/Cluster Data V2018 阿里集群数据集属性简介

@扶摇直上

已于 2023-05-09 16:42:58 修改

阅读量1.2k

点赞数 4

文章标签：服务器大数据

于 2023-05-09 16:35:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46007248/article/details/130583097

版权

Cluster-trace-v2018包括大约4000台机器，每天8天，由6个表组成（每个都是一个文件）。以下是表的简要介绍。

machine_meta.csv：机器的元信息和事件信息。
machine_usage.csv：每台机器的资源使用情况。
container_meta.csv：容器的元信息和事件信息。
container_usage.csv：每个容器的资源使用情况。
batch_instance.csv：关于批处理工作负荷中实例的信息。
batch_task.csv：有关批处理工作负载中任务的信息。请注意，task_name字段中描述了每个作业任务的DAG信息。

数据集下载（大约需要至少350G存储空间，压缩文件50G，提取270G）：http://clusterdata2018pubcn.oss-cn-beijing.aliyuncs.com/alibaba_clusterdata2018.tar.gz

该文件描述了每个数据文件的模式。下面的索引与每个文件中的数据列对齐。

Machine_meta

Field	Type	Label	Comment
machine_id	string		机器的uid
time_stamp	bigint		时间戳，以秒为单位
failure_1	bigint		一级容器故障域
failure_2	string		容器故障域的另一个级别
cpu_num	bigint		机器上的cpu数量
mem_size	bigint		标准化内存大小。[0, 100]
status	string		机器的状态

*关于failure_1:我们有多个级别的故障域，在此版本的trace中提供了其中的两个。对于任何需要容错的应用程序，它们的实例应该分布在许多故障域中。这是一个枚举值。

Machine_usage

Field	Type	Label	Comment
machine_id	string		机器的uid
time_stamp	double		时间戳，以秒为单位
cpu_util_percent	bigint		[0, 100]
mem_util_percent	bigint		[0, 100]
mem_gps	double		标准化内存带宽，[0，100]
mkpi	bigint		每千条指令的缓存未命中
net_in	double		在即将到来的网络流量中标准化，[0，100]
net_out	double		标准化的外出网络流量，[0，100]
disk_io_percent	double		[0，100]，异常值为-1或101

Container_meta

Field	Type	Label	Comment
container_id	string		容器的uid
machine_id	string		容器主机的uid
time_stamp	bigint		时间戳，以秒为单位
app_du	string		具有相同app_du的容器属于相同的应用程序组
status	string		状态
cpu_request	bigint		100是一个核心
cpu_limit	bigint		100是一个核心
mem_size	double		标准化内存，[0，100]

*关于app_du:属于同一个部署单元的容器提供一个服务，通常，它们应该跨故障域分布

Container_usage

Field	Type	Label	Comment
container_id	string		容器的uid
machine_id	string		容器主机的uid
time_stamp	double		时间戳，以秒为单位
cpu_util_percent	bigint		[0, 100]
mem_util_percent	bigint		[0, 100]
cpi	double
mem_gps	double		标准化内存带宽，[0，100]
mpki	bigint
net_in	double		在即将到来的网络流量中标准化，[0，100]
net_out	double		标准化的外出网络流量，[0，100]
disk_io_percent	double		[0，100]，异常值为-1或101

Batch_task

Field	Type	Label	Comment
task_name	string		任务名称。在工作中是唯一的
instance_num	bigint		实例数量
job_name	string		工作名称
task_type	string		任务类型
status	string		任务状态
start_time	bigint		任务开始时间
end_time	bigint		任务结束时间
plan_cpu	double		任务所需的cpu数量，100是1个核心
plan_mem	double		标准化内存大小，[0，100]

*任务名称表示DAG信息，参见批处理工作负载的解释

Batch_instance

Field	Type	Label	Comment
instance_name	string		实例的实例名称
task_name	string		实例所属任务的名称
job_name	string		实例所属的作业的名称
task_type	string		任务类型
status	string		任务状态
start_time	bigint		任务开始时间
end_time	bigint		任务结束时间
machine_id	string		实例的主机uid
seq_no	bigint		此实例的序列号
total_seq_no	bigint		此实例的总序列号
cpu_avg	double		实例使用的平均cpu，100是1个核心
cpu_max	double		实例使用的最大cpu，100是1个核心
mem_avg	double		实例使用的平均内存(标准化)
mem_max	double		实例使用的最大内存(标准化，[0，100])

*任务名称在作业中是唯一的；注意任务名称表示DAG信息，请参见批处理工作负载的说明

*总共有12种类型，其中只有一部分有DAG信息

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
cluster-trace-v2018/Cluster Data V2018 阿里集群数据集属性简介

关于failure_1:我们有多个级别的故障域，在此版本的trace中提供了其中的两个。对于任何需要容错的应用程序，它们的实例应该分布在许多故障域中。*关于app_du:属于同一个部署单元的容器提供一个服务，通常，它们应该跨故障域分布。*任务名称在作业中是唯一的；在即将到来的网络流量中标准化，[0，100]在即将到来的网络流量中标准化，[0，100]实例使用的最大内存(标准化，[0，100])标准化的外出网络流量，[0，100][0，100]，异常值为-1或101。标准化的外出网络流量，[0，100]
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。