Cluster-trace-v2018包括大约4000台机器,每天8天,由6个表组成(每个都是一个文件)。以下是表的简要介绍。
- machine_meta.csv:机器的元信息和事件信息。
- machine_usage.csv:每台机器的资源使用情况。
- container_meta.csv:容器的元信息和事件信息。
- container_usage.csv:每个容器的资源使用情况。
- batch_instance.csv:关于批处理工作负荷中实例的信息。
- batch_task.csv:有关批处理工作负载中任务的信息。请注意,task_name字段中描述了每个作业任务的DAG信息。
数据集下载(大约需要至少350G存储空间,压缩文件50G,提取270G):http://clusterdata2018pubcn.oss-cn-beijing.aliyuncs.com/alibaba_clusterdata2018.tar.gz
该文件描述了每个数据文件的模式。 下面的索引与每个文件中的数据列对齐。
Machine_meta
Field | Type | Label | Comment |
machine_id | string | 机器的uid | |
time_stamp | bigint | 时间戳,以秒为单位 | |
failure_1 | bigint | 一级容器故障域 | |
failure_2 | string | 容器故障域的另一个级别 | |
cpu_num | bigint | 机器上的cpu数量 | |
mem_size | bigint | 标准化内存大小。[0, 100] | |
status | string | 机器的状态 |
*关于failure_1:我们有多个级别的故障域,在此版本的trace中提供了其中的两个。对于任何需要容错的应用程序,它们的实例应该分布在许多故障域中。这是一个枚举值。
Machine_usage
Field | Type | Label | Comment |
machine_id | string | 机器的uid | |
time_stamp | double | 时间戳,以秒为单位 | |
cpu_util_percent | bigint | [0, 100] | |
mem_util_percent | bigint | [0, 100] | |
mem_gps | double | 标准化内存带宽,[0,100] | |
mkpi | bigint | 每千条指令的缓存未命中 | |
net_in | double | 在即将到来的网络流量中标准化,[0,100] | |
net_out | double | 标准化的外出网络流量,[0,100] | |
disk_io_percent | double | [0,100],异常值为-1或101 |
Container_meta
Field | Type | Label | Comment |
container_id | string | 容器的uid | |
machine_id | string | 容器主机的uid | |
time_stamp | bigint | 时间戳,以秒为单位 | |
app_du | string | 具有相同app_du的容器属于相同的应用程序组 | |
status | string | 状态 | |
cpu_request | bigint | 100是一个核心 | |
cpu_limit | bigint | 100是一个核心 | |
mem_size | double | 标准化内存,[0,100] |
*关于app_du:属于同一个部署单元的容器提供一个服务,通常,它们应该跨故障域分布
Container_usage
Field | Type | Label | Comment |
container_id | string | 容器的uid | |
machine_id | string | 容器主机的uid | |
time_stamp | double | 时间戳,以秒为单位 | |
cpu_util_percent | bigint | [0, 100] | |
mem_util_percent | bigint | [0, 100] | |
cpi | double | ||
mem_gps | double | 标准化内存带宽,[0,100] | |
mpki | bigint | ||
net_in | double | 在即将到来的网络流量中标准化,[0,100] | |
net_out | double | 标准化的外出网络流量,[0,100] | |
disk_io_percent | double | [0,100],异常值为-1或101 |
Batch_task
Field | Type | Label | Comment |
task_name | string | 任务名称。在工作中是唯一的 | |
instance_num | bigint | 实例数量 | |
job_name | string | 工作名称 | |
task_type | string | 任务类型 | |
status | string | 任务状态 | |
start_time | bigint | 任务开始时间 | |
end_time | bigint | 任务结束时间 | |
plan_cpu | double | 任务所需的cpu数量,100是1个核心 | |
plan_mem | double | 标准化内存大小,[0,100] |
*任务名称表示DAG信息,参见批处理工作负载的解释
Batch_instance
Field | Type | Label | Comment |
instance_name | string | 实例的实例名称 | |
task_name | string | 实例所属任务的名称 | |
job_name | string | 实例所属的作业的名称 | |
task_type | string | 任务类型 | |
status | string | 任务状态 | |
start_time | bigint | 任务开始时间 | |
end_time | bigint | 任务结束时间 | |
machine_id | string | 实例的主机uid | |
seq_no | bigint | 此实例的序列号 | |
total_seq_no | bigint | 此实例的总序列号 | |
cpu_avg | double | 实例使用的平均cpu,100是1个核心 | |
cpu_max | double | 实例使用的最大cpu,100是1个核心 | |
mem_avg | double | 实例使用的平均内存(标准化) | |
mem_max | double | 实例使用的最大内存(标准化,[0,100]) |
*任务名称在作业中是唯一的;注意任务名称表示DAG信息,请参见批处理工作负载的说明
*总共有12种类型,其中只有一部分有DAG信息