MLOps极致细节:15. Azure ML数据集的上传(Azure Workspace DataStore Upload)与注册(Azure Dataset Register)

MLOps极致细节:15. Azure ML数据集的上传(Azure Workspace DataStore Upload)与注册(Azure Dataset Register)

这一章节中,我们将基于上一章节预处理完的数据,将其上传至Azure Storage,并且将其注册到Azure ML Workspace。我们将学习Azure Workspace的用法,Azure Dataset Register的用法,等等。



1 搭建虚拟环境

(我们将代码从gitee上clone下来。)

首先,我们在Windows的平台下安装Anaconda3。具体的安装步骤此处略过,参见Anaconda的官方文档。

安装完后,新建虚拟环境。使用conda create -n [your_env_name] python=X.X(3.6)命令创建python版本为X.X、名字为your_env_name的虚拟环境。根据 Install the Azure Machine Learning SDK for Python描述,如果是要安装azureml-core,最好对应的python版本是3.6或者3.7。

安装完默认的依赖后,我们进入虚拟环境:conda activate [your_env_name]。注意,如果需要退出,则输入conda deactivate。另外,如果Terminal没有成功切换到虚拟环境,可以尝试conda init powershell,然后重启terminal。

然后,我们在虚拟环境中下载好相关依赖:pip3 install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple。之后,在terminal中运行python main.py即可。

2 数据集的上传

在上一章节中,我们已经对输入的数据集weather_dataset_raw.csv进行了预处理,生成了weather_dataset_processed.csv。存于../2-dataPreprocess/Dataset/文件夹中。这里我们需要做的是将这些数据集上传到Azure Storage中(当然,这个storage账号和workspace账号是绑定的)。

首先,我们需要找到并输入以下三个参数

subscription_id = 'XXX'
resource_group = 'XXX'
workspace_name = 'XXX'

我们可以登录Azure portal,进入我们在前几章中注册的Azure Machine Learning Workspace账号,三个参数的位置如下图所示:

在这里插入图片描述

接下来我们就需要得到这个AzureML workspace的实例:

# Get workspace info based on subscription id, resource group, and workspace name
workspace = Workspace(subscription_id, resource_group, workspace_name)

这里罗列四种workspace的操作:

  • Get workspace info based on subscription id, resource group, and workspace name

    workspace = Workspace(subscription_id, resource_group, workspace_name)
    
  • List all workspaces in subscription id

    Workspace.list(subscription_id)
    
  • Create workspace

    ws = Workspace.create(name='myworkspace',
        subscription_id='XXX',
        resource_group='XXX',
        create_resource_group=True,
        location='eastus2'
        )
    
  • delete workspace

    workspace.delete(delete_dependent_resources=False, no_wait=False)
    

接下来,我们从这个workspace中得到datastore实例,然后将我们本地的csv文件上传到Azure Storage

# get the datastore to upload prepared data
datastore = workspace.get_default_datastore()
# upload the local file from src_dir to the target_path in datastore. You will 
datastore.upload(src_dir='../2-dataPreprocess/Dataset', target_path='data')

当我们运行main.py文件的时候,terminal中的记录显示:

Uploading an estimated of 2 files
Uploading ../2-dataPreprocess/Dataset\weather_dataset_processed.csv
Uploaded ../2-dataPreprocess/Dataset\weather_dataset_processed.csv, 1 files out of an estimated total of 2
Uploading ../2-dataPreprocess/Dataset\weather_dataset_raw.csv
Uploaded ../2-dataPreprocess/Dataset\weather_dataset_raw.csv, 2 files out of an estimated total of 2
Uploaded 2 files

这时,我们登陆Azure Portal,进入这个Workspace绑定的Azure Storage账号,点击页面左边Containers一栏,如下图所示

在这里插入图片描述

点击最后那个:azureml-blobstore-1320ed93-7c46-425e-9171-18b769370545。你会看到一个data文件夹,里面包含了weather_dataset_raw.csvweather_dataset_processed.csv等四个文件。之所以这个文件夹的命名是data是因为我们的代码:target_path='data'

我们可以通过python调用Azure storage里面的文件:

dataset = Dataset.Tabular.from_delimited_files(datastore.path('data/weather_dataset_processed.csv'))
training_dataset = Dataset.Tabular.from_delimited_files(datastore.path('data/training_data.csv'))
validation_dataset = Dataset.Tabular.from_delimited_files(datastore.path('data/validation_data.csv'))

3 数据集的注册和版本控制

对于Azure ML,一种通用的工作方式是先在工作区中注册数据并对数据进行版本控制,然后再开始ML训练。

weather_ds = dataset.register(workspace=workspace,
                name='processed_weather_dataset',
                description='processed weather data')
training_ds = training_dataset.register(workspace=workspace,
                name='training_dataset',
                description='Dataset to use for ML training')
validation_ds = validation_dataset.register(workspace=workspace,
                name='validation_dataset',
                description='Dataset for validation ML models')

我们运行main.py文件后,进入Azure Portal,以及我们创建的Azure ML Workspace,点击Launch Studio,如下图

在这里插入图片描述

我们能看到Datasets的按钮,点击之后我们就能看到我们注册的数据集了。

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

破浪会有时

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值