数据加载实例

一.通过使用kettle工具,实现将数据表full_source中的数据全量加载到数据表full_target中。

1.打开kettle工具,创建转换
在这里插入图片描述
2.配置“执行SQL脚本”控件
(1)单击“新建”按钮,配置数据库连接(需要提前创建好数据库和full_source以及full_target两张数据表),配置完成后单击“确认”按钮。
(2)在SQL框中编写删除数据表full_target中数据的SQL语句,然后单击“确定”按钮完成配置,如下图所示:
在这里插入图片描述
3.配置“表输入”控件
在SQL编写框中编写查询数据表full_source数据的SQL语句,可以单击“预览”按钮,查看数据表full_source的数据是否成功从mysql数据库中抽取到表输入流中,如下图所示:
在这里插入图片描述
在这里插入图片描述
4.配置“表输出”控件
单击目标表处的“浏览”按钮,选择输出的目标表,即数据表full_target,如下图所示:
在这里插入图片描述
5.运行转换full_load
在这里插入图片描述
6.查看数据表full_target中的数据
在这里插入图片描述

二.通过使用kettle工具,实现将数据表incremental_source中的数据增量加载到数据表incremental_target中,即将数据表incremental_source中新增、变化的数据加载到数据表incremental_target。

1.打开kettle工具,创建转换
在这里插入图片描述
2.配置“表输入”控件
(1)单击“新建”按钮,配置数据库连接(这里还是要先在mysql中创建数据库和incremental_source以及increment_target数据表),配置完成后单击“确认”按钮,然后再SQL框中编写查询数据表的SQL语句,如下图所示:
在这里插入图片描述
(2)单击“预览”按钮,查看数据表incremental_source的数据是否成功从mysql数据库中抽取到表输入流中,如下图所示:
在这里插入图片描述
3.配置“插入/更新”控件
(1)单击“新建”按钮,配置数据库连接,配置完成后点击“确认”按钮,单击目标表处的“浏览”按钮,弹出“数据库浏览器”窗口,选择目标表incremental_target(这里的incremental_target_copy是已经运行过的结果数据表)。
(2)单击“获取字段”按钮,用来指定查询数据需要的关键字,这里以比较数据表incremental_target的字段id与输入流里的字段id是否一致为关键条件,更新数据表中的其他字段数据;单击“获取和更新字段”按钮,用来指定需要更新的字段,如下图所示:
在这里插入图片描述
4.修改数据表incremental_source中的数据
将数据表中的age全部改为25,如下图所示:
在这里插入图片描述
5.运行转换
在这里插入图片描述
6.查看数据表incremental_target中的数据
在这里插入图片描述
从图中可以看出,数据表incremental_target中已经成功加载到数据数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PyTorch是一个基于Python的科学计算包,其主要功能是进行张量计算和深度学习模型构建。在深度学习中,数据是一个重要的环节,PyTorch提供了一些工具和函数来简化数据的过程。 PyTorch中数据主要涉及到两个类:`torch.utils.data.Dataset`和`torch.utils.data.DataLoader`。其中,`Dataset`类用于表示数据集,而`DataLoader`类则用于对数据集进行和处理。 使用PyTorch进行数据的基本步骤如下: 1. 定义数据集:需要继承`torch.utils.data.Dataset`类,并实现`__len__`和`__getitem__`方法。其中,`__len__`方法返回数据集的大小,`__getitem__`方法用于获取指定索引的数据。 2. 创建数据实例:将定义好的数据实例化,并传入相应的参数(如文件路径等)。 3. 创建数据器:使用`torch.utils.data.DataLoader`类创建数据器,可以指定批次大小、是否打乱数据、多进程等参数。 4. 迭代数据:使用for循环迭代数据器,每次迭代返回一个批次的数据。 下面是一个简单的示例代码,用于MNIST数据集: ```python import torch from torch.utils.data import Dataset, DataLoader from torchvision import datasets, transforms # 定义自己的数据集类 class MyDataset(Dataset): def __init__(self, path): self.data = torch.load(path) self.transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)) ]) def __len__(self): return len(self.data) def __getitem__(self, index): x, y = self.data[index] x = self.transform(x) return x, y # 创建数据实例 train_dataset = MyDataset('mnist/train.pt') test_dataset = MyDataset('mnist/test.pt') # 创建数据器 train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True) test_loader = DataLoader(test_dataset, batch_size=64, shuffle=True) # 迭代数据 for batch_idx, (data, target) in enumerate(train_loader): # 对批次数据进行训练或测试 ... ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值