TFAPI使用2.0建议

文章介绍了TensorFlow2.0的改进,包括使用Keras和tf.data简化模型构建与数据加载,以及分布式训练的策略。同时,阐述了如何使用TFRecords文件存储训练数据,确保高效和便捷的数据管理。
摘要由CSDN通过智能技术生成

2.5 TFAPI使用2.0建议

学习目标

  • 目标
  • 应用

2.5.2 TF2.0最新架构图

  • 饱受诟病TF1.0的API混乱
    • 删除 queue runner 以支持 tf.data。
    • 删除图形集合。
    • API 符号的移动和重命名。
    • tf.contrib 将从核心 TensorFlow 存储库和构建过程中移除

TensorFlow 2.0 将专注于 简单性 和 易用性,具有以下更新:

  • 使用 Keras 和 eager execution,轻松构建模型
  • 在任意平台上实现生产环境的稳健模型部署
  • 为研究提供强大的实验工具
  • 通过清理废弃的 API 和减少重复来简化 API

 

 

1、使用tf.data加载数据。使用输入管道读取训练数据,输入管道使用tf.data创建。利用tf.feature_column描述特征,如分段和特征交叉。

2、使用tf.keras构建、训练并验证模型,或者使用Premade Estimators。

  • Keras与TensorFlow的其余部分紧密集成,因此用户可以随时访问TensorFlow的函数。如线性或逻辑回归、梯度上升树、随机森林等也可以直接使用(使用tf.estimatorAPI实现)。
  • 如果不想从头开始训练模型,用户也可以很快利用迁移学习来训练使用TensorFlow Hub模块的Keras或Estimator模型。(迁移学习)

3、使用分布式策略进行分布式训练。对于大型机器学习训练任务,分布式策略API可以轻松地在不同硬件配置上分配和训练模型,无需更改模型的定义。由于TensorFlow支持各种硬件加速器,如CPU,GPU和TPU,因此用户可以将训练负载分配到单节点/多加速器以及多节点/多加速器配置上(包括TPU Pod)。

4、导出到Saved Model。 TensorFlow将对Saved Model进行标准化,作为TensorFlow服务的一部分,他将成为TensorFlow Lite、TensorFlow.js、TensorFlow Hub等格式的可互换格式。

工作流程

 

 

2.5.3 API

  1. 高层API (High level): 包括Estimators、Keras以及预构建好的Premade estimator(如线性回归、逻辑回归这些、推荐排序模型wide&deep);
  2. 中层API (Mid level): 包括layers, datasets, loss和metrics等具有功能性的函数,例如网络层的定义,Loss Function,对结果的测量函数等;
  3. 底层API (Low level): 包括具体的加减乘除、具有解析式的数学函数、卷积、对Tensor属性的测量等。

 

 

2.8 TFRecords与项目训练数据存储

学习目标

  • 目标
    • 说明Example的结构
  • 应用
    • 应用TF保存Spark构建的样本到TFRecords文件

2.8.1 模型构造流程与离线样本

 

 

2.8.2 什么是TFRecords文件

TFRecords其实是一种二进制文件,虽然它不如其他格式好理解,但是它能更好的利用内存,更方便复制和移动,并且不需要单独的标签文件

TFRecords文件包含了tf.train.Example 协议内存块(protocol buffer)(协议内存块包含了字段 Features)。可以获取你的数据, 将数据填入到Example协议内存块(protocol buffer),将协议内存块序列化为一个字符串, 并且通过tf.python_io.TFRecordWriter 写入到TFRecords文件。

  • 文件格式 *.tfrecords

2.8.3 Example结构解析

tf.train.Example 协议内存块(protocol buffer)(协议内存块包含了字段 Features),Features包含了一个Feature字段,Features中包含要写入的数据、并指明数据类型。这是一个样本的结构,批数据需要循环存入这样的结构

 example = tf.train.Example(features=tf.train.Features(feature={
                "features": tf.train.Feature(bytes_list=tf.train.BytesList(value=[features])),
                "label": tf.train.Feature(int64_list=tf.train.Int64List(value=[label])),
            }))
  • tf.train.Example(features=None)
    • 写入tfrecords文件
    • features:tf.train.Features类型的特征实例
    • return:example格式协议块
  • tf.train.Features(feature=None)
    • 构建每个样本的信息键值对
    • feature:字典数据,key为要保存的名字
    • value为tf.train.Feature实例
    • return:Features类型
  • tf.train.Feature(options)
    • options:例如
      • bytes_list=tf.train. BytesList(value=[Bytes])
      • int64_list=tf.train. Int64List(value=[Value])
    • 支持存入的类型如下
    • tf.train.Int64List(value=[Value])
    • tf.train.BytesList(value=[Bytes])
    • tf.train.FloatList(value=[value])

这种结构是不是很好的解决了数据和标签(训练的类别标签)或者其他属性数据存储在同一个文件中

2.8.4 案例:CIFAR10数据存入TFRecords文件

2.8.4.1 分析

 

 

  • 构造存储实例,tf.python_io.TFRecordWriter(path)

    • 写入tfrecords文件
    • path: TFRecords文件的路径
    • return:写文件
    • method
    • write(record):向文件中写入一个example
    • close():关闭文件写入器
  • 循环将数据填入到Example协议内存块(protocol buffer)

2.8.4.2 代码

对于每一个点击事件样本数据,都需要写入到example当中,所以这里需要取出每一样本进行构造存入

# 保存到TFRecords文件中
df = train_res.select(['user_id', 'article_id', 'clicked', 'features'])
df_array = df.collect()
import pandas as pd
df = pd.DataFrame(df_array)

存储

import tensorflow as tf
def write_to_tfrecords(click_batch, feature_batch):
        """
        将数据存进tfrecords,方便管理每个样本的属性
        :param image_batch: 特征值
        :param label_batch: 目标值
        :return: None
        """
        # 1、构造tfrecords的存储实例
        writer = tf.python_io.TFRecordWriter("./train_ctr_201905.tfrecords")
        # 2、循环将每个样本写入到文件当中
        for i in range(len(click_batch)):

            click = click_batch[i]
            feature = feature_batch[i].tostring()

            # 绑定每个样本的属性
            example = tf.train.Example(features=tf.train.Features(feature={
                "label": tf.train.Feature(int64_list=tf.train.Int64List(value=[click])),
                "feature": tf.train.Feature(bytes_list=tf.train.BytesList(value=[feature])),
            }))
            writer.write(example.SerializeToString())

        # 文件需要关闭
        writer.close()
        return None

# 开启会话打印内容
with tf.Session() as sess:
    # 创建线程协调器
    coord = tf.train.Coordinator()

    # 开启子线程去读取数据
    # 返回子线程实例
    threads = tf.train.start_queue_runners(sess=sess, coord=coord)

    # 存入数据
    write_to_tfrecords(df.iloc[:, 2], df.iloc[:, 3])

    # 关闭子线程,回收
    coord.request_stop()

    coord.join(threads)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: tf.compat.v1.Session() 是 tensorflow2.0 中的会话。在TensorFlow 2.0中,使用tf.Session()不再是必需的,因为默认情况下TensorFlow 2.0会启用即时执行模式(Eager Execution),这意味着您可以直接执行TensorFlow操作,而无需将它们包装在会话中。 如果您仍然需要使用会话,可以使用tf.compat.v1.Session()方法创建会话。例如: ``` import tensorflow.compat.v1 as tf # 创建一个常量张量 a = tf.constant(5.0) b = tf.constant(6.0) # 创建会话 with tf.compat.v1.Session() as sess: # 执行操作 c = tf.multiply(a, b) # 打印结果 print(c.eval()) ``` 请注意,在TensorFlow 2.0中,建议使用函数式API或子类化API来构建模型,而不是使用会话和图。 ### 回答2: tf.session() 是 TensorFlow 1.x 版本中的一个 Session 对象,用于在计算图中执行操作。但在 TensorFlow 2.0 版本中,tf.session() 已经被移除,取而代之的是 Eager Execution 模式。Eager Execution 模式使得 TensorFlow 类似于 Python 等语言的编程方式,可以实时地(命令式地)执行操作,无需先构建计算图。Eager Execution 模式的特点如下: 1. 实时执行:像 Python 一样,代码一行一行地执行,可以立即看到结果。 2. 更加直观:类似于 NumPy 的编程方式,使得代码更加易读。 3. 不需要 Session:不需要预先定义 Session 来进行执行,直接调用函数即可。 4. 更加灵活:可以通过控制流和 Python 控制结构来编写代码,使得代码更加灵活。 在 TensorFlow 2.0 中,可以通过以下方式使用 Eager Execution 模式: ```python import tensorflow as tf tf.compat.v1.disable_eager_execution() ``` 或者更简单的方式: ```python import tensorflow.compat.v1 as tf tf.disable_eager_execution() ``` 这样,就可以写出像普通的 Python 代码一样的 TensorFlow 代码了,使得开发和调试更加方便快捷。 ### 回答3: tf.session() 是 TensorFlow 1.x 版本中的重要概念。它是一个计算图的执行环境,可以在其中进行计算图的计算。然而,在 TensorFlow 2.0 中,tf.session() 不再存在,被新的执行方式所替代。 在 TensorFlow 2.0 中,执行图的方式已经成为了自然而然的过程,无需使用 tf.session()。新的方式是,采用 Eager Execution 的模式进行执行。Eager Execution 是 TensorFlow 2.0 引入的一种命令式编程模式,它允许实时地运行操作,计算并输出结果。它的最大优点是,允许使用 Python 自身的控制流,如 if、for 循环等语法,这使得程序更加灵活且易于调试。同时,也减少了许多前版本版本臭名昭著的易错代码。 使用 Eager Execution 模式的代码如下: ``` import tensorflow as tf # 创建一个计算图 a = tf.constant(2) b = tf.constant(3) x = tf.add(a, b) # 显示结果 print(x.numpy()) ``` 以上代码将输出 5,即计算了 a + b 的结果。 为了兼容以前的代码,TensorFlow 2.0 仍然保留 tf.compat.v1 中的 session() 函数,可以使用此函数调用 TensorFlow 1.x 版本的旧代码,但未来可能会被移除,因此,开发者应该尽可能使用新的 Eager Execution 模式编写代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Echo-Niu

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值