TFAPI使用2.0建议_tf api使用-CSDN博客

本文链接：https://blog.csdn.net/weixin_43894652/article/details/128843386

文章介绍了TensorFlow2.0的改进，包括使用Keras和tf.data简化模型构建与数据加载，以及分布式训练的策略。同时，阐述了如何使用TFRecords文件存储训练数据，确保高效和便捷的数据管理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2.5 TFAPI使用2.0建议

学习目标

目标
- 无
应用
- 无

2.5.2 TF2.0最新架构图

饱受诟病TF1.0的API混乱
- 删除 queue runner 以支持 tf.data。
- 删除图形集合。
- API 符号的移动和重命名。
- tf.contrib 将从核心 TensorFlow 存储库和构建过程中移除

TensorFlow 2.0 将专注于简单性和易用性，具有以下更新：

使用 Keras 和 eager execution，轻松构建模型
在任意平台上实现生产环境的稳健模型部署
为研究提供强大的实验工具
通过清理废弃的 API 和减少重复来简化 API

1、使用tf.data加载数据。使用输入管道读取训练数据，输入管道使用tf.data创建。利用tf.feature_column描述特征，如分段和特征交叉。

2、使用tf.keras构建、训练并验证模型，或者使用Premade Estimators。

Keras与TensorFlow的其余部分紧密集成，因此用户可以随时访问TensorFlow的函数。如线性或逻辑回归、梯度上升树、随机森林等也可以直接使用（使用tf.estimatorAPI实现）。
如果不想从头开始训练模型，用户也可以很快利用迁移学习来训练使用TensorFlow Hub模块的Keras或Estimator模型。(迁移学习)

3、使用分布式策略进行分布式训练。对于大型机器学习训练任务，分布式策略API可以轻松地在不同硬件配置上分配和训练模型，无需更改模型的定义。由于TensorFlow支持各种硬件加速器，如CPU，GPU和TPU，因此用户可以将训练负载分配到单节点/多加速器以及多节点/多加速器配置上（包括TPU Pod）。

4、导出到Saved Model。 TensorFlow将对Saved Model进行标准化，作为TensorFlow服务的一部分，他将成为TensorFlow Lite、TensorFlow.js、TensorFlow Hub等格式的可互换格式。

工作流程

2.5.3 API

高层API (High level): 包括Estimators、Keras以及预构建好的Premade estimator(如线性回归、逻辑回归这些、推荐排序模型wide&deep)；
中层API (Mid level): 包括layers, datasets, loss和metrics等具有功能性的函数，例如网络层的定义，Loss Function，对结果的测量函数等；
底层API (Low level): 包括具体的加减乘除、具有解析式的数学函数、卷积、对Tensor属性的测量等。

2.8 TFRecords与项目训练数据存储

学习目标

目标
- 说明Example的结构
应用
- 应用TF保存Spark构建的样本到TFRecords文件

2.8.1 模型构造流程与离线样本

2.8.2 什么是TFRecords文件

TFRecords其实是一种二进制文件，虽然它不如其他格式好理解，但是它能更好的利用内存，更方便复制和移动，并且不需要单独的标签文件。

TFRecords文件包含了tf.train.Example 协议内存块(protocol buffer)(协议内存块包含了字段 Features)。可以获取你的数据，将数据填入到Example协议内存块(protocol buffer)，将协议内存块序列化为一个字符串，并且通过tf.python_io.TFRecordWriter 写入到TFRecords文件。

文件格式 *.tfrecords

2.8.3 Example结构解析

tf.train.Example 协议内存块(protocol buffer)(协议内存块包含了字段 Features)，Features包含了一个Feature字段，Features中包含要写入的数据、并指明数据类型。这是一个样本的结构，批数据需要循环存入这样的结构

 example = tf.train.Example(features=tf.train.Features(feature={
                "features": tf.train.Feature(bytes_list=tf.train.BytesList(value=[features])),
                "label": tf.train.Feature(int64_list=tf.train.Int64List(value=[label])),
            }))

tf.train.Example(features=None)
- 写入tfrecords文件
- features:tf.train.Features类型的特征实例
- return：example格式协议块
tf.train.Features(feature=None)
- 构建每个样本的信息键值对
- feature:字典数据,key为要保存的名字
- value为tf.train.Feature实例
- return:Features类型
tf.train.Feature(options)
- options：例如
  - bytes_list=tf.train. BytesList(value=[Bytes])
  - int64_list=tf.train. Int64List(value=[Value])
- 支持存入的类型如下
- tf.train.Int64List(value=[Value])
- tf.train.BytesList(value=[Bytes])
- tf.train.FloatList(value=[value])

这种结构是不是很好的解决了数据和标签(训练的类别标签)或者其他属性数据存储在同一个文件中

2.8.4 案例：CIFAR10数据存入TFRecords文件

2.8.4.1 分析

构造存储实例，tf.python_io.TFRecordWriter(path)
- 写入tfrecords文件
- path: TFRecords文件的路径
- return：写文件
- method
- write(record):向文件中写入一个example
- close():关闭文件写入器
循环将数据填入到Example协议内存块(protocol buffer)

2.8.4.2 代码

对于每一个点击事件样本数据，都需要写入到example当中，所以这里需要取出每一样本进行构造存入

# 保存到TFRecords文件中
df = train_res.select(['user_id', 'article_id', 'clicked', 'features'])
df_array = df.collect()
import pandas as pd
df = pd.DataFrame(df_array)

存储

import tensorflow as tf
def write_to_tfrecords(click_batch, feature_batch):
        """
        将数据存进tfrecords，方便管理每个样本的属性
        :param image_batch: 特征值
        :param label_batch: 目标值
        :return: None
        """
        # 1、构造tfrecords的存储实例
        writer = tf.python_io.TFRecordWriter("./train_ctr_201905.tfrecords")
        # 2、循环将每个样本写入到文件当中
        for i in range(len(click_batch)):

            click = click_batch[i]
            feature = feature_batch[i].tostring()

            # 绑定每个样本的属性
            example = tf.train.Example(features=tf.train.Features(feature={
                "label": tf.train.Feature(int64_list=tf.train.Int64List(value=[click])),
                "feature": tf.train.Feature(bytes_list=tf.train.BytesList(value=[feature])),
            }))
            writer.write(example.SerializeToString())

        # 文件需要关闭
        writer.close()
        return None

# 开启会话打印内容
with tf.Session() as sess:
    # 创建线程协调器
    coord = tf.train.Coordinator()

    # 开启子线程去读取数据
    # 返回子线程实例
    threads = tf.train.start_queue_runners(sess=sess, coord=coord)

    # 存入数据
    write_to_tfrecords(df.iloc[:, 2], df.iloc[:, 3])

    # 关闭子线程，回收
    coord.request_stop()

    coord.join(threads)