TensorFlow数据结构操作之：tf.string_split函数

最新推荐文章于 2024-04-15 16:45:14 发布

模糊包

最新推荐文章于 2024-04-15 16:45:14 发布

阅读量1.2w

点赞数 16

分类专栏： TensorFlow

注意转载出处～蟹蟹哟

本文链接：https://blog.csdn.net/xinjieyuan/article/details/90698352

版权

TensorFlow 专栏收录该内容

16 篇文章 2 订阅

订阅专栏

顾名思义，这是对tersor(张量)格式的string(字符串)进行操作的函数,并且返回的是稀疏张量--稀疏张量就是稀疏矩阵！只不过是Tensor的格式

'''
稀疏矩阵与稠密矩阵：
我们知道自然语言处理中有One-hot和词向量两个表示方法
这个One-hot就是稀疏矩阵的一种，词向量就是稠密矩阵的一种

注意！！我们下面说的稀疏矩阵和这个one-hot一点关系都没有
上面one-hot和词向量对比的例子纯粹是为了方便大家理解而说的
因为每次谈到稀疏矩阵，很多萌新就表示不理解
'''

先拿官方函数说事

tf.string_split函数

tf.string_split(
    source,
    delimiter=' ',
    skip_empty=True
)
'''
@函数意义：将基于 delimiter[分隔符，默认是空格] 的 source[我们要分割的数据] 的元素拆分为 SparseTensor[sparseTensor就是稀疏张量，其实格式和稀疏矩阵一毛一样].
@source：需要操作的对象，一般是[字符串或者多个字符串]构成的列表；---注意是列表哦！！！
@delimiter:分割符,默认空字符串
@skip_empty：默认True，暂时没用到过
'''

官方非常含糊，其实这里的要点就只有两个：

1.输入的数据必须是列表的格式传入函数------也就是source必须用[ ]包含

2.返回的是系数矩阵。

关于系数矩阵，可以暂且理解为记载有元素的位置和值的矩阵---我知道你们肯定没听懂[(⊙﹏⊙)b]但是稀疏矩阵属于scipy的知识。一时半会讲不来，看下面即可。

我们自己举栗子看看：

# 当对象是一个字符串
a = 'we do it'
tf.string_split([a])
# 返回值如下
SparseTensorValue(indices=array([[0, 0],[0, 1],[0, 2]]), 
                   values=array(['we', 'do', 'it'], dtype=object), 
                     dense_shape=array([1, 3]))

# 当对象是多个字符串
b = 'we can do it'
c = [a,b]
tf.string_split(c)
# 返回值如下
SparseTensorValue(indices=array([[0, 0],
       [0, 1],
       [0, 2],
       [1, 0],
       [1, 1],
       [1, 2],
       [1, 3]], dtype=int64), values=array(['we', 'do', 'it', 'we', 'can', 'do', 'it'], dtype=object), dense_shape=array([2, 4], dtype=int64))

可以看到几个要点：

1.传入的元素是字符串，但是必须是列表包括进去，不然会报格式错误！

2.返回了稀疏矩阵(SparseTensorValue)的下标(indices)，和值(value),以及类型，和输入数据的维度(dense_shape)

3.到这一步已经很明显了，这个函数有split()的作用，可以从value获取我们要的东西。

返回值有三个参数，一个是indices,一个是values,一个是dense_shape.

理解就在这一步了，这些返回值分别代表：

1. indices 表示分词后的词的下表，和values一一对应：

tf.string_split([a]) 返回 [[0, 0],[0, 1],[0, 2]] ：

[0,0]代表了第一句的第一个词的坐标，即`we`；

[0,1]代表了第一句的第二个词的坐标，即'do'；

[0,2]代表了第一句的第三个词的坐标，即'it';

同理， tf.string_split(c) 返回了如下：

     [[0, 0],        第一句的第一个词的坐标，即`we`
        [0, 1],        第一句的第二个词的坐标，即`do`
        [0, 2],    第一句的第三个词的坐标，即`it`
          [1, 0],    第二句的第一个词的坐标，即`we`
          [1, 1],    第二句的第二个词的坐标，即`can`
          [1, 2],    第二句的第三个词的坐标，即`do`
          [1, 3]]    第二句的第四个词的坐标，即`it`

2. values.分割后的数据内容，返回的是一维向量！！经常可以用这个把一篇文档所有分词后的词扔入一个向量中

3. dense_shape.分割前的维度是多少，会按最长的那个句子填充！！！

模糊包

关注

16
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
TensorFlow数据结构操作之：tf.string_split函数

顾名思义，这是对tersor(张量)格式的string(字符串)进行操作的函数,并且返回的是稀疏张量--稀疏张量就是稀疏矩阵！只不过是Tensor的格式'''稀疏矩阵与稠密矩阵：我们知道自然语言处理中有One-hot和词向量两个表示方法这个One-hot就是稀疏矩阵的一种，词向量就是稠密矩阵的一种注意！！我们下面说的稀疏矩阵和这个one-hot一点关系都没有上面one-hot和词...
复制链接

扫一扫