Tensorflow中的masking和padding

Blossom ·
更新时间:2024-11-14
· 799 次阅读

声明:

需要读者对tensorflow和深度学习有一定了解 tf.boolean_mask实现类似numpy数组的mask操作

Python的numpy array可以使用boolean类型的数组作为索引,获得numpy array中对应boolean值为True的项。示例如下:

# numpy array中的boolean mask import numpy as np target_arr = np.arange(5) print "numpy array before being masked:" print target_arr mask_arr = [True, False, True, False, False] masked_arr = target_arr[mask_arr] print "numpy array after being masked:" print masked_arr

运行结果如下:

numpy array before being masked: [0 1 2 3 4] numpy array after being masked: [0 2]

tf.boolean_maks对目标tensor实现同上述numpy array一样的mask操作,该函数的参数也比较简单,如下所示:

tf.boolean_mask( tensor, # target tensor mask, # mask tensor axis=None, name='boolean_mask' )

下面,我们来尝试一下tf.boolean_mask函数,示例如下:

import tensorflow as tf # tensorflow中的boolean mask target_tensor = tf.constant([[1, 2], [3, 4], [5, 6]]) mask_tensor = tf.constant([True, False, True]) masked_tensor = tf.boolean_mask(target_tensor, mask_tensor, axis=0) sess = tf.InteractiveSession() print masked_tensor.eval()

mask tensor中的第0和第2个元素是True,mask axis是第0维,也就是我们只选择了target tensor的第0行和第1行。

[[1 2] [5 6]]

如果把mask tensor也换成2维的tensor会怎样呢?

mask_tensor2 = tf.constant([[True, False], [False, False], [True, False]]) masked_tensor2 = tf.boolean_mask(target_tensor, mask_tensor, axis=0) print masked_tensor2.eval() [[1 2] [5 6]]

我们发现,结果不是[[1], [5]]。tf.boolean_mask不做元素维度的mask,tersorflow中有tf.ragged.boolean_mask实现元素维度的mask。

tf.ragged.boolean_mask tf.ragged.boolean_mask( data, mask, name=None ) tensorflow中的sparse向量和sparse mask

tensorflow中的sparse tensor由三部分组成,分别是indices、values、dense_shape。对于稀疏张量SparseTensor(indices=[[0, 0], [1, 2]], values=[1, 2], dense_shape=[3, 4]),转化成dense tensor的值为:

[[1, 0, 0, 0] [0, 0, 2, 0] [0, 0, 0, 0]]

使用tf.sparse.mask可以对sparse tensor执行mask操作。

tf.sparse.mask( a, mask_indices, name=None )

上文定义的sparse tensor有1和2两个值,对应的indices为[[0, 0], [1, 2]],执行tf.sparsse.mask(a, [[1, 2]])后,稀疏向量转化成dense的值为:

[[1, 0, 0, 0] [0, 0, 0, 0] [0, 0, 0, 0]]

由于tf.sparse中的大多数函数都只在tensorflow2.0版本中有,所以没有实例演示。

padded_batch

tf.Dataset中的padded_batch函数,根据输入序列中的最大长度,自动的pad一个batch的序列。

padded_batch( batch_size, padded_shapes, padding_values=None, drop_remainder=False )

这个函数与tf.Dataset中的batch函数对应,都是基于dataset构造batch,但是batch函数需要dataset中的所有样本形状相同,而padded_batch可以将不同形状的样本在构造batch时padding成一样的形状。

elements = [[1, 2], [3, 4, 5], [6, 7], [8]] A = tf.data.Dataset.from_generator(lambda: iter(elements), tf.int32) B = A.padded_batch(2, padded_shapes=[None]) B_iter = B.make_one_shot_iterator() print B_iter.get_next().eval() [[1 2 0] [3 4 5]]
作者:hustqb



tensorflow padding

需要 登录 后方可回复, 如果你还没有账号请 注册新账号