Différence entre `Dataset.from_tensors` et` Dataset.from_tensor_slices`?

Question

J'ai un jeu de données représenté par une matrice NumPy de forme (num_features, num_examples) et je souhaite le convertir en type TensorFlow tf.Dataset.

J'ai du mal à comprendre la différence entre ces deux méthodes: Dataset.from_tensors et Dataset.from_tensor_slices. Quel est le bon et pourquoi?

La documentation de TensorFlow ( lien ) indique que les deux méthodes acceptent une structure imbriquée de tenseur bien que, lors de l'utilisation de from_tensor_slices le tenseur doit avoir la même taille dans la 0ème dimension.

MatthewScarpino · Accepted Answer

from_tensors combine l’entrée et renvoie un jeu de données avec un seul élément:

t = tf.constant([[1, 2], [3, 4]]) ds = tf.data.Dataset.from_tensors(t) # [[1, 2], [3, 4]]

from_tensor_slices crée un jeu de données avec un élément distinct pour chaque ligne du tenseur en entrée:

t = tf.constant([[1, 2], [3, 4]]) ds = tf.data.Dataset.from_tensor_slices(t) # [1, 2], [3, 4]

Amir · Answer

1) La principale différence entre les deux est que les éléments imbriqués dans from_tensor_slices doit avoir la même dimension au 0e rang:

# exception: ValueError: Dimensions 10 and 9 are not compatible dataset1 = tf.data.Dataset.from_tensor_slices( (tf.random_uniform([10, 4]), tf.random_uniform([9]))) # OK dataset2 = tf.data.Dataset.from_tensors( (tf.random_uniform([10, 4]), tf.random_uniform([9])))

2) La deuxième différence, expliquée ici , est lorsque l'entrée dans un tf.Dataset est une liste. Par exemple:

dataset1 = tf.data.Dataset.from_tensor_slices( [tf.random_uniform([2, 3]), tf.random_uniform([2, 3])]) dataset2 = tf.data.Dataset.from_tensors( [tf.random_uniform([2, 3]), tf.random_uniform([2, 3])]) print(dataset1) # shapes: (2, 3) print(dataset2) # shapes: (2, 2, 3)

Au dessus, from_tensors crée un tenseur 3D alors que from_tensor_slices fusionner le tenseur d'entrée. Cela peut être pratique si vous avez différentes sources de canaux d'image différents et que vous souhaitez les concaténer dans un tenseur d'image RVB.

3) A mentionné dans la réponse précédente, from_tensors convertir le tenseur d’entrée en un grand tenseur:

import tensorflow as tf tf.enable_eager_execution() dataset1 = tf.data.Dataset.from_tensor_slices( (tf.random_uniform([4, 2]), tf.random_uniform([4]))) dataset2 = tf.data.Dataset.from_tensors( (tf.random_uniform([4, 2]), tf.random_uniform([4]))) for i, item in enumerate(dataset1): print('element: ' + str(i + 1), item[0], item[1]) print(30*'-') for i, item in enumerate(dataset2): print('element: ' + str(i + 1), item[0], item[1])

sortie:

element: 1 tf.Tensor(... shapes: ((2,), ())) element: 2 tf.Tensor(... shapes: ((2,), ())) element: 3 tf.Tensor(... shapes: ((2,), ())) element: 4 tf.Tensor(... shapes: ((2,), ())) ------------------------- element: 1 tf.Tensor(... shapes: ((4, 2), (4,)))

u2gilles · Answer

Essaye ça :

import tensorflow as tf # 1.13.1 tf.enable_eager_execution() t1 = tf.constant([[11, 22], [33, 44], [55, 66]]) print("
========= from_tensors ===========") ds = tf.data.Dataset.from_tensors(t1) print(ds.output_types, end=' : ') print(ds.output_shapes) for e in ds: print (e) print("
========= from_tensor_slices ===========") ds = tf.data.Dataset.from_tensor_slices(t1) print(ds.output_types, end=' : ') print(ds.output_shapes) for e in ds: print (e)

sortie:

========= from_tensors =========== <dtype: 'int32'> : (3, 2) tf.Tensor( [[11 22] [33 44] [55 66]], shape=(3, 2), dtype=int32) ========= from_tensor_slices =========== <dtype: 'int32'> : (2,) tf.Tensor([11 22], shape=(2,), dtype=int32) tf.Tensor([33 44], shape=(2,), dtype=int32) tf.Tensor([55 66], shape=(2,), dtype=int32)

Le résultat est assez explicite, mais comme vous pouvez le constater, from_tensor_slices () découpe le résultat de (quel serait le résultat de) from_tensors () sur sa première dimension. Vous pouvez aussi essayer avec:

t1 = tf.constant([[[11, 22], [33, 44], [55, 66]], [[110, 220], [330, 440], [550, 660]]])