Jonathan Suru

Les Données en Deep Learning : Tenseurs

En deep learning, les données sont le carburant des modèles, mais leur utilisation efficace repose sur une compréhension profonde de leur représentation mathématique. Cet article explore le parcours qui mène des objets du monde réel aux tenseurs, ces structures multidimensionnelles qui permettent aux réseaux neuronaux de traiter des informations complexes. Comprendre ce processus est essentiel pour choisir les architectures adaptées et optimiser les performances des modèles.

Les Scalaires : La Brique Fondamentale

Tout commence par le scalaire, une unité de base qui représente une valeur isolée dans l'ensemble des nombres réels (ℝ). Un scalaire peut symboliser des grandeurs aussi variées que le nombre de passagers dans un bus (entier) ou la température extérieure (décimale). En pratique, les frameworks de deep learning utilisent presque toujours des scalaires en précision décimale (floating-point) par défaut, car ils permettent de gérer à la fois des nombres entiers et décimaux avec flexibilité.

Cependant, derrière cette simplicité se cache une question cruciale : la précision numérique. La précision détermine la capacité à représenter finement les valeurs et à éviter les erreurs d'arrondi lors des calculs. Par exemple, un scalaire stocké en FP32 (32 bits, simple précision) offre une résolution bien supérieure à un scalaire en FP16 (16 bits, demi-précision). Ce choix influence directement la mémoire utilisée, la vitesse des calculs, et même la stabilité des algorithmes d'entraînement comme la descente de gradient.

La Précision Numérique : Un Équilibre Entre Performance et Stabilité

La précision est un compromis stratégique en deep learning. Historiquement, le format FP32 (32 bits) est devenu la norme grâce à sa capacité à représenter des nombres avec une grande dynamique (jusqu'à ±3,4×10³⁸) et une précision relative de 7 chiffres décimaux. Il est idéal pour éviter les problèmes d'underflow (valeurs trop petites pour être représentées) et d'overflow (valeurs trop grandes) pendant l'entraînement.

Pourtant, l'émergence de modèles massifs et de contraintes matérielles a popularisé le FP16. Ce format réduit la consommation mémoire de moitié et accélère les calculs sur les GPU modernes, mais il présente des limites :

Plage limitée : Les nombres dépassant 65 504 deviennent des infinis (overflow).
Précision réduite : Les gradients inférieurs à 6×10⁻⁸ sont arrondis à zéro (underflow), bloquant l'apprentissage.

Pour pallier ces défis, des techniques comme le gradient scaling sont utilisées. Par exemple, multiplier un gradient microscopique (0,00004) par 1000 avant conversion en FP16 permet de le préserver, puis de le reconvertir en FP32 pour maintenir la précision. Cette gestion fine de la précision est un levier clé pour optimiser les modèles sans sacrifier leur stabilité.

Exemple Comparatif

Situation : Micro-gradient
- Gradient FP16 Brut : 0.00004 → 0.0 (perdu)
- Après Scaling (×1000) : 0.04 (préservé)
- Après Conversion en FP32 : 0.00004 (précis)

Ce tableau illustre comment le scaling et la conversion entre formats préservent les gradients critiques, évitant l'échec de l'entraînement.

Les Tenseurs : La Structure Multidimensionnelle du Deep Learning

Un tenseur est une structure mathématique multidimensionnelle qui généralise les scalaires, vecteurs et matrices à des dimensions arbitraires. En deep learning, il sert de conteneur universel pour représenter des données structurées, en capturant leurs relations spatiales, temporelles ou sémantiques.

Les frameworks comme TensorFlow et PyTorch utilisent par défaut le format FP32 pour les tenseurs durant l'entraînement, car il garantit une stabilité maximale lors des calculs complexes (descente de gradient, rétropropagation). Toutefois, le FP16 est de plus en plus adopté pour l'inférence ou les modèles à grande échelle, grâce à sa rapidité et son faible encombrement mémoire.

Voici comment les tenseurs structurent l'information :

Scalaire (rang 0) : Une valeur isolée, comme une température.
Vecteur (rang 1) : Une liste ordonnée, comme les pixels d'une image en niveaux de gris.
Matrice (rang 2) : Un tableau 2D, comme une image en noir et blanc.
Tenseur 3D : Par exemple, une image couleur (hauteur × largeur × canaux RGB).
Tenseur 4D/5D : Des vidéos (batch × temps × hauteur × largeur × canaux) ou des séries temporelles complexes.

Les tenseurs capturent les relations spatiales, temporelles et sémantiques entre les données. Par exemple, un réseau convolutif (CNN) exploite la structure 3D d'une image pour détecter des motifs locaux, tandis qu'un modèle de traitement du langage (NLP) utilise des tenseurs 2D pour encoder les séquences de mots et leurs relations contextuelles.

Propriétés Clés des Tenseurs

Forme (Shape) : Définit les dimensions du tenseur. Par exemple, une vidéo de 10 secondes en 1080p avec 3 canaux couleur et un batch de 32 échantillons aura une forme [32, 10, 1080, 1920, 3].
Type de Données (dtype) : Spécifie si les éléments sont en FP32 (par défaut), FP16, entiers, etc.
Contiguïté : Indique si les données sont stockées en mémoire de manière linéaire (utile pour les opérations vectorisées).

Opérations Tenseur : Le Cœur du Traitement

Les frameworks comme PyTorch et TensorFlow offrent des opérations optimisées pour manipuler les tenseurs :

Slicing : Extraction de sous-tenseurs (ex. tensor[:, :, 100:200, 150:250] pour recadrer une image).
Reshaping : Changement de dimension (ex. aplatir une image 28×28 en vecteur de 784 éléments).
Broadcasting : Extension automatique pour aligner les dimensions (ex. addition d'un scalaire à un tenseur).
Produits Matriciels : Opération fondamentale pour les couches dense (torch.matmul) et les convolutions.

Exemple Concret : Un Système de Recommandation Immobilière

Imaginons un modèle prédictif analysant le marché immobilier parisien. Les données peuvent être structurées en un tenseur 3D de forme [10 000 logements × 4 caractéristiques × 20 quartiers] :

Dimension 1 (Logements) : Chaque logement est décrit par des caractéristiques comme le prix, la superficie, le nombre de pièces, et l'année de construction.
Dimension 2 (Quartiers) : Les 20 quartiers (arrondissements) permettent d'analyser les variations géographiques.

Un tel tenseur permet des opérations vectorisées complexes. Par exemple, pour comparer la superficie moyenne des 3-pièces entre le Marais (4ᵉ arrondissement) et Montmartre (18ᵉ) :

# Extraction et calcul en une ligne avec PyTorch
superficie_moyenne = torch.mean(tensor[:, 1, [3,17]][tensor[:, 2, :] == 3], dim=0)

Ici, le tenseur encapsule à la fois la structure des données et les relations entre elles, rendant les analyses multidimensionnelles intuitives et efficaces.

Tenseurs et Architecture des Modèles

La structure d'un tenseur guide le choix de l'architecture :

Images : CNN (Convolutional Neural Network) exploitant les dimensions spatiales.
Textes : Transformers ou RNN (Recurrent Neural Network) pour les séquences temporelles.
Vidéos : 3D-CNN ou architectures hybrides (ex. TimeDistributed + CNN).

Par exemple, un modèle de traduction automatique traite des phrases encodées en tenseurs 2D [batch_size, séquence_length], tandis qu'un générateur d'images (GAN) manipule des tenseurs 4D [batch_size, canaux, hauteur, largeur].

Conclusion : Pourquoi la Représentation des Données Compte

Comprendre la transformation des objets réels en tenseurs est essentiel pour :

Choisir la précision adaptée (FP16 vs FP32) selon les contraintes matérielles et la stabilité requise.
Concevoir des architectures capables d'exploiter les structures multidimensionnelles (CNN, RNN, Transformers).
Optimiser les performances en réduisant la mémoire et en accélérant les calculs.

Dans le prochain article, nous explorerons comment les textes sont transformés en tenseurs via des techniques comme le tokenization, les embeddings (Word2Vec, BERT), et autres.

Liens Utiles

Pour approfondir vos connaissances et explorer des outils avancés, voici quelques ressources incontournables :

Ma recommandation musicale du jour : à écouter sans modération !

Écouter sur YouTube