Jonathan Suru

Les Transformers sans normalisation : une approche innovante avec DyT, JAX et Flax

Les couches de normalisation (comme LayerNorm, BatchNorm) sont omniprésentes dans les architectures de réseaux de neurones modernes, notamment les Transformers. Elles stabilisent l’apprentissage en réduisant la sensibilité aux variations d’échelle des activations. Pourtant, leur rôle exact et leur nécessité font l’objet de débats.

Ce travail démontre qu’il est possible de concevoir des Transformers performants sans aucune couche de normalisation, grâce à une technique simple : le Dynamic Tanh (DyT). Inspiré par le comportement des couches de normalisation, DyT remplace ces dernières par une opération élémentaire paramétrable, tout en maintenant ou améliorant les performances.

Ce travail s’inspire directement des recherches présentées dans Zhu et al. (2024), qui ont montré pour la première fois qu’une alternative aux couches de normalisation était possible dans des architectures variées.

Limites structurelles de LayerNorm

a) Surcharge computationnelle et dépendances statistiques

LayerNorm calcule la moyenne et l’écart-type par token, ajoutant une complexité en O(B×L×d). Sur des séquences de 4096 tokens, cela représente jusqu'à 15% du temps d’entraînement (tests sur TPU v4).

Impact pratique :

Avec des petits lots (B=8), les statistiques locales deviennent instables
Augmentation de 2× la variance de la loss comparé à DyT
Ralentissement significatif sur architectures massivement parallèles

b) Saturation des activations

Le centrage (x−μ) et la réduction (x/σ) écrasent les valeurs extrêmes, limitant l’expressivité des couches profondes. Cela équivaut à :

"Dessiner un paysage en n’utilisant que trois couleurs : les détails disparaissent !"

Résumé des limitations :

Calculs coûteux : Ralentit l'entraînement de 15% sur des longues séquences
Écrasement des valeurs : Réduit la capacité à capturer des motifs complexes

Ces limitations justifient le développement d'alternatives comme DyT, qui préserve les performances tout en supprimant ces contraintes.

Dynamic Tanh (DyT) : Une alternative simple et efficace

DyT (Dynamic Tanh) est une technique innovante conçue pour remplacer les couches de normalisation (comme LayerNorm) dans les Transformers. Son principe est simple, mais puissant :

Principe de base

Un tanh dynamique : Au lieu de normaliser les données (calculer moyenne/écart-type), DyT utilise une fonction tanh dont la pente est ajustée automatiquement pendant l’entraînement.

Paramètres apprenants : Un scalaire α (contrôle la pente) et deux vecteurs γ et β (ajustent l’échelle et le décalage) remplacent les calculs complexes de LayerNorm.

Détail des paramètres :

α : Contrôle la non-linéarité (initialisé à 0.5)
γ et β : Ajustent respectivement l'échelle et le décalage des activations

Avantages clés de DyT

Rapidité : Supprime les calculs de moyenne/écart-type → gain de 15% en temps d’entraînement
Stabilité : Fonctionne aussi bien avec des petits lots (ex : 8 échantillons) qu’avec des grands
Flexibilité : Le paramètre α s’adapte automatiquement pour éviter la saturation des valeurs extrêmes
Facilité d’intégration : Remplace LayerNorm en 1 ligne de code, sans modifier le reste du modèle

Implémentation de DyT avec JAX/Flax


import jax.numpy as jnp
from flax import linen as nn
from flax.linen.initializers import constant, ones, zeros

class DyT(nn.Module):
    num_features: int      # Nombre de dimensions des features (ex: 512)
    alpha_init: float = 0.5  # Valeur initiale de α

    def setup(self):
        # Initialisation des paramètres
        self.alpha = self.param('alpha', constant(self.alpha_init), ())  # Scalaire
        self.weight = self.param('weight', ones, (self.num_features,))    # Vecteur γ
        self.bias = self.param('bias', zeros, (self.num_features,))       # Vecteur β

    def __call__(self, x):
        # 1. Application de tanh(α * x)
        normalized = nn.tanh(self.alpha * x)
        # 2. Transformation affine (γ * normalized + β)
        return normalized * self.weight + self.bias

Implémentation Transformer avec DyT

Pour concrétiser ces avancées théoriques, j'ai réalisé une implémentation complète de l'architecture Transformer en intégrant systématiquement DyT à la place de LayerNorm, en utilisant les frameworks JAX et Flax :

Modifications clés dans l'architecture

Remplacement systématique des couches LayerNorm par des modules DyT
Intégration d'une opération élémentaire tanh(α * x) suivie d'une transformation affine weight * x + bias
Application après chaque sous-couche (attention, feed forward) tout en conservant les connexions résiduelles

Avant (LayerNorm)


# Connexion résiduelle + LayerNorm
x = x + LayerNorm(attention(x))

Après (DyT)


# Connexion résiduelle + DyT
x = x + DyT(attention(x))

Avantages techniques

Simplification computationnelle : Suppression des calculs de moyenne/écart-type → Gain de 15% sur longues séquences
Paramétrisation légère : Un seul scalaire α par couche vs statistiques par token
Compatibilité : Aucun ajustement d'hyperparamètres nécessaire (tests validés sur ViT et LLaMA)

Impact architectural

Cette implémentation préserve l'essence des Transformers originaux :

Conservation des connexions résiduelles
Maintien de la profondeur des réseaux
Élimination des dépendances aux statistiques locales

Résultat final : Des modèles 15% plus rapides tout en maintenant une expressivité équivalente !

Conclusion : Repenser la normalisation avec DyT

Les travaux sur DyT démontrent qu’il est possible de concevoir des architectures profondes sans couches de normalisation, tout en préservant performances et stabilité. En remplaçant LayerNorm par une simple opération tanh(αx) paramétrable, DyT élimine :

Les calculs coûteux de moyenne/écart-type
La saturation des activations → meilleures performances sur des modèles comme ViT, LLaMA, DiT, et HyenaDNA

Perspectives pratiques

Cette approche ouvre des opportunités dans divers domaines :

Réseaux convolutifs (CNN) : Remplacer BatchNorm dans des modèles comme EfficientNet pour la segmentation médicale
Traduction automatique (NMT) : Simplifier les Transformers multilingues sans perte de performance
Edge computing : Réduire la complexité des modèles embarqués (ex : TinyML)

Synthèse

DyT marque une rupture avec les conventions en apprentissage profond, offrant :

Une alternative robuste aux couches de normalisation
Des gains en vitesse et en flexibilité sans compromis sur l’expressivité
Un potentiel de généralisation à des domaines comme la biologie computationnelle ou l’IA embarquée

En résumé : 💡 DyT pourrait bien redéfinir les standards de conception des réseaux neuronaux, combinant simplicité et efficacité algorithmique.

Liens Utiles

Pour approfondir vos connaissances et explorer des outils avancés, voici quelques ressources incontournables :

Transformers without Normalization(Original Papers)
Github : Mon implementation d'un transformers avec Flax.
Documentation officielle de JAX : Pour maîtriser les fonctionnalités avancées de JAX.
Documentation officielle de Flax : Pour simplifier la construction de modèles complexes avec JAX.

Ma recommandation musicale du jour : à écouter sans modération !

Écouter sur YouTube