Jonathan Suru

Calcul Vectoriel : Fondements Essentiels pour le Machine Learning

Cet article fait suite à notre précédent article "Algèbre Linéaire : Fondements Essentiels pour le Machine Learning". Si l'algèbre linéaire nous a fourni le langage pour décrire où vivent les vecteurs et les matrices, le calcul vectoriel nous explique comment les fonctions transforment ces espaces - comment les quantités changent lorsque nous nous déplaçons.

Cet article s'inspire principalement d'une présentation issue du Deep Learning Indaba 2025 qui s'est tenu au Rwanda, organisée par Dr. Ismaila SECK, Géraud Nangue Tasse et l'équipe DLI.

Dans le domaine de l'apprentissage automatique, nous optimisons presque toujours une fonction de perte scalaire L(W) sur des millions de paramètres W. Comprendre le calcul vectoriel est donc essentiel pour maîtriser les algorithmes d'apprentissage automatique. Sans cette compréhension, il est difficile d'innover véritablement dans le domaine.

1. Différentiation Scalaire $f: \mathbb{R} \rightarrow \mathbb{R}$

La différentielle scalaire est le point de départ de notre exploration. Elle concerne les fonctions qui prennent un nombre réel en entrée et produisent un nombre réel en sortie.

Définition de la dérivée

La dérivée est définie comme la limite du quotient des différences :

$$ f'(x) = \frac{df}{dx} = \lim_{h \to 0} \frac{f(x+h) - f(x)}{h} $$

Exemple :

Prenons la fonction $f(x) = x^2$. Calculons sa dérivée en utilisant la définition :

$$ f(x+h) = (x+h)^2 = x^2 + 2xh + h^2 $$
$$ f(x+h) - f(x) = (x^2 + 2xh + h^2) - x^2 = 2xh + h^2 $$
$$ \frac{f(x+h) - f(x)}{h} = \frac{2xh + h^2}{h} = 2x + h $$
$$ \lim_{h \to 0} (2x + h) = 2x $$

Donc, $f'(x) = 2x$ pour $f(x) = x^2$.

Interprétation concrète : La vitesse comme dérivée de la position

Considérons un objet en mouvement dont la position est décrite par une fonction de temps $s(t)$.

Soit $s(t) = 5t^2 + 2t + 1$ la position de l'objet en mètres à l'instant $t$ (en secondes)
La vitesse $v(t)$ est la dérivée de la position par rapport au temps: $v(t) = s'(t)$

Calcul

$s(t) = 5t^2 + 2t + 1$
$s'(t) = 10t + 2$ (en utilisant la règle de puissance: $(t^n)' = nt^{n-1}$)

Interprétation

À $t = 0$ s: $s(0) = 1$ m et $v(0) = 2$ m/s
À $t = 2$ s: $s(2) = 5(2)^2 + 2(2) + 1 = 25$ m et $v(2) = 10(2) + 2 = 22$ m/s

Signification physique

La position $s(t)$ indique où se trouve l'objet à chaque instant
La vitesse $v(t) = s'(t)$ indique à quelle vitesse et dans quelle direction l'objet se déplace
Plus formellement, la vitesse instantanée est la limite du quotient des différences lorsque l'intervalle de temps tend vers zéro

Pourquoi c'est important pour le machine learning

Ce concept de "taux de changement instantané" est directement applicable aux algorithmes d'optimisation
Dans la descente de gradient, nous utilisons le gradient (généralisation de la dérivée) pour déterminer dans quelle direction et à quelle vitesse "descendre" la surface de perte
Comprendre ce concept de base nous aide à visualiser pourquoi la descente de gradient fonctionne

Règles de base de différentielle

Règle de somme

$$ (f(x)+g(x))' = f'(x)+g'(x) = \frac{df(x)}{dx} + \frac{dg(x)}{dx} $$

Exemple

$f(x) = x^2 + 3x$
$f'(x) = (x^2)' + (3x)' = 2x + 3$

Règle de produit

$$ (f(x)g(x))' = f'(x)g(x) + f(x)g'(x) = \frac{df(x)}{dx}g(x) + f(x)\frac{dg(x)}{dx} $$

Exemple

$f(x) = x^2 \cdot x = x^3$
$f'(x) = (x^2)' \cdot x + x^2 \cdot (x)' = 2x \cdot x + x^2 \cdot 1 = 2x^2 + x^2 = 3x^2$
Ce qui est correct car nous savons que $(x^3)' = 3x^2$

Règle de chaîne

$$ (g \circ f)'(x) = (g(f(x)))' = g'(f(x))f'(x) = \frac{dg(f(x))}{df} \frac{df(x)}{dx} $$

Exemple très simple pour débutants

$g(z) = z^2$ et $z = f(x) = 2x$
$g(f(x)) = (2x)^2 = 4x^2$
Dérivée directe : $(4x^2)' = 8x$
Avec la règle de chaîne : $g'(z) = 2z$ et $f'(x) = 2$
Donc : $g'(f(x)) \cdot f'(x) = 2(2x) \cdot 2 = 4x \cdot 2 = 8x$

Interprétation

La règle de chaîne est comme une "chaîne" de dérivées. Si vous avez une fonction à l'intérieur d'une autre fonction, vous devez multiplier les dérivées.

Application pratique en apprentissage automatique

Exemple concret

Considérons une fonction sigmoïde utilisée dans les réseaux de neurones :

$\sigma(z) = \frac{1}{1 + e^{-z}}$
Calculons sa dérivée $\sigma'(z)$ :
$\sigma(z) = (1 + e^{-z})^{-1}$
$\sigma'(z) = -1 \cdot (1 + e^{-z})^{-2} \cdot (-e^{-z})$
$\sigma'(z) = \frac{e^{-z}}{(1 + e^{-z})^2}$
$\sigma'(z) = \frac{1}{1 + e^{-z}} \cdot \frac{e^{-z}}{1 + e^{-z}}$
$\sigma'(z) = \sigma(z) \cdot (1 - \sigma(z))$

Pourquoi c'est important

Cette dérivée simple est utilisée partout dans les réseaux de neurones pour la rétropropagation. Si vous comprenez cela, vous comprenez déjà une grande partie du fonctionnement des réseaux de neurones!

2. Différentiation Multivariée $f: \mathbb{R}^N \rightarrow \mathbb{R}$

Lorsque nous passons à des fonctions avec plusieurs variables d'entrée, nous entrons dans le domaine de la différentielle multivariée.

Dérivées partielles

La dérivée partielle mesure le taux de changement d'une fonction par rapport à une seule variable à la fois, en gardant toutes les autres variables constantes :

$$ \frac{\partial f}{\partial x_i} = \lim_{h \to 0} \frac{f(x_1, ..., x_{i-1}, x_i+h, x_{i+1}, ..., x_N) - f(x)}{h} $$

Le gradient

Le gradient est un vecteur qui regroupe toutes les dérivées partielles d'une fonction scalaire par rapport à chacune de ses variables d'entrée :

\[\nabla f = \frac{df}{dx} = \left[\frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, ..., \frac{\partial f}{\partial x_N}\right] \in \mathbb{R}^{1 \times N}\]

Notez que le gradient est un vecteur ligne dans cette notation.

Interprétation géométrique

Le gradient pointe dans la direction de la plus forte augmentation de la fonction. Sa magnitude indique le taux de cette augmentation.

Exemple de différentielle multivariée

Fonction simple

$f(x_1, x_2) = x_1^2 x_2 + x_1^3$
$\frac{\partial f(x_1, x_2)}{\partial x_1} = 2x_1 x_2 + 3x_1^2$
$\frac{\partial f(x_1, x_2)}{\partial x_2} = x_1^2$
Gradient : $$ \frac{df}{dx} = [2x_1 x_2 + 3x_1^2, x_1^2] $$

Fonction avancée

$f(x_1, x_2) = (x_1 + 2x_2^3)^2$
$\frac{\partial f(x_1, x_2)}{\partial x_1} = 2(x_1 + 2x_2^3) \cdot 1$
$\frac{\partial f(x_1, x_2)}{\partial x_2} = 2(x_1 + 2x_2^3) \cdot 6x_2^2$
Gradient : $\frac{df}{dx} = [2(x_1 + 2x_2^3), 12x_2^2(x_1 + 2x_2^3)]$

3. Différentiation de Champs Vectoriels $f: \mathbb{R}^N \rightarrow \mathbb{R}^M$

Lorsque notre fonction produit un vecteur en sortie plutôt qu'un scalaire, nous entrons dans le domaine de la différentielle de champs vectoriels.

La matrice jacobienne

La matrice jacobienne est la généralisation du gradient aux fonctions vectorielles. Elle regroupe toutes les dérivées partielles premières :

\[J = \frac{df}{dx} = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \cdots & \frac{\partial f_1}{\partial x_N} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_M}{\partial x_1} & \cdots & \frac{\partial f_M}{\partial x_N} \end{bmatrix} \in \mathbb{R}^{M \times N}\]

Où $J_{ij} = \frac{\partial f_i}{\partial x_j}$

Interprétation géométrique

La matrice jacobienne $J(x_0)$ représente la meilleure application linéaire qui approxime la fonction $f$ près du point $x_0$.

Exemple important : Transformation linéaire

Considérons $f(x) = Ax$, où $f(x) \in \mathbb{R}^M$, $A \in \mathbb{R}^{M \times N}$ et $x \in \mathbb{R}^N$ :

\[\begin{bmatrix} y_1 \\ \vdots \\ y_M \end{bmatrix} = \begin{bmatrix} f_1(x) \\ \vdots \\ f_M(x) \end{bmatrix} = \begin{bmatrix} A_{11}x_1 + A_{12}x_2 + \cdots + A_{1N}x_N \\ \vdots \\ A_{M1}x_1 + A_{M2}x_2 + \cdots + A_{MN}x_N \end{bmatrix}\]

Le gradient est alors simplement :

\[\frac{df}{dx} = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \cdots & \frac{\partial f_1}{\partial x_N} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_M}{\partial x_1} & \cdots & \frac{\partial f_M}{\partial x_N} \end{bmatrix} = A \in \mathbb{R}^{M \times N}\]

Exemple d'application en apprentissage automatique

Considérons la fonction de perte :

\[L(W) = \|e\|^2 = \|y - f(x, W)\|^2\]

Où $f(x, W) = W^T x$, avec $x \in \mathbb{R}^N$, $y \in \mathbb{R}$, et $W \in \mathbb{R}^{N \times M}$

Pour calculer le gradient $\frac{dL}{dW}$ :

$L = e^T e$ où $e = y - W^T x$
$\frac{dL}{de} = 2e \in \mathbb{R}^M$
$\frac{de}{dW} = -x^T \in \mathbb{R}^{M \times N}$
$\frac{dL}{dW} = \frac{dL}{de} \cdot \frac{de}{dW} = 2e \cdot (-x^T) = -2(y - W^T x)x^T \in \mathbb{R}^{1 \times N}$

Notez que la dimension du gradient est : nombre de dimensions de la cible × nombre de dimensions d'entrée.

4. La Règle de Chaîne et la Rétropropagation

Comprendre la Règle de Chaîne en Profondeur

La règle de chaîne est l'outil mathématique le plus important pour comprendre la rétropropagation. Elle nous permet de calculer la dérivée d'une fonction composée, ce qui est essentiel dans les réseaux de neurones où les transformations s'empilent les unes sur les autres.

Pour deux fonctions $f$ et $g$, la règle de chaîne s'écrit :

\[(g \circ f)'(x) = g'(f(x)) \cdot f'(x)\]

Pour trois fonctions $f$, $g$ et $h$ :

\[(h \circ g \circ f)'(x) = h'(g(f(x))) \cdot g'(f(x)) \cdot f'(x)\]

Interprétation

Le taux de changement global est le produit des taux de changement locaux à chaque étape de la composition.

Diagramme de Rétropropagation dans un Réseau de Neurones

Réseau de neurones à une couche cachée

Considérons un réseau de neurones simple avec :

2 entrées ($x_1, x_2$)
2 neurones cachés
1 sortie
Fonction d'activation sigmoïde $\sigma(z) = \frac{1}{1+e^{-z}}$
Fonction de perte quadratique $L = \frac{1}{2}(y - \hat{y})^2$

Notation

$x = [x_1, x_2]^T$ : vecteur d'entrée
$W^{(1)}$ : poids de la couche d'entrée à la couche cachée ($2 \times 2$)
$b^{(1)}$ : biais de la couche cachée ($2 \times 1$)
$W^{(2)}$ : poids de la couche cachée à la sortie ($1 \times 2$)
$b^{(2)}$ : biais de la sortie ($1 \times 1$)
$z^{(1)} = W^{(1)}x + b^{(1)}$ : entrées de la couche cachée
$a^{(1)} = \sigma(z^{(1)})$ : sorties de la couche cachée
$z^{(2)} = W^{(2)}a^{(1)} + b^{(2)}$ : entrée de la couche de sortie
$\hat{y} = z^{(2)}$ : sortie du réseau (linéaire)
$L = \frac{1}{2}(y - \hat{y})^2$ : fonction de perte

Étape 1: Propagation Avant

La propagation avant calcule la sortie du réseau pour une entrée donnée.

Calcul des valeurs de la couche cachée

$z^{(1)} = W^{(1)}x + b^{(1)} = \begin{bmatrix} w_{11}^{(1)} & w_{12}^{(1)} \\ w_{21}^{(1)} & w_{22}^{(1)} \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} + \begin{bmatrix} b_1^{(1)} \\ b_2^{(1)} \end{bmatrix}$
$a^{(1)} = \sigma(z^{(1)}) = \begin{bmatrix} \sigma(z_1^{(1)}) \\ \sigma(z_2^{(1)}) \end{bmatrix}$

Calcul de la sortie

$z^{(2)} = W^{(2)}a^{(1)} + b^{(2)} = [w_1^{(2)}, w_2^{(2)}] \begin{bmatrix} a_1^{(1)} \\ a_2^{(1)} \end{bmatrix} + b^{(2)}$
$\hat{y} = z^{(2)}$

Étape 2: Calcul de l'Erreur

L'erreur mesure la différence entre la prédiction et la valeur réelle.

$e = y - \hat{y}$
$L = \frac{1}{2}e^2$

Étape 3: Rétropropagation - Calcul des Deltas

La rétropropagation calcule les erreurs "responsables" à chaque couche en appliquant la règle de chaîne.

Calcul du delta de sortie ($\delta^{(2)}$)

$\delta^{(2)} = \frac{\partial L}{\partial z^{(2)}} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z^{(2)}}$
$\frac{\partial L}{\partial \hat{y}} = -(y - \hat{y}) = -e$
$\frac{\partial \hat{y}}{\partial z^{(2)}} = 1$ (puisque $\hat{y} = z^{(2)}$)
Donc $\delta^{(2)} = -e \cdot 1 = -(y - \hat{y})$

Calcul du delta de la couche cachée ($\delta^{(1)}$)

$\delta^{(1)} = \left((W^{(2)T} \cdot \delta^{(2)}) \odot \sigma'(z^{(1)})\right)$
$W^{(2)T} \cdot \delta^{(2)}$ propage l'erreur de la sortie vers la couche cachée
$\sigma'(z^{(1)}) = \sigma(z^{(1)})(1 - \sigma(z^{(1)}))$ est la dérivée de la fonction d'activation
L'opérateur $\odot$ représente la multiplication élément par élément (Hadamard)

Étape 4: Calcul des Gradients

Gradient pour les poids de la couche de sortie

$\frac{\partial L}{\partial W^{(2)}} = \delta^{(2)} \cdot (a^{(1)})^T$

Gradient pour les biais de la couche de sortie

$\frac{\partial L}{\partial b^{(2)}} = \delta^{(2)}$

Gradient pour les poids de la couche cachée

$\frac{\partial L}{\partial W^{(1)}} = \delta^{(1)} \cdot x^T$

Gradient pour les biais de la couche cachée

$\frac{\partial L}{\partial b^{(1)}} = \delta^{(1)}$

Étape 5: Mise à Jour des Paramètres

Les poids et biais sont mis à jour en utilisant les gradients calculés :

$W^{(2)}_{nouveau} = W^{(2)}_{ancien} - \eta \cdot \frac{\partial L}{\partial W^{(2)}}$
$b^{(2)}_{nouveau} = b^{(2)}_{ancien} - \eta \cdot \frac{\partial L}{\partial b^{(2)}}$
$W^{(1)}_{nouveau} = W^{(1)}_{ancien} - \eta \cdot \frac{\partial L}{\partial W^{(1)}}$
$b^{(1)}_{nouveau} = b^{(1)}_{ancien} - \eta \cdot \frac{\partial L}{\partial b^{(1)}}$

Où $\eta$ est le taux d'apprentissage.

Exemple Numérique Complet

Prenons des valeurs numériques spécifiques :

$x = [1, 2]^T$
$W^{(1)} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix}$
$b^{(1)} = \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix}$
$W^{(2)} = [0.5, 0.6]$
$b^{(2)} = 0.1$
$y = 1.0$
$\eta = 0.1$

Propagation avant

$z^{(1)} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix} \begin{bmatrix} 1 \\ 2 \end{bmatrix} + \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix} = \begin{bmatrix} 0.6 \\ 1.3 \end{bmatrix}$
$a^{(1)} = \sigma(\begin{bmatrix} 0.6 \\ 1.3 \end{bmatrix}) = \begin{bmatrix} 0.6455 \\ 0.7858 \end{bmatrix}$
$z^{(2)} = [0.5, 0.6] \begin{bmatrix} 0.6455 \\ 0.7858 \end{bmatrix} + 0.1 = 0.8941$
$\hat{y} = 0.8941$
$e = 1.0 - 0.8941 = 0.1059$
$L = \frac{1}{2}(0.1059)^2 = 0.00561$

Rétropropagation

$\delta^{(2)} = -(y - \hat{y}) = -0.1059$
$\sigma'(z^{(1)}) = [0.6455(1-0.6455), 0.7858(1-0.7858)] = [0.2291, 0.1687]$
$W^{(2)T} \cdot \delta^{(2)} = [0.5, 0.6]^T \cdot (-0.1059) = [-0.0529, -0.0635]$
$\delta^{(1)} = [-0.0529, -0.0635] \odot [0.2291, 0.1687] = [-0.0121, -0.0107]$

Calcul des gradients

$\frac{\partial L}{\partial W^{(2)}} = \delta^{(2)} \cdot (a^{(1)})^T = -0.1059 \cdot [0.6455, 0.7858] = [-0.0684, -0.0832]$
$\frac{\partial L}{\partial b^{(2)}} = \delta^{(2)} = -0.1059$
$\frac{\partial L}{\partial W^{(1)}} = \delta^{(1)} \cdot x^T = \begin{bmatrix} -0.0121 \\ -0.0107 \end{bmatrix} \begin{bmatrix} 1 & 2 \end{bmatrix} = \begin{bmatrix} -0.0121 & -0.0242 \\ -0.0107 & -0.0214 \end{bmatrix}$
$\frac{\partial L}{\partial b^{(1)}} = \delta^{(1)} = \begin{bmatrix} -0.0121 \\ -0.0107 \end{bmatrix}$

Mise à jour des paramètres

$W^{(2)}_{nouveau} = [0.5, 0.6] - 0.1 \cdot [-0.0684, -0.0832] = [0.5068, 0.6083]$
$b^{(2)}_{nouveau} = 0.1 - 0.1 \cdot (-0.1059) = 0.1106$
$W^{(1)}_{nouveau} = \begin{bmatrix} 0.1 & 0.2 \\ 0.3 & 0.4 \end{bmatrix} - 0.1 \cdot \begin{bmatrix} -0.0121 & -0.0242 \\ -0.0107 & -0.0214 \end{bmatrix} = \begin{bmatrix} 0.1012 & 0.2024 \\ 0.3011 & 0.4021 \end{bmatrix}$
$b^{(1)}_{nouveau} = \begin{bmatrix} 0.1 \\ 0.2 \end{bmatrix} - 0.1 \cdot \begin{bmatrix} -0.0121 \\ -0.0107 \end{bmatrix} = \begin{bmatrix} 0.1012 \\ 0.2011 \end{bmatrix}$

Vérification de l'amélioration

Avec les nouveaux paramètres, recalculons $\hat{y}$ :

$z^{(1)} = \begin{bmatrix} 0.1012 & 0.2024 \\ 0.3011 & 0.4021 \end{bmatrix} \begin{bmatrix} 1 \\ 2 \end{bmatrix} + \begin{bmatrix} 0.1012 \\ 0.2011 \end{bmatrix} = \begin{bmatrix} 0.6100 \\ 1.3085 \end{bmatrix}$
$a^{(1)} = \sigma(\begin{bmatrix} 0.6100 \\ 1.3085 \end{bmatrix}) = \begin{bmatrix} 0.6477 \\ 0.7880 \end{bmatrix}$
$z^{(2)} = [0.5068, 0.6083] \begin{bmatrix} 0.6477 \\ 0.7880 \end{bmatrix} + 0.1106 = 0.9023$
$\hat{y} = 0.9023$
$e = 1.0 - 0.9023 = 0.0977$
$L = \frac{1}{2}(0.0977)^2 = 0.00477$

Nous constatons que l'erreur a diminué de 0.1059 à 0.0977 et la perte de 0.00561 à 0.00477, ce qui confirme que la rétropropagation a effectivement amélioré notre modèle.

Compréhension Profonde de la Règle de Chaîne dans la Rétropropagation

La rétropropagation est essentiellement une application systématique de la règle de chaîne à travers tout le réseau. Pour comprendre pleinement ce processus, analysons la dérivation complète pour un poids spécifique, disons $w_{11}^{(1)}$ (le poids reliant l'entrée 1 au premier neurone caché).

Nous voulons calculer $\frac{\partial L}{\partial w_{11}^{(1)}}$. En appliquant la règle de chaîne :

\[\frac{\partial L}{\partial w_{11}^{(1)}} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z^{(2)}} \cdot \frac{\partial z^{(2)}}{\partial a_1^{(1)}} \cdot \frac{\partial a_1^{(1)}}{\partial z_1^{(1)}} \cdot \frac{\partial z_1^{(1)}}{\partial w_{11}^{(1)}}\]

Décortiquons chaque terme :

$\frac{\partial L}{\partial \hat{y}} = -(y - \hat{y}) = -e$
$\frac{\partial \hat{y}}{\partial z^{(2)}} = 1$ (puisque $\hat{y} = z^{(2)}$)
$\frac{\partial z^{(2)}}{\partial a_1^{(1)}} = w_1^{(2)}$ (le poids de la couche cachée vers la sortie)
$\frac{\partial a_1^{(1)}}{\partial z_1^{(1)}} = \sigma'(z_1^{(1)}) = \sigma(z_1^{(1)})(1 - \sigma(z_1^{(1)}))$
$\frac{\partial z_1^{(1)}}{\partial w_{11}^{(1)}} = x_1$ (l'entrée correspondante)

Ainsi :

\[\frac{\partial L}{\partial w_{11}^{(1)}} = (-e) \cdot 1 \cdot w_1^{(2)} \cdot \sigma'(z_1^{(1)}) \cdot x_1\]

Ce qui correspond exactement à :

\[\frac{\partial L}{\partial w_{11}^{(1)}} = \delta^{(2)} \cdot w_1^{(2)} \cdot \sigma'(z_1^{(1)}) \cdot x_1 = \delta_1^{(1)} \cdot x_1\]

C'est la justification mathématique du calcul des deltas que nous avons utilisé dans notre exemple numérique.

Importance de la Règle de Chaîne pour la Rétropropagation

Efficacité computationnelle : Sans la règle de chaîne, nous devrions calculer chaque gradient indépendamment, ce qui serait extrêmement coûteux. La rétropropagation réutilise les calculs intermédiaires, rendant l'algorithme très efficace.
Propagation de l'information : La règle de chaîne permet de propager l'information sur l'erreur depuis la sortie vers l'entrée, ce qui est essentiel pour que les couches cachées puissent apprendre.
Généralité : La règle de chaîne s'applique à n'importe quelle composition de fonctions, ce qui rend la rétropropagation applicable à presque tous les types de réseaux de neurones.
Intuition géométrique : Chaque terme dans la règle de chaîne correspond à une "étape" dans le réseau, nous permettant de comprendre comment chaque composant contribue à l'erreur finale.

5. Importance pour l'Apprentissage Automatique

Optimisation et descente de gradient

Le calcul vectoriel est au cœur des algorithmes d'optimisation en apprentissage automatique. La descente de gradient utilise le gradient pour minimiser une fonction de perte :

\[W_{nouveau} = W_{ancien} - \eta \cdot \nabla L(W_{ancien})\]

Où $\eta$ est le taux d'apprentissage. Le gradient indique la direction de la plus forte augmentation de la fonction, donc nous nous déplaçons dans la direction opposée pour minimiser la perte.

Points Clés à Retenir

Le gradient généralise la notion de pente aux dimensions supérieures et guide la plupart des algorithmes d'optimisation.
La matrice jacobienne linéarise les applications vectorielles - essentielle pour la rétropropagation.
La règle de chaîne est le fondement mathématique de la rétropropagation - sans elle, les réseaux de neurones profonds ne pourraient pas apprendre.
La géométrie visuelle construit une intuition forte : chaque dérivée raconte une histoire de mouvement.

Conclusion

En maîtrisant le calcul vectoriel, vous obtiendrez non seulement la capacité à implémenter des algorithmes existants, mais aussi à concevoir de nouvelles approches et à résoudre des problèmes complexes dans le domaine de l'apprentissage automatique. Le calcul vectoriel n'est pas seulement un outil mathématique - c'est le langage qui permet de décrire comment les modèles apprennent et s'adaptent, ce qui est au cœur même de l'apprentissage automatique.

Liens Utiles

Pour approfondir vos connaissances et explorer des outils avancés, voici quelques ressources :

Ma recommandation musicale du jour : à écouter sans modération !

Écouter sur YouTube

Calcul Vectoriel : Fondements Essentiels pour le Machine Learning

1. Différentiation Scalaire \(f: \mathbb{R} \rightarrow \mathbb{R}\)

Définition de la dérivée

Exemple :

Interprétation concrète : La vitesse comme dérivée de la position

Calcul

Interprétation

Signification physique

Pourquoi c'est important pour le machine learning

Règles de base de différentielle

Règle de somme

Exemple

Règle de produit

Exemple

Règle de chaîne

Exemple très simple pour débutants

Interprétation

Application pratique en apprentissage automatique

Exemple concret

Pourquoi c'est important

2. Différentiation Multivariée \(f: \mathbb{R}^N \rightarrow \mathbb{R}\)

Dérivées partielles

Le gradient

Interprétation géométrique

Exemple de différentielle multivariée

Fonction simple

Fonction avancée

3. Différentiation de Champs Vectoriels \(f: \mathbb{R}^N \rightarrow \mathbb{R}^M\)

La matrice jacobienne

Interprétation géométrique

Exemple important : Transformation linéaire

Exemple d'application en apprentissage automatique

4. La Règle de Chaîne et la Rétropropagation

Comprendre la Règle de Chaîne en Profondeur

Interprétation

Diagramme de Rétropropagation dans un Réseau de Neurones

Réseau de neurones à une couche cachée

Notation

Étape 1: Propagation Avant

Calcul des valeurs de la couche cachée

Calcul de la sortie

Étape 2: Calcul de l'Erreur

Étape 3: Rétropropagation - Calcul des Deltas

Calcul du delta de sortie (\(\delta^{(2)}\))

Calcul du delta de la couche cachée (\(\delta^{(1)}\))

Étape 4: Calcul des Gradients

Gradient pour les poids de la couche de sortie

Gradient pour les biais de la couche de sortie

Gradient pour les poids de la couche cachée

Gradient pour les biais de la couche cachée

Étape 5: Mise à Jour des Paramètres

Exemple Numérique Complet

Propagation avant

Rétropropagation

Calcul des gradients

Mise à jour des paramètres

Vérification de l'amélioration

Compréhension Profonde de la Règle de Chaîne dans la Rétropropagation

Importance de la Règle de Chaîne pour la Rétropropagation

5. Importance pour l'Apprentissage Automatique

Optimisation et descente de gradient

Points Clés à Retenir

Conclusion

Liens Utiles