Normalisation de couche en profondeur : du Transformer au problème de la plus grande région connexe
Cet article propose une analyse approfondie de la Layer Normalization et de son rôle dans les Transformers et l’entraînement des grands modèles de langage. Il explique comment cette technique stabilise l’optimisation, améliore la propagation du gradient et contribue aux performances du modèle, tout en l’associant au problème algorithmique de la « plus grande région connexe » pour relier théorie et pratique.