Mamba (apprentissage profond)

architecture d'apprentissage profond / De Wikipedia, l'encyclopédie encyclopedia

Mamba est une architecture d'apprentissage profond introduite en décembre 2023 par deux chercheurs de Carnegie Mellon et de Princeton, Albert Gu et Tri Dao^[1]

Thumb image — Schéma de description de Mamba dans l'article original

Pour les articles homonymes, voir Mamba.

Mamba s'est rapidement imposé en 2024 comme la principale alternative à l'architecture Transformeur pour le traitement automatique des langues (TAL) et pour les grands modèles de langage comme GPT-3 ou Llama.