Cours NLP Mines Paris 2025-2026

Traitement Automatique du Langage Naturel

Notes de cours

Programme des séances

Lundi 15 décembre 2025

3. Modèle de langue bi-grammes par comptage

Configuration : Créer un fichier requirements.txt avec le contenu suivant :

jupyterlab
numpy
matplotlib
graphviz
torch

Commandes à lancer dans votre terminal :

python3 -m venv .venv/notebooks
source .venv/notebooks/bin/activate
pip install -r requirements.txt
jupyter lab

Ressources


4. Descente et rétropropagation du gradient


5. Modèle bi-grammes neuronal

Travaux pratiques 2 : Tri-grammes

Reprendre l'approche bi-grammes (comptage et neuronale) pour passer à des tri-grammes (suites de 3 caractères).
À rendre : le notebook résultat ou le code Python par email.

Vendredi 19 décembre 2025

7. Initialisations, normalisations

Travaux pratiques 3 : Tokenisation et modèle de langue par "mots"

Date de rendu : 9 janvier 2026 (par email).

Objectif : Adapter le réseau du chapitre 7 pour utiliser des tokens (mots/sous-mots) au lieu de caractères, afin de générer des phrases cohérentes (contexte min. 3 mots).

Ressources :

Étapes suggérées :

  1. Sélectionner et nettoyer les données (ne garder que les phrases).
  2. Entraîner un tokenizer (SentencePiece, Tiktoken...) ou utiliser un modèle pré-entraîné.
  3. Adapter la classe BengioFFN et associées pour utiliser les tokens.
  4. Entraîner le modèle, générer des phrases et analyser les hyperparamètres.
  5. Modifier la génération pour supporter un "prompt" initial.
Lundi 12 janvier 2026

Début du projet

Sujets de projet

Date limite de rendu: 1er févier 2026 (AoE) (par email).

Moyens de calcul: commencez les développements sur votre propre machine ou sur une plateforme de type Google colab. Quand votre code fonctionne et si vous avez besoin de plus de ressources, faites une demande de ressources Scaleway à votre enseignant.

  1. ICPE: classification des arrêtés d'autorisation des Installations classées pour l'environnement (ICPE). Sujet en collaboration avec le ministère de la transition écologique.
  2. RAG à Muffin: génération de recettes de Muffin à partir de plusieurs ingrédients, en utilisant du RAG.
  3. MoJo: détection et classification des paragraphes modificateurs publiés au Journal Officiel (projet de recherche Legistix, devenu Droit quotidien: présentation ProLaLa - POPL 2023).
  4. Juriref: détection et classification de références juridiques dans le journal officiel et les codes.
  5. Proposez votre propre projet.
Vendredi 16 janvier 2026

11. nanoChat

Intervention de Eyal Benaroche (Meta)

Intervention de Virgile Richard (Mistral)

  • Transparents à venir

Bibliographie