Détection et classification d'alinéas modificateurs dans les textex publiés au JORF
ClassificationPython
1. Contexte & Mission
L'objectif est de détecter dans les textes publiés au journal officiel de la
république française les alinéas modificateurs et de classifier ces alinéas en
fonction de la nature de la modification qui est effectuée.
L'approche classique consiste à utiliser un modèle Transformer pré-entraîné
et à le "fine-tuner" (ré-entraîner spécifiquement) sur vos données.
Les nombres de représentants des classes étant déséquilibrés, le modèle
pourrait rapidement apprendre à ignorer les catégories rares pour maximiser
son score global, ce qui rendra votre classifieur inutile pour les cas
limites. Il faut donc réfléchir à l'utilisation d'une fonction de perte
pondérée. Voir par exemple la fonction
Trainer.compute_loss
de Hugging Face que vous pouvez surcharger.