Projet Classification ICPE

Développement d'un outil de classification d'arrêtés préfectoraux Classification Python
Sponsor du projet: Sébastien Meyer (DGPR, Ministère de la transition écologique)

1. Contexte

Les inspecteurs de l'environnement téléversent les documents réglementaires s'appliquant aux installations classées pour la protection de l'environnement (ICPE) qu'ils suivent sur le site Géorisques par l'intermédiaire de leur application de travail. Ces fichiers sont publiquement accessibles hors annexes confidentielles.

Lors de l'import, les inspecteurs peuvent sélectionner la catégorie de chaque document. En aval, nous retrouvons des classifications parfois incorrectes ou pas assez précises par rapport au contenu réel des documents. Or, ces catégories, si elles sont correctes, peuvent aider à traiter ces documents.

En particulier, nous sommes intéressés par identifier:

2. But

Pour le projet, nous avons téléchargé les documents associés à plus de deux cents ICPE. Ces documents vous sont fournis dans leur format PDF tels que disponibles sur Géorisques, dans un format après océrisation par Mistral OCR dans sa version de mars 2025, et dans un format HTML après traitement par Arrêtify dans sa version 0.1.0.

Nous mettons également à disposition un tableau dans lequel une portion des documents disponibles a été annotée à la main. Dans la colonne «Catégorie à prédire» nous proposons une annotation des documents selon les catégories les plus importantes.

En partant des documents et en exploitant toutes les informations à votre disposition (titre du document, version PDF, version océrisée, version HTML, etc.), le but du projet consiste à développer un algorithme permettant:

3. Étapes

4. Stratégie suggérée

Vous pouvez commencer par une classification binaire (autorisation vs non-autorisation) avec LightGBM ou XGBoost avec des données tabulaires (vecteurs TF-IDF), avec également une détermination du "dernier arrêté".

Si le document n'est pas une autorisation: utilisez un LLM "distillé" et quantizé depuis un modèle comme CamemBERT.

Utilisez plutôt le F1-score pour évaluer votre approche, car les classes risquent d'être déséquilibrées.