SOS Écrans · ce qu'on mesure et comment

Résultats du moteur Shelkid
trois itérations, mesurées sur le même corpus

Cette page rassemble nos résultats d'évaluation, mis à jour à chaque nouvelle version du moteur. Chaque chiffre est daté, accompagné du corpus sur lequel il a été mesuré, et classé par niveau de preuve.

⚠️ Mise à jour méthodologique (31/05/2026). Les itérations V1→V3 ci-dessous sont notre historique, conservé par transparence. Le « 100 % » a été obtenu sur un corpus dont les seuils avaient été réglés sur le lot d'évaluation lui-même — il n'est donc pas certifiable en l'état (cf. note méthodologique). Nos mesures les plus récentes et les plus rigoureuses (modèle CamemBERT fine-tuné, jeux scellés avec cas normaux, intervalles de confiance) donnent un tableau honnête : F1 macro ≈ 81 % (IC95 [69–87], n=107), faux positifs du modèle 0,56 % sur 720 conversations normales, efficacité prometteuse mais pas encore statistiquement prouvée. Voir le dossier complet.

Chiffres clés (V3, mai 2026)

100%
Rappel · harcèlement direct ⚠️
V3 historique — seuils réglés sur le lot d'éval, non certifiable (voir bandeau). Mesure à jour, rigoureuse : F1 ≈ 81 % IC95 [69–87].
13%
Faux positifs
messages bénins classés à tort en harcèlement — à réduire
71k
Messages annotés
corpus d'entraînement V3 (mai 2026)
3
Itérations mesurées
V1 (déc 2025) · V2 (avr 2026) · V3 (mai 2026)

Évolution du rappel sur le harcèlement direct

Le rappel mesure la proportion de cas réels que le moteur reconnaît. Au plus c'est haut, au moins on rate de vrais cas.

Rappel harcèlement — corpus Ollagnier-Large
Sur 1 200 messages où la réalité (harcèlement / non) est connue, proportion reconnue par le moteur.
100% 75% 50% 25% 0% V1 V2 V3 déc 2025 avr 2026 mai 2026 5% 10,5% 100%

Lecture : la première version reconnaissait 1 cas sur 20. La troisième en reconnaît la quasi-totalité. Le saut vient de l'ajout d'un second cerveau (analyse de la structure de la conversation) — voir méthodologie ci-dessous.

Détail des trois versions

Version Rappel
harcèlement
Faux
positifs
Corpus
d'entraînement
V1 · classifieur Naïve Bayes — déc 2025 5 % ≈ 2 % 2 400 messages
V2 · ajout règles linguistiques — avr 2026 10,5 % ≈ 2 % 5 600 messages
V3 · double moteur sens + structure — mai 2026 100 % 13 % 71 834 messages

Le saut de la V3 vient d'un changement d'approche : on combine un moteur qui analyse le sens des mots (embeddings de langue) et un moteur qui analyse la structure de la conversation (réciprocité, asymétrie, signaux de détresse). C'est l'addition des deux qui permet d'attraper tous les cas — au prix d'une augmentation des faux positifs qu'on cherche maintenant à réduire.

Notre cadre de mesure

Chaque chiffre publié ici est classé selon son niveau de preuve. Nous refusons de mélanger des résultats d'évaluation contrôlée avec des intuitions.

Bouclier de vérité — 4 niveaux

🟢 Primaire

Évaluation sur corpus annoté par des chercheurs externes (Ollagnier-Large, CIIVISE). Reproductible.

🟡 Secondaire

Évaluation sur corpus interne (Le Cercle, sessions test). Méthode publiée, données accessibles aux chercheurs partenaires.

🟠 Tradition

Retours qualitatifs d'usage (familles, encadrants). Indication, pas preuve.

🔴 Reconstruction

Hypothèses non vérifiées, à confirmer avant publication. Identifiées comme telles.

Tous les chiffres en haut de cette page sont 🟢 Primaire (corpus Ollagnier-Large) ou 🟡 Secondaire (corpus interne traçable).

Méthode et corpus

Corpus d'évaluation

Nous utilisons trois corpus distincts pour mesurer :

Ce qu'on mesure

Ce que le moteur ne mesure pas (encore)

Sources externes citées (chercheurs et institutions sur les épaules de qui nous travaillons) :
Dernière mise à jour : 29 mai 2026
Reproductibilité : la méthode complète et les corpus de test sont accessibles aux chercheurs partenaires sur demande à [email protected].
Limites assumées : ces chiffres viennent d'évaluations sur corpus contrôlé. Une mise en service réelle révélera nécessairement des écarts, que nous publierons.

SOS Écrans — association loi 1901 — RNA W751283606 — SIREN 105 116 461 · Retour à l'écosystème