Cette page décrit, en termes accessibles, ce qu'il y a derrière Shelkid : le modèle, son entraînement, les corpus scientifiques qui le fondent, et la manière dont nous le mesurons — y compris ce qui n'est pas encore prouvé. Nous ne gonflons aucun chiffre ; chacun est vérifiable.
Un harcèlement, ça ne se voit pas dans un mot isolé. Ça se voit dans une forme qui se répète : toujours la même personne visée, des messages qui reviennent la nuit, un déséquilibre, un isolement. Shelkid apprend à reconnaître cette forme — sans jamais lire le contenu des messages de votre enfant. Tout se passe sur le téléphone ; rien n'est envoyé ailleurs.
En classe de terminale, on manipule des fonctions : on donne un nombre, elles en ressortent un autre. Notre « modèle » est une fonction géante : on lui donne un message, elle ressort un niveau de risque (rien / murmure / alarme). Sa particularité, c'est sa taille : environ 110 millions de coefficients — 110 millions de petits réglages, là où une fonction de cours en a deux ou trois (le a et le b de ax + b).
On ne règle pas ces 110 millions de coefficients à la main : on les apprend. Le principe est celui qu'on voit en terminale pour chercher le minimum d'une fonction : on mesure l'erreur, on regarde dans quel sens elle diminue (la pente, la dérivée), et on ajuste dans ce sens. On recommence des dizaines de milliers de fois, sur des dizaines de milliers de conversations (de 40 000 à plus de 60 000 selon les versions), annotées une par une.
Analyser un seul message demande déjà des centaines de millions d'opérations. Entraîner le modèle, c'est refaire ce calcul des dizaines de milliers de fois : au total, plusieurs milliers de milliards d'opérations. C'est pourquoi ça ne tourne pas sur un ordinateur de bureau, mais sur des machines spécialisées (les processeurs des jeux vidéo, en bien plus puissant).
Nous ne sommes pas partis d'une idée en l'air. Ce travail s'appuie sur une vingtaine de corpus scientifiques — des conversations réelles annotées par des chercheurs (CyberAgressionAdo du CNRS, ou des corpus internationaux comme ToxiFrench, HateCheck, Van Hee) — et sur plusieurs dizaines d'études publiées dans le monde, que nous avons recensées et citées (une revue de la littérature mondiale sur le harcèlement, sa détection et l'éthique de la protection des mineurs).
Faire un seul modèle ne suffit pas — il faut prouver qu'il est bon. On a donc comparé une dizaine d'architectures différentes, mené une trentaine d'expériences, en gardant à chaque fois une part des données « sous scellé » (jamais montrée au modèle pendant l'apprentissage) pour le tester sur du vraiment nouveau — sinon, il réciterait par cœur. Et chaque résultat est donné avec sa marge d'erreur et un test de significativité, comme on l'attend d'une mesure scientifique sérieuse.
Nous ne prétendons pas que c'est parfait, ni que c'est « prouvé » :
« On a construit un outil qui sent la forme d'une conversation qui dérape — sans jamais lire les messages — en ajustant un modèle de 110 millions de réglages sur des dizaines de milliers d'exemples, au prix de milliers de milliards de calculs. On l'a mesuré sérieusement, et on vous dit honnêtement ce qu'il sait faire, et ce qui reste à prouver. »
Nous écrivons aussi noir sur blanc nos limites, notre méthode et ce que nous ne savons pas encore faire.