Sous le capot — comment Shelkid est construit

Les grands nombres, vrais et vérifiables

De quoi il s'agit,
concrètement

110 M

réglages dans le modèle (coefficients)

800 000

messages dans le réservoir d'apprentissage

milliers
de milliards

de calculs pour l'entraîner

~20

corpus scientifiques utilisés

~30

expériences mesurées

1.Repérer la forme, pas lire le contenu

Un harcèlement, ça ne se voit pas dans un mot isolé. Ça se voit dans une forme qui se répète : toujours la même personne visée, des messages qui reviennent la nuit, un déséquilibre, un isolement. Shelkid apprend à reconnaître cette forme — sans jamais lire le contenu des messages de votre enfant. Tout se passe sur le téléphone ; rien n'est envoyé ailleurs.

2.« Le modèle » : une fonction géante

En classe de terminale, on manipule des fonctions : on donne un nombre, elles en ressortent un autre. Notre « modèle » est une fonction géante : on lui donne un message, elle ressort un niveau de risque (rien / murmure / alarme). Sa particularité, c'est sa taille : environ 110 millions de coefficients — 110 millions de petits réglages, là où une fonction de cours en a deux ou trois (le a et le b de ax + b).

3.L'entraînement : ajuster 110 millions de réglages

On ne règle pas ces 110 millions de coefficients à la main : on les apprend. Le principe est celui qu'on voit en terminale pour chercher le minimum d'une fonction : on mesure l'erreur, on regarde dans quel sens elle diminue (la pente, la dérivée), et on ajuste dans ce sens. On recommence des dizaines de milliers de fois, sur des dizaines de milliers de conversations (de 40 000 à plus de 60 000 selon les versions), annotées une par une.

4.Les « millions de calculs » — l'ordre de grandeur réel

Analyser un seul message demande déjà des centaines de millions d'opérations. Entraîner le modèle, c'est refaire ce calcul des dizaines de milliers de fois : au total, plusieurs milliers de milliards d'opérations. C'est pourquoi ça ne tourne pas sur un ordinateur de bureau, mais sur des machines spécialisées (les processeurs des jeux vidéo, en bien plus puissant).

5.Fondé sur la science publiée — pas sur notre intuition

Nous ne sommes pas partis d'une idée en l'air. Ce travail s'appuie sur une vingtaine de corpus scientifiques — des conversations réelles annotées par des chercheurs (CyberAgressionAdo du CNRS, ou des corpus internationaux comme ToxiFrench, HateCheck, Van Hee) — et sur plusieurs dizaines d'études publiées dans le monde, que nous avons recensées et citées (une revue de la littérature mondiale sur le harcèlement, sa détection et l'éthique de la protection des mineurs).

6.La rigueur : on n'a pas tâtonné, on a comparé et mesuré

Faire un seul modèle ne suffit pas — il faut prouver qu'il est bon. On a donc comparé une dizaine d'architectures différentes, mené une trentaine d'expériences, en gardant à chaque fois une part des données « sous scellé » (jamais montrée au modèle pendant l'apprentissage) pour le tester sur du vraiment nouveau — sinon, il réciterait par cœur. Et chaque résultat est donné avec sa marge d'erreur et un test de significativité, comme on l'attend d'une mesure scientifique sérieuse.

7. Notre honnêteté — ce qu'on dit, et ce qu'on ne dit pas

Nous ne prétendons pas que c'est parfait, ni que c'est « prouvé » :

nos jeux de test sont encore petits, et en partie fabriqués ;
le modèle est prometteur, mais pas encore validé au sens scientifique strict ;
c'est pour cela que des chercheurs spécialisés vont vérifier notre travail, et qu'aucun chiffre n'est présenté ici comme une vérité définitive.

Pour aller plus loin

Tout est vérifiable

Nous écrivons aussi noir sur blanc nos limites, notre méthode et ce que nous ne savons pas encore faire.

La note méthodologique → Sécurité & confidentialité →

Comment Shelkidest construit.

De quoi il s'agit,concrètement