Qu’est-ce qui compte comme « toxique » ?

Le modèle renvoie des scores pour six catégories définies par le jeu de données Jigsaw/Conversation AI (utilisé pour entraîner des modèles de modération sur les commentaires Wikipédia) — toxique, très toxique, obscène, menace, insulte et haine identitaire. Plus le score est élevé, plus le modèle est confiant que la catégorie s’applique.

Quel modèle est utilisé ?

Un classifieur BERT distillé (Xenova/toxic-bert) servi sous forme de fichier ONNX quantifié (~60 Mo). Il s’exécute via @huggingface/transformers sur WebAssembly, et les poids sont mis en cache dans ton navigateur après la première utilisation.

Mon texte est-il envoyé quelque part ?

Non. Toute la classification a lieu dans ton navigateur. Rien n’est envoyé vers un serveur.

Quelle est sa précision ?

Le modèle est entraîné sur des données de réseaux sociaux et commentaires en anglais, il est donc meilleur sur des contenus similaires. Il peut manquer ironie, dog whistles et toxicité non anglophone. Utilise-le comme assistant, pas comme seul arbitre.

Classifieur de toxicité

Vérifie si un texte est toxique, insultant, menaçant ou haineux avant de le publier ou le partager. Un petit modèle d’IA s’exécute à 100 % dans ton navigateur — sans compte, sans upload.

Vos données ne quittent jamais votre appareil

Foire aux questions

Qu’est-ce qui compte comme « toxique » ?

Le modèle renvoie des scores pour six catégories définies par le jeu de données Jigsaw/Conversation AI (utilisé pour entraîner des modèles de modération sur les commentaires Wikipédia) — toxique, très toxique, obscène, menace, insulte et haine identitaire. Plus le score est élevé, plus le modèle est confiant que la catégorie s’applique.
Quel modèle est utilisé ?

Un classifieur BERT distillé (Xenova/toxic-bert) servi sous forme de fichier ONNX quantifié (~60 Mo). Il s’exécute via @huggingface/transformers sur WebAssembly, et les poids sont mis en cache dans ton navigateur après la première utilisation.
Mon texte est-il envoyé quelque part ?

Non. Toute la classification a lieu dans ton navigateur. Rien n’est envoyé vers un serveur.
Quelle est sa précision ?

Le modèle est entraîné sur des données de réseaux sociaux et commentaires en anglais, il est donc meilleur sur des contenus similaires. Il peut manquer ironie, dog whistles et toxicité non anglophone. Utilise-le comme assistant, pas comme seul arbitre.