Was gilt als "toxisch"?

Das Modell liefert Scores für sechs Kategorien des Jigsaw/Conversation-AI-Datensatzes (zum Training von Moderationsmodellen auf Wikipedia-Kommentaren) – toxisch, stark toxisch, obszön, Drohung, Beleidigung und identitätsbezogener Hass. Höhere Werte bedeuten höhere Konfidenz.

Welches Modell wird verwendet?

Ein destillierter BERT-Klassifikator (Xenova/toxic-bert) als quantisierte ONNX-Datei (~60 MB). Er läuft über @huggingface/transformers auf WebAssembly; die Gewichte werden nach der ersten Nutzung im Browser zwischengespeichert.

Wird mein Text irgendwohin hochgeladen?

Nein. Die gesamte Klassifikation läuft in deinem Browser. Es wird nichts an einen Server gesendet.

Das Modell wurde auf englischen Social-Media- und Kommentardaten trainiert und liefert dort die besten Ergebnisse. Ironie, Dog-Whistles und nicht-englische Toxizität kann es übersehen. Nutze es als Assistenten, nicht als alleinige Instanz.

Toxizitäts-Klassifikator

Prüfe, ob ein Text toxisch, beleidigend, bedrohlich oder hasserfüllt ist, bevor du ihn postest oder teilst. Ein kleines KI-Modell läuft zu 100 % im Browser – kein Konto, kein Upload.

Ihre Daten verlassen niemals Ihr Gerät

Häufig gestellte Fragen

Was gilt als "toxisch"?

Das Modell liefert Scores für sechs Kategorien des Jigsaw/Conversation-AI-Datensatzes (zum Training von Moderationsmodellen auf Wikipedia-Kommentaren) – toxisch, stark toxisch, obszön, Drohung, Beleidigung und identitätsbezogener Hass. Höhere Werte bedeuten höhere Konfidenz.
Welches Modell wird verwendet?

Ein destillierter BERT-Klassifikator (Xenova/toxic-bert) als quantisierte ONNX-Datei (~60 MB). Er läuft über @huggingface/transformers auf WebAssembly; die Gewichte werden nach der ersten Nutzung im Browser zwischengespeichert.
Wird mein Text irgendwohin hochgeladen?

Nein. Die gesamte Klassifikation läuft in deinem Browser. Es wird nichts an einen Server gesendet.
Wie genau ist es?

Das Modell wurde auf englischen Social-Media- und Kommentardaten trainiert und liefert dort die besten Ergebnisse. Ironie, Dog-Whistles und nicht-englische Toxizität kann es übersehen. Nutze es als Assistenten, nicht als alleinige Instanz.

Toxizitäts-Klassifikator

Häufig gestellte Fragen

Was gilt als "toxisch"?

Welches Modell wird verwendet?

Wird mein Text irgendwohin hochgeladen?

Wie genau ist es?