Toxizitäts-Klassifikator
Prüfe, ob ein Text toxisch, beleidigend, bedrohlich oder hasserfüllt ist, bevor du ihn postest oder teilst. Ein kleines KI-Modell läuft zu 100 % im Browser – kein Konto, kein Upload.
Ihre Daten verlassen niemals Ihr GerätHäufig gestellte Fragen
-
Was gilt als "toxisch"?
Das Modell liefert Scores für sechs Kategorien des Jigsaw/Conversation-AI-Datensatzes (zum Training von Moderationsmodellen auf Wikipedia-Kommentaren) – toxisch, stark toxisch, obszön, Drohung, Beleidigung und identitätsbezogener Hass. Höhere Werte bedeuten höhere Konfidenz.
-
Welches Modell wird verwendet?
Ein destillierter BERT-Klassifikator (Xenova/toxic-bert) als quantisierte ONNX-Datei (~60 MB). Er läuft über @huggingface/transformers auf WebAssembly; die Gewichte werden nach der ersten Nutzung im Browser zwischengespeichert.
-
Wird mein Text irgendwohin hochgeladen?
Nein. Die gesamte Klassifikation läuft in deinem Browser. Es wird nichts an einen Server gesendet.
-
Wie genau ist es?
Das Modell wurde auf englischen Social-Media- und Kommentardaten trainiert und liefert dort die besten Ergebnisse. Ironie, Dog-Whistles und nicht-englische Toxizität kann es übersehen. Nutze es als Assistenten, nicht als alleinige Instanz.