Zum Inhalt springen
Ad: top-banner (320x50)

Toxizitäts-Klassifikator

Prüfe, ob ein Text toxisch, beleidigend, bedrohlich oder hasserfüllt ist, bevor du ihn postest oder teilst. Ein kleines KI-Modell läuft zu 100 % im Browser – kein Konto, kein Upload.

Ihre Daten verlassen niemals Ihr Gerät
Ad: sidebar (300x250)
Ad: mid-banner (300x250)

Häufig gestellte Fragen

  • Was gilt als "toxisch"?

    Das Modell liefert Scores für sechs Kategorien des Jigsaw/Conversation-AI-Datensatzes (zum Training von Moderationsmodellen auf Wikipedia-Kommentaren) – toxisch, stark toxisch, obszön, Drohung, Beleidigung und identitätsbezogener Hass. Höhere Werte bedeuten höhere Konfidenz.

  • Welches Modell wird verwendet?

    Ein destillierter BERT-Klassifikator (Xenova/toxic-bert) als quantisierte ONNX-Datei (~60 MB). Er läuft über @huggingface/transformers auf WebAssembly; die Gewichte werden nach der ersten Nutzung im Browser zwischengespeichert.

  • Wird mein Text irgendwohin hochgeladen?

    Nein. Die gesamte Klassifikation läuft in deinem Browser. Es wird nichts an einen Server gesendet.

  • Wie genau ist es?

    Das Modell wurde auf englischen Social-Media- und Kommentardaten trainiert und liefert dort die besten Ergebnisse. Ironie, Dog-Whistles und nicht-englische Toxizität kann es übersehen. Nutze es als Assistenten, nicht als alleinige Instanz.