Clasificador de toxicidad
Comprueba si un texto es tóxico, insultante, amenazante u odioso antes de publicarlo o compartirlo. Ejecuta un modelo de IA pequeño al 100 % en tu navegador — sin cuenta, sin subidas.
Tus datos nunca salen de tu dispositivoPreguntas Frecuentes
-
¿Qué cuenta como "tóxico"?
El modelo devuelve puntuaciones para seis categorías definidas por el dataset Jigsaw/Conversation AI (usado para entrenar modelos de moderación sobre comentarios de Wikipedia) — tóxico, muy tóxico, obsceno, amenaza, insulto y odio por identidad. Una puntuación más alta indica más confianza del modelo.
-
¿Qué modelo se usa?
Un clasificador BERT destilado (Xenova/toxic-bert) servido como archivo ONNX cuantizado (~60 MB). Corre vía @huggingface/transformers sobre WebAssembly y los pesos se cachean en tu navegador tras el primer uso.
-
¿Se sube mi texto a algún sitio?
No. Toda la clasificación ocurre en tu navegador. No se envía nada a un servidor.
-
¿Qué tan preciso es?
El modelo está entrenado con datos de redes sociales y comentarios en inglés, por lo que rinde mejor en contenido similar. Puede fallar con sarcasmo, silbatos de perro y toxicidad en otros idiomas. Úsalo como asistente, no como único árbitro.