Síguenos en redes sociales:

Cómo detectar una voz generada por inteligencia artificial y evitar engaños

Las voces generadao por IA cada vez suenan menos a robot, pero siguen sin ser capaces de replicar sutiles señales humanas y estos fallos no deben interpretarse como fallos en la red

Cómo detectar una voz generada por inteligencia artificial y evitar engañosFreepik

La IA ya crea voces y vídeos que se hacen pasar por humanos. Algunos delincuentes la están usando para engañar a los ciudadanos, pretendiendo ser empresas o instituciones con el fin de conseguir su dinero. A medida que los modelos de voz generativa maduran, los fallos que delatan un deepfakeson más sutiles. La clave es distinguir la huella algorítmica de una simple mala conexión.

Así lo explica Josep Curto, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC). "A medida que los modelos se perfeccionan, las señales de detección se vuelven más sutiles”, advierte el experto.

Los matices sonoros que podamos detectar nos ayudarán a reconocer una conversación generada por inteligencia artificial.

La mayoría de los deepfakes de voz fallan en cómo suena la conversación más que en el timbre. Curto subraya una regla de oro: en una mala conexión, el sonido fluctúa y el desfase audio/vídeo es errático; en el contenido sintético, los fallos tienden a ser consistentes.

Durante una llamada, el experto recomienda romper la inercia del modelo: pedir que repita una frase inesperada, introducir ruido de contexto (una palmada, teclear fuerte) o intercalar interrupciones cortas para forzar la variaciones. Si no hay cambios, se activa el protocolo de seguridad: devolver la llamada a un número verificado y emplear una palabra clave acordada previamente para autentificar.

Cinco señales fiables

Durante una llamada real, en esto hay que fijarse:

1. Prosodia no natural y entonación plana

La voz de IA no fluye emocionalmente, se producen pausas uniformes o mal situadas, hay saltos abruptos. En una mala red, se oyen cortes o compresión, pero cuando se arregla, el acento y la entonación suenan humanos.

2. Artefactos espectrales

Siseo o brillo anómalo en colas de palabra; audio muy limpio para el entorno. En una mala red, el ruido y la calidad fluctúan, mientras que los artefactos de inteligencia artificial suelen ser consistentes.

3. Desajuste labios-voz en videollamada

En una IA, retraso constante o microanomalías. En mala red hay desfase, pero el movimiento facial sigue siendo orgánico.

4. Microgestos extraños

Parpadeo escaso, mirada fija, sombras aplanadas, cabello/orejas con píxeles raros. En una mala red se verán congelaciones o un macropixelado típico de la compresión.

5. Latencia rara

Los modelos de IA tardan un tiempo fijo en dar la respuesta completa mientras que una red deficiente provoca latencias irregulares y avisos de “conexión inestable”.

Detectores y marcas de agua

La detección de un audio sintético es una especie de carrera en constante evolución, explica Curto. Las herramientas disponibles se centran en el análisis forense de artefactos que los modelos de IA aún no consiguen eliminar. Estas son dos soluciones técnicas prometedoras:

1. Detección forense (modelos de clasificación)

Analizan rasgos acústicos para reconocer patrones de entrenamiento de IA.

  • ASVspoof Challenges: conjuntos de referencia y métricas para entrenar/comparar detectores. Las tasas de error suben cuando la clonación de voz usa un modelo distinto al del entrenamiento.
  • Herramientas para medios: en las redacciones se usan programas con doble capa de IA:señales sintéticas y verificación contextual. Su precisión varía por idioma y hay riesgo de falsos positivos con audio muy comprimido o ruidoso.
  • Detectores de plataformas: son herramientas fiables sobre su propio audio, pero no afinan sobre generadores ajenos (Google/Meta).

2. Marcas de agua

Se trata de etiquetar en origen el contenido generado por IA. Algunas formas de hacerlo son:

  • AudioSeal (Meta): marca imperceptible que permite la detección de partes alteradas. Vulnerable a la compresión MP3,pitch-shift o reverberación. Crecen los falsos negativos con posprocesado adversario.
  • SynthID (Google): esta marca multimodal busca ser detectable tras ediciones (recorte, compresión). Su eficacia depende de los estándares (ISO/IEC) y de la adopción: si el generador no la implementa, no sirve. 

Una cosa que hay que tener en cuenta es que, para detectar una voz generada por IA, hace falta cierta infraestructura, programas que filtren llamadas entrantes para detectar estas señales —algo que la mayoría de las personas no tienen instalado en sus servidores o móviles—. Por ello, hay que seguir entrenando el oído para detectar llamadas sospechosas y evitar estafas con inteligencia artificial.