Estafa con deepfake-CEO: Cómo los líderes pueden contrarrestar el clon de voces

7 Min. de lectura

Bastan unos pocos segundos de audio para clonar una voz de manera convincente. Con ello, es posible suplantar a un director general por teléfono y ordenar una transferencia urgente. Un antivirus no sirve de nada aquí. La protección surge de un proceso de verificación fijo antes de cada pago. Directivos y equipos financieros necesitan normas acordadas que se apliquen antes de que el dinero se mueva.

Lo más importante en resumen

La barrera es baja: Unos pocos segundos de audio disponible públicamente son suficientes para obtener un clon de voz útil. Mensajes de voz, entrevistas y llamadas proporcionan el material necesario.
El oído no es protección: Estudios demuestran que las personas apenas pueden reconocer voces clonadas de manera fiable. Quien confía en su propio oído no tiene defensa.
Normas claras en lugar de corazonadas: Una llamada de vuelta por un canal conocido, palabras clave acordadas y el principio de los cuatro ojos en los pagos frenan el fraude de manera más efectiva que cualquier solución puramente técnica.

Relacionado:Clones de voz con IA: cómo se protegen las empresas del espacio DACH / Phishing con IA: los filtros de correo se quedan ciegos

Por qué los directivos son el objetivo preferido

¿Qué es un deepfake? Un deepfake es un medio generado o alterado con inteligencia artificial que imita de manera engañosa a una persona real en su voz, rostro o ambos. En el caso del clon de voz, basta con una breve muestra de audio para que el sistema haga decir a una persona frases que nunca ha pronunciado.

Lo nuevo no es el método, sino la herramienta. En el llamado fraude del CEO, también conocido en alemán como *Chef-Masche*, un atacante se hace pasar por el director general o el director financiero y ordena una transferencia urgente a una nueva cuenta. Antes se hacía mediante correos electrónicos falsificados. Hoy, además, llega la llamada con la voz familiar y, en casos avanzados, incluso una videollamada falsa.

Los directivos son un objetivo atractivo porque su voz está disponible públicamente y sus instrucciones tienen peso. Conferencias, entrevistas y apariciones en podcasts proporcionan abundante material de audio. Un caso conocido en una empresa de ingeniería de Hong Kong mostró cómo un empleado transfirió una cantidad de dos dígitos en millones tras una videoconferencia falsa. Los atacantes apuestan por la autoridad y la presión temporal, una combinación que busca eludir los pasos de verificación.

Por qué la tecnología por sí sola no basta

La esperanza más obvia es una herramienta que detecte las falsificaciones. Existen estos detectores de deepfakes y son útiles. Pero una empresa no puede confiar plenamente en ellos, porque las falsificaciones mejoran tan rápido como la detección.

Aún más débil es la percepción humana. Los estudios demuestran que las personas no reconocen de manera fiable vídeos deepfake de alta calidad y que muchos no pueden distinguir con seguridad una voz clonada de una real. El oído, en el que muchos quieren confiar en caso de emergencia, no es, por tanto, un control fiable. Lo único fiable al final es el procedimiento organizativo.

El manual de verificación para dirección y equipo financiero

Una protección eficaz consiste en unas pocas reglas claramente acordadas que toda orden de pago debe seguir. Lo importante es que estas reglas se establezcan de antemano y no estén sujetas a discusión en caso de emergencia.

Cómo verificar

Devolver la llamada a un número conocido y elegido por uno mismo
Palabra clave acordada para instrucciones delicadas
Principio de los cuatro ojos en cada aprobación de pago
Límites fijos de aprobación y un segundo canal

En qué no se puede confiar

La voz suena auténtica
El número en la pantalla parece familiar
El interlocutor conoce detalles internos
La instrucción viene de muy arriba

El paso individual más importante es la devolución de la llamada. Quien recibe una orden de pago inusual, debe devolver la llamada a un número buscado por sí mismo, no al indicado en la llamada. Esto incluye una palabra clave acordada que distingue las instrucciones auténticas de las falsificadas, y el principio de los cuatro ojos, por el que ningún pago crítico es aprobado por una sola persona. La formación en concienciación mantiene estas reglas presentes, ya que un proceso solo ayuda si alguien lo aplica en el momento decisivo.

Dónde entran en juego el RGPD y la NIS2

Las voces y los rostros son datos personales. Quien procese grabaciones de voz para verificación o detección de falsificaciones se mueve dentro del ámbito de aplicación del RGPD y necesita una base legal sólida, así como normas claras de eliminación. Los procedimientos biométricos exigen especial cuidado.

Para muchas empresas, además, entra en juego la NIS2. La directiva exige a las entidades afectadas una gestión adecuada de riesgos y la notificación de incidentes significativos. Un fraude exitoso mediante deepfake con daños elevados puede estar incluido. Así, la protección contra clones de voz deja de ser una mera cuestión financiera para convertirse en parte de las obligaciones de seguridad y cumplimiento.

Preguntas frecuentes

¿Cuánto material de audio necesita un atacante para clonar una voz?

Muy poco. Según informes, bastan unos pocos segundos de grabación de voz para reproducir una voz de manera útil. Dado que los directivos suelen hablar en público con frecuencia, el material suele estar disponible libremente, por ejemplo, en entrevistas, conferencias o podcasts.

¿Se puede reconocer una voz clonada por su sonido?

Difícilmente de forma fiable. Los estudios muestran que la mayoría de las personas no pueden distinguir con seguridad una falsificación de voz bien hecha de una auténtica. Por eso, el sonido nunca debe ser el criterio para aprobar un pago, sino solo un proceso de verificación acordado.

¿Cuál es la medida individual más eficaz?

La devolución de la llamada a través de un canal independiente y elegido por uno mismo. Quien verifica una instrucción inusual a través de un número conocido, en lugar del indicado en la llamada, actúa precisamente sobre la presión temporal con la que opera el fraude.

¿Es suficiente una herramienta de detección de deepfakes como protección?

Como protección única, no. Estas herramientas son un complemento útil, pero las falsificaciones mejoran continuamente. Lo fiable es solo la combinación de normas organizativas -devolución de llamada, palabra clave y principio de los cuatro ojos- y empleados formados.

¿Debemos regular esto desde el punto de vista del cumplimiento?

En muchos casos, sí. El tratamiento de datos de voz está sujeto al RGPD, y para las entidades afectadas por la NIS2, la protección contra este tipo de ataques forma parte de la gestión de riesgos exigida, junto con las obligaciones de notificación. La protección contra clones de voz es, por tanto, también una tarea de cumplimiento.